如何在低流量產品中做實驗,做出有品質的產品決策?
雖然 A/B Testing 是一種很直接、公正又簡單的產品驗證方式,能夠協助 PM 們做更 Data-informed 的好決策。但在現實中其實「無法做 A/B Test」的情況又蠻常見,在這些情況下我們該怎麼依然有憑有據的做出合理產品決策呢?
以下我統整了一些最近學到 A/B Test 以外的產品驗證方法或流程,希望能協助可能跟我一樣有點迷惘的產品經理們有脈絡的做決策。
▍哪些狀況不適合 A/B Test?遇到這些狀況該怎麼辦?
除了公司沒資源沒有實驗架構老闆不給時間這些原因以外,這四種情況也不太適合做 A/B Test,以下隨情境附上推薦的解決方案:
【 狀況一:流量太低 】
當產品每天只有千位甚至百位活躍用戶,A/B Test 分組下去一組只剩幾百甚至幾十人,這樣的情況通常不適合做那種改一點按鈕顏色、改一點文字翻譯的小步快跑 A/B Test,因為如同大家所知,樣本太少時並不容易達成統計上的顯著。
💡 推薦方法:質化研究為根基的「大步跑」
一個 A/B Test 若樣本數多、產品改動的影響大、時間跑得長,就越容易達成統計上顯著。所以其實低流量也不是什麼問題,只是那些線上樣本計算機會跟你說「喔對啊你實驗只要跑 5487 天就會有顯著結果喔!」。
現實中我們當然不可能乖乖等 5487 天,通常都希望在幾周內可以看到結果,才好做下一步的產品規劃,所以這個時候我們可以盡量把產品改動的規模擴大做大,屏除小步快跑來個大步跑,若帶來的影響夠大,自然也會更容易達成統計上的顯著。你可以試試這樣做:
Step 1:為了降低大改帶來的風險,執行扎實徹底的用戶研究
Step 2:規劃大改動(例如整頁資訊架構調整,前後流程調整等等)
Step 3:改動上線後輔佐其他回饋工具來做驗證,例如使用 NPS 工具,在產品內嵌入簡單的問卷表單,與客服協作獲得 Insight 等。還是可以試著跑跑看 A/B Test,如果效果不錯 Impact 夠大也是可以獲得統計上顯著的。
Step 4:若還是想得到量化資訊,可以考慮在未來產品流量提升之後,進行 Blackout Experiment 來量測。所謂 Blackout,就是將某個已上線的改動或功能在實驗中暫時關掉,看看這些改動或功能是否真的有 Impact。
除了這種「扎實版大步跑」以外也有一些其他方法手段,我會在下一大段落中一並分享其他在低流量產品身上也能試用的產品實驗設計方法,有興趣的朋友可以滑動到底下閱讀。
【 狀況二:2B 產品 】
當你的產品用戶非一般消費者、而是天天要用你的產品工作的「專業使用者」或企業,比如說用 POS 系統點餐的餐廳店員、用飯店管理工具後台確認訂房付款狀況的飯店櫃檯等等,他們已經習慣按鈕顏色、位置、功能,需要一致的體驗,可能也禁不起你三天一小改五天一大改、無法預期的產品實驗。
💡推薦方法:利用 Beta program 進行快速回饋與溝通
可以試著和幾個關鍵用戶討論看看他們是否願意加入「新功能搶先用的」 Beta program,以他們為主要用戶研究對象、訪談、規劃與開發產品,開發後的新功能與改動再先利用 Beta program 上線,以獲取早期回饋。
等到這些功能與改動比較成熟穩定,再開始對其他用戶做中大型規模的 A/B Test 來做最後的驗證。這樣的話就可以減低對專業用戶的干擾程度,也較好對 Beta program 用戶們做期待管理。
延伸閱讀:
【 狀況三:新產品 】
新產品除了跟流量低的產品有相同問題以外,相較於成熟產品,MVP 和理想的商業模式通常差比較遠,產品本身體驗和用戶真正的需求落差也可能更大,在這個時候若還堅持每次只改動一個變因、慢慢用 A/B Test 當成唯一學習驗證管道,或許也不是最有效率的方式。
💡推薦方法:質化研究與規律用戶測試為王
在新產品的階段,基本上和狀況一的低流量一樣,需要更多市場研究、用戶研究、競品研究等資訊來提供洞見,以及輔佐回饋工具與客服狀況來了解上線後的成效。
尤其在 MVP 開發階段,由於產品根本還沒上線也毫無 A/B Test 的可能性,建議安排規律的(每個月或甚至每週)User Testing,利用手邊的 Prototype 去獲得早期回饋再來做產品調整,就不用等到上線之後才崩潰發現都做得不對。另外以早期產品來說,除了易用性與功能,也建議要持續驗證整個產品的商業模式,打好基礎,也一邊收集能夠應用在未來產品路途身上的資訊。
【 狀況四:難以測量的體驗或易用性提升 】
在大部分情況下,提升易用性、增加便利性還是可以被量測的,但我之前曾遇過一個我真的不知如何量測的狀況:我們想改善照片編輯 App 的操作手勢,我和設計師在長按、雙點擊、一長一短點擊這種常見手勢該搭配什麼對應功能之間掙扎,長按該把照片往底部推?還是編輯照片?還是拉到最上層?這個說實在我到現在還沒想到可以跑 A/B Test 的方法(有想法的朋友歡迎跟我分享),因為這件事的驗證牽涉到用戶手勢意圖(Intent),是數據很難告訴我們的資訊。
💡推薦方法:大樣本質化研究
一般的用戶研究會測試五位用戶左右,因為根據研究計算,只要測試五位用戶就可以看出行為模式、涵蓋大部分的痛點。這裡我所謂的大樣本是指比平常用戶研究數量還多兩三倍的質化研究,之前的經驗是我們從咖啡廳、路上、辦公室等地對 10–20 位用戶做了易用性測試,確實記錄每個動作、手勢、使用流程與背後的動機和意圖,再畫成表格比較優缺點。
在做這件事情的時候一定要很小心,確保 (1) 受測者涵蓋你的目標用戶區隔 (2) 詢問的方式不帶引導性 (3) 詳實紀錄比較用戶的意圖(Intent)以獲得最公正的資訊。
延伸閱讀:
使用者訪談的成敗關鍵:如何找到適合的訪談對象?
能從使用者身上學到多少,決定了我們的訪談成效啊。那我們要如何招募目標使用者?如何驗證他就是我要找的人?又要如何避免被受訪者放鳥呢?
medium.com
▍六招低流量產品也適用的產品實驗設計方法
如果你的產品整體其實有些流量,但你只負責一部分的產品或注重某個國家或區域,這裡提供六個小撇步協助你設計一個「測得出結果」的 A/B Test:
1. 找流量
哪裡有流量就往哪裡實驗!可以合併不同的用戶區隔增加樣本數,或者選擇在產品流量較大的頁面做實驗(以電商為例,可以盡量在流量較多的如 Landing Pages、搜尋結果頁驗證你的產品假設,避開那些結帳流程的末端)
2. 將統計功效(Statistical Power)納入排優先級的考量
在排優先級時,選擇樣本數多、Base conversion 低、預估影響力大這些「能夠被 A/B Test 驗證的」功能。可以利用線上的統計樣本計算機,先設定自己「最多可以接受實驗跑多久」的目標再反過來計算需要的樣本數。記得在做這件事情之前,要先向夥伴說明為何實驗很重要、為何統計顯著很重要等等,讓團隊都可以理解排序背後的意義。
3. 以創造更大效益為目標擴大改動規模
停止那些改一點按鈕顏色、改一點文字翻譯的小步快跑 A/B Test,以創造更大效益為目標,花時間去研究怎麼開發中大型但有意義的改動。但同樣的這個做法風險也比較高,記得搭配扎實的事前準備與研究來服用。
4. 把時間和資源移到開發前的研究與早期驗證
既然數據還無法提供證據,那就用質化研究與回饋來了解用戶行為與動機,這些洞見同時也可以成為產品長大後很好的實驗素材。
5. 延長實驗時間
如果可以接受,也可以將實驗時間設定比較長,一樣可以用上面提過的樣本計算機得出合理 Runtime。但記得跑多久這件事一定要在實驗開跑前就規劃好,一但確定,就算提早看到成效也不要把實驗提早結束,也不要為了看到結果就無限延長,因為那都很有可能是 False positive(以為有效果但其實沒有,只是統計上. 95 趴信心水準裡其實不準的那 5 趴)
6. 重新思考目標指標
如果 A/B Test 中的主指標一直不見效,有可能是因為指標本身很難撼動,可以試著找找其他較容易觀察成效的先行指標(Leading Metrics)。但這件事情跟方法五一樣,也最好在實驗前就先規劃好,不然如果只是到處翻找顯著改善的數據指標,一樣很有可能是 False positive。
不知道什麼是 Leading Metric?請看延伸閱讀中的解釋:
投資有賺有賠,在使用以上方法前,請先充分了解它們的優缺點與風險喔!
▍證據金字塔
最後想來分享一下這個「證據金字塔」的概念。閱讀完以上建議,大家可能會發現,其實在不能做 A/B Test 的情況下,許多的替代方案都是結合質化研究、回饋收集來獲得決策需要的「證據」。
一個有品質的產品決策,最重要的就是有清晰的脈絡與有說服力的原因來告訴你的團隊、你的主管和你的用戶「為什麼」這是個正確的決定,而這些原因都必須要被某種公正證據支撐著。PM 或設計師所要做的,其實也就是因應不同狀況、找到對的工具、蒐集足夠的資訊來做合理決策。

之前在一個產品實驗演講中聽到上面這個證據金字塔的概念,從底層到高層代表著不同證據的強弱,樣本越多,證據也會越強。上網估狗發現它好像通常被用在醫學研究上,我這邊用產品開發的角度標注一些常見的產品驗證與研究工具,之後如果碰到決策卡關的狀況,可以來參考看看針對當下情況,哪一項證據最有力且 cost-effective。
最後跟分享一篇 A/B Testing 常見迷思當作延伸閱讀,祝大家實驗順利!






