微軟、亞馬遜、臉書如何靠AB測試創(chuàng)收上億美金?

來源:全球贏
作者:MarTechApe
時間:2020-08-11
3450
時至今日,Microsoft,Amazon,Booking.com,F(xiàn)acebook,和Google,這樣的大體量互聯(lián)網(wǎng)公司每年進行的實驗高達上萬個,測試幾百萬用戶的行為。

2012年,微軟的一位Bing的工程師想改變廣告標題在Bing的搜索結果中的展現(xiàn)方式。實現(xiàn)這個想法只需要幾行代碼,但是它被淹沒在成百上千的新提議中,沒有受到重視。直到6個月后,一名工程師重拾了這個“遺珠”,在Bing上測試了一個實驗——A/B Test。通過A/B Test,一部分的用戶可以看到改變后的廣告展示方式,而另一部分用戶看到的界面保持原樣不變,以此測試效果。驚人的是,幾小時內新的廣告展示方式就產(chǎn)生了極高的廣告收入,高到監(jiān)測系統(tǒng)誤認為這是一個程序內的bug。這個小小的改變,成功將Bing的收益提高了12%,即每年1億美金。可謂是Bing史上最厲害的賺錢點子了。

Bing的這個例子告訴我們,一一測試所有的新點子,絕對是一件大工程。但是人們也開始意識到,如果同時進行多個版本簡單的測試,性價比極高。

ia_800000003.jpg

時至今日,Microsoft,Amazon,Booking.com,F(xiàn)acebook,和Google,這樣的大體量互聯(lián)網(wǎng)公司每年進行的實驗高達上萬個,測試幾百萬用戶的行為。而初創(chuàng)公司,和對互聯(lián)網(wǎng)依賴程度較低的公司,像Walmart,租車公司,航空公司,也會定期進行小規(guī)模測試。因為決策者們普遍發(fā)現(xiàn),“測試一切”的方法能為公司帶來極大回報。對Bing來說,A/B測試每月成功地幫助公司敲定了和數(shù)十個收益相關的改動,這些改動每年將Bing每次搜索的收益增加了10%-25%。

除此以外,A/B測試也對提升用戶滿意度做出了巨大貢獻。每月數(shù)以百計的改動,不僅提高了Bing的獲利能力,還將Bing在美國搜索引擎的市場占有率,從初創(chuàng)時的8%提高至23%。

在這個網(wǎng)絡對所有行業(yè)都至關重要的時代,嚴格的在線測試應該成為企業(yè)標準操作程序中的一環(huán)。除了網(wǎng)站,A/B測試還能方便快捷地評估商業(yè)模型,企業(yè)決策,產(chǎn)品,服務,營銷活動等不同方面。有了A/B測試,企業(yè)決策的過程變得更科學,告別了依賴直覺,拍腦袋做決定的時代。但是遺憾的是,很多企業(yè)并不知道如何科學合理地進行測試,或者測試的次數(shù)遠遠不夠。

今天我們來看看,如何合理地設計、執(zhí)行測試,解讀測試結果,解決可能的問題。利用文中的例子,舉一反三,你就可以從容應對更復雜的A/B測試。

ia_800000004.png

A/B測試的價值

A/B測試中,實驗設計人員會設計兩個版本的實驗。

A:控制版,通常是已有系統(tǒng),假設為成功版。

B:實驗版,經(jīng)過改動的版本,借以挑戰(zhàn)現(xiàn)存的成功版。

隨機分配不同版本給用戶體驗,并比較兩個版本的關鍵性指標(單變量測試:比較A/B/C,和A/B/C/D版本。多變量測試:同時評估多個變量的不同版本)。不同版本的變量,可以是新功能的增加,用戶界面的更改(例如新的排版),后端的改動(例如改進亞馬遜書籍推薦的算法)或不同商業(yè)模型的測試(例如提供免費送貨)。對于決策者關心的,企業(yè)運營中的各個環(huán)節(jié)(比如:銷售量,重復使用率,點擊率或用戶在頁面停留的時間),都可以通過線上A/B測試來對其進行優(yōu)化。

ia_800000005.png

任何擁有上千日活(Daily Active User)的公司都能實行A/B測試。通過A/B測試,公司能獲取大量用戶樣本、自動收集網(wǎng)站和APP上大量用戶交互數(shù)據(jù)、以及同時運行多個版本測試,從而快速精準,低成本地評估許多實驗,達到系統(tǒng)的快速迭代,企業(yè)發(fā)展的迅速轉向。在今天,許多科技公司意識到了A/B測試的優(yōu)點,這些公司有一個單獨的團隊負責構建、管理和改進測試架構的工作,為產(chǎn)品組提供服務。合理利用A/B測試,會為公司提供極大的競爭優(yōu)勢。

1.小改變可能有大影響

一個常見的商業(yè)誤區(qū)是:只有大投入才會產(chǎn)生大影響。但在互聯(lián)網(wǎng)世界并非如此,成功更多源于很多正確的小改變。雖然商業(yè)世界更推崇大的、顛覆性的想法,實際上,大多數(shù)成功都是通過累積成百上千的小改進來實現(xiàn)的。

再來看一個Microsoft微軟的例子,2008年,一名英國的微軟員工提出了一個看似很小的建議:當用戶點擊MSN主頁上的Hotmail鏈接時,自動為Hotmail打開一個新窗口,而不是在同一個頁面上跳轉至Hotmail。通過在90萬英國用戶中進行了測試,微軟發(fā)現(xiàn)了一個激動人心的結果:通過MSN主頁打開Hotmail的用戶量增加了8.9%。然而,大家對這個改變眾說紛紜,因為當時幾乎不會有網(wǎng)站會在新的標簽頁上打開鏈接,所以微軟只在英國采取了這個小小的改變。

2010年6月,Microsoft微軟對270萬美國用戶進行了同樣的實驗,獲得了類似的結果,因此微軟開始在全球推行這項改變。除此以外,微軟還探尋了此項改變是否能同樣作用于其他功能上。在一項針對美國1200萬用戶的測試中,微軟發(fā)現(xiàn),通過在新的標簽頁上展現(xiàn)用戶在MSN的搜索結果,用戶點擊量增加了5%。新標簽中打開鏈接是一個極易實現(xiàn)的改變,只需幾行代碼,使這成為了微軟提高用戶參與度的最佳方法之一。除了Microsoft微軟,F(xiàn)acebook臉書、Twitter推特等在內的許多網(wǎng)站至今都在使用這項技術。

微軟的例子并非獨一無二。亞馬遜在測試中發(fā)現(xiàn),將信用卡優(yōu)惠活動從網(wǎng)站主頁移到購物車頁面,每年可增加數(shù)千萬美元的利潤。

這些公司的經(jīng)驗說明,小投資可以產(chǎn)生大回報。然而,大投資可能只很產(chǎn)生很少,甚至0回報。比如微軟曾花費超過2500萬美元,將Bing必應與社交媒體一體化——在搜索結果頁面的第三窗格內展示Facebook和Twitter的相關內容,但此舉在用戶參與度和收入方面產(chǎn)生的影響微乎其微。

ia_800000006.jpg

2.實驗可以引導投資決策

線上測試可以幫助決策者了解對于潛在改進的理想投資數(shù)額。舉個例子,微軟曾面臨一個問題:如何縮短Bing顯示搜索結果所需時間。當然,結果顯示肯定是越快越好。但是公司該如何量化提高搜索速度所帶來的價值呢?團隊應該用3個人、10個人還是50個人來提升性能呢?為了解決這些問題,微軟進行了一系列的A/B測試:通過為搜索速度添加人為延遲,研究了加載速度的細微差異所產(chǎn)生的影響。數(shù)據(jù)表明,每100毫秒加載速度差異對公司收益的影響為0.6%。與此同時,Bing必應的年收益已經(jīng)超過30億美元,那么每100毫秒的提速就能增加1800萬美元的年收入——足以維持一個規(guī)??捎^的團隊運作。

A/B測試結果也幫助了必應Bing權衡重要商業(yè)決策,尤其是那些可能提高搜索結果相關性,但會減慢軟件響應速度的功能。為了避免多個小改動累積導致的顯著性能下降,Bing會在團隊改良搜索引擎和其他組件性能后,再上線會降低響應速度毫秒或以上的新功能。

大浪淘沙始見金

早在100年以前,百貨公司老板John Wanamaker就有一句營銷名言:“我在廣告上的投入有一半都是浪費,但我不知道是哪一半?!边@句話同樣適用于A/B測試,因為絕大部分試圖超越已有版本的新實驗都會以失敗告終,即使是專家也經(jīng)常錯誤地估計實驗結果。在Google和Bing,只有10%~20%的測試會有積極成果。在Microsoft,1/3的測試有積極影響,1/3的有負面影響,還有1/3沒有產(chǎn)生影響。這就像青蛙王子的故事,想要發(fā)現(xiàn)好點子,公司需要親吻很多青蛙(進行大量的實驗)才能找到王子。

A/B測試極易被錯誤使用

正式進行A/B測試之前,團隊應該確保測試版本既不會降低性能,也不會產(chǎn)生意料之外的結果。在必應Bing,除了一些低風險的bug修復和硬件類操作系統(tǒng)升級,其余80%的改動會首先以控制變量的實驗方式進行。

大部分的科學測試的基礎框架都需要以下幾項:記錄工具(記錄例如用戶點擊、鼠標懸停和事件時間等數(shù)據(jù))、數(shù)據(jù)流和專業(yè)的數(shù)據(jù)科學家。隨著A/B測試的發(fā)展和普及,網(wǎng)絡上出現(xiàn)了一些針對A/B測試的第三方工具和服務。但如果企業(yè)有大規(guī)模測試的需求,第三方工具和服務很難勝任。穩(wěn)定的基礎框架能降低每次的實驗成本,并提高實驗結果可靠性。相反,如果基礎框架缺失,企業(yè)測試的成本會居高不下,從而導致決策者不愿進一步投入,或進行更多試驗。

ia_800000007.png

微軟的A/B測試基礎架構就是一個優(yōu)秀范例:Microsoft的分析實驗團隊有80多人,每天可以實行數(shù)以百計的產(chǎn)品在線對照試驗(包括Bing,Cortana,Exchange,MSN,Office,Skype,Windows和Xbox等各種產(chǎn)品)。每次測試會有數(shù)十萬至千萬用戶參與試用新改動,團隊對測試結果進行嚴密的統(tǒng)計分析,并自動生成記分板,一一檢查幾百到上千個指標后,標記那些成效顯著的改動。(當然如果你的企業(yè)規(guī)模較小,或對實驗依賴度較低,實驗團隊投入可以降低)

3.三種企業(yè)常見的實驗團隊人員結構:

1.集中型(Centralized model)

集中型結構意味著會有一組數(shù)據(jù)科學家為整個公司服務。這種結構的優(yōu)點是,實驗組人員可以持續(xù)關注長期項目,比如設計更好的實驗工具和開發(fā)更先進的統(tǒng)計算法。但一大缺點是,一個實驗組在服務所有產(chǎn)品組時,會對實驗任務有不同的優(yōu)先級,這可能導致各組之間資源和成本分配的沖突。另一個問題是,當數(shù)據(jù)科學家著手商業(yè)項目時,可能會因為缺乏專業(yè)知識和商業(yè)經(jīng)驗而難以將實驗結果關聯(lián)起來,更難看到結果背后的關鍵點。除此以外,數(shù)據(jù)科學家的身份可能缺乏影響力,無法說服決策層相信實驗結果或者為技術投資。

2.分離型(Decentralized model)

分離型結構是企業(yè)為不同的業(yè)務部門配置數(shù)據(jù)科學家。這種的優(yōu)點是,數(shù)據(jù)科學家可以成為其負責業(yè)務領域的專家。但缺點也很明顯:對于員工而言,只為一個業(yè)務部門工作,數(shù)據(jù)科學家未來的職業(yè)道路并不明朗,同時也會缺乏同事的反饋和指導。而對于實驗而言,只針對單個部門的實驗可能不足以證明改動提案的合理性。

3.衛(wèi)星型(Center-of-excellence model)

衛(wèi)星型是讓一些數(shù)據(jù)科學家成為團隊,集中工作,剩余的數(shù)據(jù)科學家分散在不同的業(yè)務部門(微軟采用的結構)。團隊中心主要負責對照實驗的設計、執(zhí)行和結果分析。有了團隊統(tǒng)一為公司構建的實驗平臺和實驗工具,企業(yè)可以顯著降低A/B測試所需的時間和資源。除此以外,團隊還能基于優(yōu)秀實驗開設課程,舉辦Lab和會議,在全公司范圍推廣。衛(wèi)星型結構的主要的缺點是,中心團隊和產(chǎn)品團隊的責任劃分可能并不明晰,比如當需要增加測試數(shù)量時,哪個團隊應為招聘更多的數(shù)據(jù)科學家來買單呢?

實驗團隊結構的好壞不是絕對的非黑即白。小公司一般會使用第三方服務,或者從集中型結構起步。待公司發(fā)展壯大后,轉向其他結構。對于擁有多個業(yè)務組的大公司,那些高度依賴測試的業(yè)務組管理層,會在企業(yè)統(tǒng)一規(guī)劃前實行測試,那么分離型結構就較為適用這種情況。如果在線實驗是公司決策環(huán)節(jié)中的不可或缺的一環(huán),可以通過衛(wèi)星型結構的中心團隊先構建實驗范例,制定實驗標準,然后再將其推行至各個業(yè)務部門。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權說明:本文內容來自于全球贏,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關注
獲取更多出海資訊的相關信息
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家