微軟、亞馬遜、臉書如何靠AB測試創(chuàng)收上億美金？

來源：全球贏

作者：MarTechApe

時(shí)間：2020-08-11

時(shí)至今日，Microsoft，Amazon，Booking.com，F(xiàn)acebook，和Google，這樣的大體量互聯(lián)網(wǎng)公司每年進(jìn)行的實(shí)驗(yàn)高達(dá)上萬個(gè)，測試幾百萬用戶的行為。

2012年，微軟的一位Bing的工程師想改變廣告標(biāo)題在Bing的搜索結(jié)果中的展現(xiàn)方式。實(shí)現(xiàn)這個(gè)想法只需要幾行代碼，但是它被淹沒在成百上千的新提議中，沒有受到重視。直到6個(gè)月后，一名工程師重拾了這個(gè)“遺珠”，在Bing上測試了一個(gè)實(shí)驗(yàn)——A/B Test。通過A/B Test，一部分的用戶可以看到改變后的廣告展示方式，而另一部分用戶看到的界面保持原樣不變，以此測試效果。驚人的是，幾小時(shí)內(nèi)新的廣告展示方式就產(chǎn)生了極高的廣告收入，高到監(jiān)測系統(tǒng)誤認(rèn)為這是一個(gè)程序內(nèi)的bug。這個(gè)小小的改變，成功將Bing的收益提高了12%，即每年1億美金?？芍^是Bing史上最厲害的賺錢點(diǎn)子了。

Bing的這個(gè)例子告訴我們，一一測試所有的新點(diǎn)子，絕對是一件大工程。但是人們也開始意識到，如果同時(shí)進(jìn)行多個(gè)版本簡單的測試，性價(jià)比極高。

時(shí)至今日，Microsoft，Amazon，Booking.com，F(xiàn)acebook，和Google，這樣的大體量互聯(lián)網(wǎng)公司每年進(jìn)行的實(shí)驗(yàn)高達(dá)上萬個(gè)，測試幾百萬用戶的行為。而初創(chuàng)公司，和對互聯(lián)網(wǎng)依賴程度較低的公司，像Walmart，租車公司，航空公司，也會定期進(jìn)行小規(guī)模測試。因?yàn)闆Q策者們普遍發(fā)現(xiàn)，“測試一切”的方法能為公司帶來極大回報(bào)。對Bing來說，A/B測試每月成功地幫助公司敲定了和數(shù)十個(gè)收益相關(guān)的改動，這些改動每年將Bing每次搜索的收益增加了10％-25％。

除此以外，A/B測試也對提升用戶滿意度做出了巨大貢獻(xiàn)。每月數(shù)以百計(jì)的改動，不僅提高了Bing的獲利能力，還將Bing在美國搜索引擎的市場占有率，從初創(chuàng)時(shí)的8%提高至23%。

在這個(gè)網(wǎng)絡(luò)對所有行業(yè)都至關(guān)重要的時(shí)代，嚴(yán)格的在線測試應(yīng)該成為企業(yè)標(biāo)準(zhǔn)操作程序中的一環(huán)。除了網(wǎng)站，A/B測試還能方便快捷地評估商業(yè)模型，企業(yè)決策，產(chǎn)品，服務(wù)，營銷活動等不同方面。有了A/B測試，企業(yè)決策的過程變得更科學(xué)，告別了依賴直覺，拍腦袋做決定的時(shí)代。但是遺憾的是，很多企業(yè)并不知道如何科學(xué)合理地進(jìn)行測試，或者測試的次數(shù)遠(yuǎn)遠(yuǎn)不夠。

今天我們來看看，如何合理地設(shè)計(jì)、執(zhí)行測試，解讀測試結(jié)果，解決可能的問題。利用文中的例子，舉一反三，你就可以從容應(yīng)對更復(fù)雜的A/B測試。

A/B測試的價(jià)值

A/B測試中，實(shí)驗(yàn)設(shè)計(jì)人員會設(shè)計(jì)兩個(gè)版本的實(shí)驗(yàn)。

A：控制版，通常是已有系統(tǒng)，假設(shè)為成功版。

B：實(shí)驗(yàn)版，經(jīng)過改動的版本，借以挑戰(zhàn)現(xiàn)存的成功版。

隨機(jī)分配不同版本給用戶體驗(yàn)，并比較兩個(gè)版本的關(guān)鍵性指標(biāo)（單變量測試：比較A/B/C，和A/B/C/D版本。多變量測試：同時(shí)評估多個(gè)變量的不同版本）。不同版本的變量，可以是新功能的增加，用戶界面的更改（例如新的排版），后端的改動（例如改進(jìn)亞馬遜書籍推薦的算法）或不同商業(yè)模型的測試（例如提供免費(fèi)送貨）。對于決策者關(guān)心的，企業(yè)運(yùn)營中的各個(gè)環(huán)節(jié)（比如：銷售量，重復(fù)使用率，點(diǎn)擊率或用戶在頁面停留的時(shí)間），都可以通過線上A/B測試來對其進(jìn)行優(yōu)化。

任何擁有上千日活(Daily Active User)的公司都能實(shí)行A/B測試。通過A/B測試，公司能獲取大量用戶樣本、自動收集網(wǎng)站和APP上大量用戶交互數(shù)據(jù)、以及同時(shí)運(yùn)行多個(gè)版本測試，從而快速精準(zhǔn)，低成本地評估許多實(shí)驗(yàn)，達(dá)到系統(tǒng)的快速迭代，企業(yè)發(fā)展的迅速轉(zhuǎn)向。在今天，許多科技公司意識到了A/B測試的優(yōu)點(diǎn)，這些公司有一個(gè)單獨(dú)的團(tuán)隊(duì)負(fù)責(zé)構(gòu)建、管理和改進(jìn)測試架構(gòu)的工作，為產(chǎn)品組提供服務(wù)。合理利用A/B測試，會為公司提供極大的競爭優(yōu)勢。

1.小改變可能有大影響

一個(gè)常見的商業(yè)誤區(qū)是：只有大投入才會產(chǎn)生大影響。但在互聯(lián)網(wǎng)世界并非如此，成功更多源于很多正確的小改變。雖然商業(yè)世界更推崇大的、顛覆性的想法，實(shí)際上，大多數(shù)成功都是通過累積成百上千的小改進(jìn)來實(shí)現(xiàn)的。

再來看一個(gè)Microsoft微軟的例子，2008年，一名英國的微軟員工提出了一個(gè)看似很小的建議：當(dāng)用戶點(diǎn)擊MSN主頁上的Hotmail鏈接時(shí)，自動為Hotmail打開一個(gè)新窗口，而不是在同一個(gè)頁面上跳轉(zhuǎn)至Hotmail。通過在90萬英國用戶中進(jìn)行了測試，微軟發(fā)現(xiàn)了一個(gè)激動人心的結(jié)果：通過MSN主頁打開Hotmail的用戶量增加了8.9%。然而，大家對這個(gè)改變眾說紛紜，因?yàn)楫?dāng)時(shí)幾乎不會有網(wǎng)站會在新的標(biāo)簽頁上打開鏈接，所以微軟只在英國采取了這個(gè)小小的改變。

2010年6月，Microsoft微軟對270萬美國用戶進(jìn)行了同樣的實(shí)驗(yàn)，獲得了類似的結(jié)果，因此微軟開始在全球推行這項(xiàng)改變。除此以外，微軟還探尋了此項(xiàng)改變是否能同樣作用于其他功能上。在一項(xiàng)針對美國1200萬用戶的測試中，微軟發(fā)現(xiàn)，通過在新的標(biāo)簽頁上展現(xiàn)用戶在MSN的搜索結(jié)果，用戶點(diǎn)擊量增加了5%。新標(biāo)簽中打開鏈接是一個(gè)極易實(shí)現(xiàn)的改變，只需幾行代碼，使這成為了微軟提高用戶參與度的最佳方法之一。除了Microsoft微軟，F(xiàn)acebook臉書、Twitter推特等在內(nèi)的許多網(wǎng)站至今都在使用這項(xiàng)技術(shù)。

微軟的例子并非獨(dú)一無二。亞馬遜在測試中發(fā)現(xiàn)，將信用卡優(yōu)惠活動從網(wǎng)站主頁移到購物車頁面，每年可增加數(shù)千萬美元的利潤。

這些公司的經(jīng)驗(yàn)說明，小投資可以產(chǎn)生大回報(bào)。然而，大投資可能只很產(chǎn)生很少，甚至0回報(bào)。比如微軟曾花費(fèi)超過2500萬美元，將Bing必應(yīng)與社交媒體一體化——在搜索結(jié)果頁面的第三窗格內(nèi)展示Facebook和Twitter的相關(guān)內(nèi)容，但此舉在用戶參與度和收入方面產(chǎn)生的影響微乎其微。

2.實(shí)驗(yàn)可以引導(dǎo)投資決策

線上測試可以幫助決策者了解對于潛在改進(jìn)的理想投資數(shù)額。舉個(gè)例子，微軟曾面臨一個(gè)問題：如何縮短Bing顯示搜索結(jié)果所需時(shí)間。當(dāng)然，結(jié)果顯示肯定是越快越好。但是公司該如何量化提高搜索速度所帶來的價(jià)值呢？團(tuán)隊(duì)?wèi)?yīng)該用3個(gè)人、10個(gè)人還是50個(gè)人來提升性能呢？為了解決這些問題，微軟進(jìn)行了一系列的A/B測試：通過為搜索速度添加人為延遲，研究了加載速度的細(xì)微差異所產(chǎn)生的影響。數(shù)據(jù)表明，每100毫秒加載速度差異對公司收益的影響為0.6%。與此同時(shí)，Bing必應(yīng)的年收益已經(jīng)超過30億美元，那么每100毫秒的提速就能增加1800萬美元的年收入——足以維持一個(gè)規(guī)?？捎^的團(tuán)隊(duì)運(yùn)作。

A/B測試結(jié)果也幫助了必應(yīng)Bing權(quán)衡重要商業(yè)決策，尤其是那些可能提高搜索結(jié)果相關(guān)性，但會減慢軟件響應(yīng)速度的功能。為了避免多個(gè)小改動累積導(dǎo)致的顯著性能下降，Bing會在團(tuán)隊(duì)改良搜索引擎和其他組件性能后，再上線會降低響應(yīng)速度毫秒或以上的新功能。

大浪淘沙始見金

早在100年以前，百貨公司老板John Wanamaker就有一句營銷名言：“我在廣告上的投入有一半都是浪費(fèi)，但我不知道是哪一半?！边@句話同樣適用于A/B測試，因?yàn)榻^大部分試圖超越已有版本的新實(shí)驗(yàn)都會以失敗告終，即使是專家也經(jīng)常錯(cuò)誤地估計(jì)實(shí)驗(yàn)結(jié)果。在Google和Bing，只有10%~20%的測試會有積極成果。在Microsoft，1/3的測試有積極影響，1/3的有負(fù)面影響，還有1/3沒有產(chǎn)生影響。這就像青蛙王子的故事，想要發(fā)現(xiàn)好點(diǎn)子，公司需要親吻很多青蛙（進(jìn)行大量的實(shí)驗(yàn)）才能找到王子。

A/B測試極易被錯(cuò)誤使用

正式進(jìn)行A/B測試之前，團(tuán)隊(duì)?wèi)?yīng)該確保測試版本既不會降低性能，也不會產(chǎn)生意料之外的結(jié)果。在必應(yīng)Bing，除了一些低風(fēng)險(xiǎn)的bug修復(fù)和硬件類操作系統(tǒng)升級，其余80%的改動會首先以控制變量的實(shí)驗(yàn)方式進(jìn)行。

大部分的科學(xué)測試的基礎(chǔ)框架都需要以下幾項(xiàng)：記錄工具（記錄例如用戶點(diǎn)擊、鼠標(biāo)懸停和事件時(shí)間等數(shù)據(jù))、數(shù)據(jù)流和專業(yè)的數(shù)據(jù)科學(xué)家。隨著A/B測試的發(fā)展和普及，網(wǎng)絡(luò)上出現(xiàn)了一些針對A/B測試的第三方工具和服務(wù)。但如果企業(yè)有大規(guī)模測試的需求，第三方工具和服務(wù)很難勝任。穩(wěn)定的基礎(chǔ)框架能降低每次的實(shí)驗(yàn)成本，并提高實(shí)驗(yàn)結(jié)果可靠性。相反，如果基礎(chǔ)框架缺失，企業(yè)測試的成本會居高不下，從而導(dǎo)致決策者不愿進(jìn)一步投入，或進(jìn)行更多試驗(yàn)。

微軟的A/B測試基礎(chǔ)架構(gòu)就是一個(gè)優(yōu)秀范例：Microsoft的分析實(shí)驗(yàn)團(tuán)隊(duì)有80多人，每天可以實(shí)行數(shù)以百計(jì)的產(chǎn)品在線對照試驗(yàn)（包括Bing,Cortana,Exchange,MSN,Office,Skype,Windows和Xbox等各種產(chǎn)品）。每次測試會有數(shù)十萬至千萬用戶參與試用新改動，團(tuán)隊(duì)對測試結(jié)果進(jìn)行嚴(yán)密的統(tǒng)計(jì)分析，并自動生成記分板，一一檢查幾百到上千個(gè)指標(biāo)后，標(biāo)記那些成效顯著的改動。（當(dāng)然如果你的企業(yè)規(guī)模較小，或?qū)?shí)驗(yàn)依賴度較低，實(shí)驗(yàn)團(tuán)隊(duì)投入可以降低）

3.三種企業(yè)常見的實(shí)驗(yàn)團(tuán)隊(duì)人員結(jié)構(gòu)：

1.集中型（Centralized model）

集中型結(jié)構(gòu)意味著會有一組數(shù)據(jù)科學(xué)家為整個(gè)公司服務(wù)。這種結(jié)構(gòu)的優(yōu)點(diǎn)是，實(shí)驗(yàn)組人員可以持續(xù)關(guān)注長期項(xiàng)目，比如設(shè)計(jì)更好的實(shí)驗(yàn)工具和開發(fā)更先進(jìn)的統(tǒng)計(jì)算法。但一大缺點(diǎn)是，一個(gè)實(shí)驗(yàn)組在服務(wù)所有產(chǎn)品組時(shí)，會對實(shí)驗(yàn)任務(wù)有不同的優(yōu)先級，這可能導(dǎo)致各組之間資源和成本分配的沖突。另一個(gè)問題是，當(dāng)數(shù)據(jù)科學(xué)家著手商業(yè)項(xiàng)目時(shí)，可能會因?yàn)槿狈I(yè)知識和商業(yè)經(jīng)驗(yàn)而難以將實(shí)驗(yàn)結(jié)果關(guān)聯(lián)起來，更難看到結(jié)果背后的關(guān)鍵點(diǎn)。除此以外，數(shù)據(jù)科學(xué)家的身份可能缺乏影響力，無法說服決策層相信實(shí)驗(yàn)結(jié)果或者為技術(shù)投資。

2.分離型（Decentralized model）

分離型結(jié)構(gòu)是企業(yè)為不同的業(yè)務(wù)部門配置數(shù)據(jù)科學(xué)家。這種的優(yōu)點(diǎn)是，數(shù)據(jù)科學(xué)家可以成為其負(fù)責(zé)業(yè)務(wù)領(lǐng)域的專家。但缺點(diǎn)也很明顯：對于員工而言，只為一個(gè)業(yè)務(wù)部門工作，數(shù)據(jù)科學(xué)家未來的職業(yè)道路并不明朗，同時(shí)也會缺乏同事的反饋和指導(dǎo)。而對于實(shí)驗(yàn)而言，只針對單個(gè)部門的實(shí)驗(yàn)可能不足以證明改動提案的合理性。

3.衛(wèi)星型（Center-of-excellence model）

衛(wèi)星型是讓一些數(shù)據(jù)科學(xué)家成為團(tuán)隊(duì)，集中工作，剩余的數(shù)據(jù)科學(xué)家分散在不同的業(yè)務(wù)部門（微軟采用的結(jié)構(gòu)）。團(tuán)隊(duì)中心主要負(fù)責(zé)對照實(shí)驗(yàn)的設(shè)計(jì)、執(zhí)行和結(jié)果分析。有了團(tuán)隊(duì)統(tǒng)一為公司構(gòu)建的實(shí)驗(yàn)平臺和實(shí)驗(yàn)工具，企業(yè)可以顯著降低A/B測試所需的時(shí)間和資源。除此以外，團(tuán)隊(duì)還能基于優(yōu)秀實(shí)驗(yàn)開設(shè)課程，舉辦Lab和會議，在全公司范圍推廣。衛(wèi)星型結(jié)構(gòu)的主要的缺點(diǎn)是，中心團(tuán)隊(duì)和產(chǎn)品團(tuán)隊(duì)的責(zé)任劃分可能并不明晰，比如當(dāng)需要增加測試數(shù)量時(shí)，哪個(gè)團(tuán)隊(duì)?wèi)?yīng)為招聘更多的數(shù)據(jù)科學(xué)家來買單呢？

實(shí)驗(yàn)團(tuán)隊(duì)結(jié)構(gòu)的好壞不是絕對的非黑即白。小公司一般會使用第三方服務(wù)，或者從集中型結(jié)構(gòu)起步。待公司發(fā)展壯大后，轉(zhuǎn)向其他結(jié)構(gòu)。對于擁有多個(gè)業(yè)務(wù)組的大公司，那些高度依賴測試的業(yè)務(wù)組管理層，會在企業(yè)統(tǒng)一規(guī)劃前實(shí)行測試，那么分離型結(jié)構(gòu)就較為適用這種情況。如果在線實(shí)驗(yàn)是公司決策環(huán)節(jié)中的不可或缺的一環(huán)，可以通過衛(wèi)星型結(jié)構(gòu)的中心團(tuán)隊(duì)先構(gòu)建實(shí)驗(yàn)范例，制定實(shí)驗(yàn)標(biāo)準(zhǔn)，然后再將其推行至各個(gè)業(yè)務(wù)部門。

必應(yīng) 微軟

上一篇：美國凈網(wǎng)計(jì)劃再度延申，這次騰訊也中招了

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于全球贏，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章