LinkedIn是如何構(gòu)建數(shù)據(jù)科學(xué)團(tuán)隊的？

來源：網(wǎng)易號

作者：鈦媒體APP

時間：2020-07-17

在LinkedIn（領(lǐng)英）全球數(shù)據(jù)科學(xué)負(fù)責(zé)人許亞看來，數(shù)據(jù)科學(xué)團(tuán)隊的整體趨勢更加走向了專業(yè)化，他們的職責(zé)不再是建立數(shù)據(jù)基礎(chǔ)設(shè)施或平臺，而是去使用數(shù)據(jù)科學(xué)和工程來最大化數(shù)據(jù)的價值。那么從團(tuán)隊運(yùn)作方式、工作衡量標(biāo)準(zhǔn)和社會責(zé)任等角度，數(shù)據(jù)科學(xué)家的工作在“新常態(tài)”下發(fā)生了怎樣的轉(zhuǎn)變？如何讓數(shù)據(jù)的價值最大化？

數(shù)據(jù)科學(xué)并不算是一個全新的領(lǐng)域，可以追溯到50年前，統(tǒng)計學(xué)家John W.Tukey第一次在學(xué)術(shù)界展開數(shù)據(jù)分析。而自從2008年DJ Patil在領(lǐng)英提出“數(shù)據(jù)科學(xué)家”這個名詞時，數(shù)據(jù)科學(xué)家才真正地作為職業(yè)開始起步，逐漸成為“21世紀(jì)最性感的職業(yè)”。

據(jù)領(lǐng)英《2020年新興工作報告》顯示，過去5年招聘需求增速最快的職業(yè)中，數(shù)據(jù)科學(xué)家位列第三。

在數(shù)據(jù)的總量完成了史無前例的增長、新基建等政策不斷加持的今天，我們已經(jīng)正式進(jìn)入了一個“數(shù)據(jù)密集型”的時代。面對用戶在網(wǎng)上產(chǎn)生的源源不斷向四處流動的數(shù)據(jù)，公司可以通過這些數(shù)據(jù)去了解用戶的需求，為用戶提供更好的產(chǎn)品，推動公司增長，因此數(shù)據(jù)團(tuán)隊對于互聯(lián)網(wǎng)企業(yè)的重要性日益增加，數(shù)據(jù)科學(xué)家的定位也隨之在不斷產(chǎn)生改變。

數(shù)據(jù)科學(xué)團(tuán)隊更加“工程化”和“專業(yè)化”

領(lǐng)英的數(shù)據(jù)團(tuán)隊起源于對增長和商業(yè)表現(xiàn)的需求。在進(jìn)入互聯(lián)網(wǎng)的時代、大量的用戶數(shù)據(jù)產(chǎn)生后，領(lǐng)英推出了“你可能認(rèn)識的人（People You May Know）”功能，推薦潛在可能認(rèn)識的用戶，這個功能關(guān)鍵性地推動了領(lǐng)英早期的病毒式增長，隨后推出的“職位推薦”等功能也幫助了領(lǐng)英核心的商業(yè)表現(xiàn)。因此領(lǐng)英產(chǎn)生了更多的數(shù)據(jù)需求和對數(shù)據(jù)科學(xué)的重視，從而建立了數(shù)據(jù)科學(xué)團(tuán)隊，來驅(qū)動領(lǐng)英早期商業(yè)表現(xiàn)和用戶增長。

從2008年到現(xiàn)在，數(shù)據(jù)科學(xué)家的定位也產(chǎn)生了一系列的變化。

在早期的時候，在數(shù)據(jù)科學(xué)領(lǐng)域工作的人都是“萬能手”，能身兼多個任務(wù)，比如建立基礎(chǔ)設(shè)施、研發(fā)數(shù)據(jù)儲存方式、編寫算法等等。隨著這個領(lǐng)域越來越成熟，數(shù)據(jù)量越來越大，許亞認(rèn)為，數(shù)據(jù)團(tuán)隊需要變得更加工程化和專業(yè)化，并通過“嵌入式工作”和“中心化管理”，去應(yīng)對幾十萬、幾千萬的用戶增長。

許亞介紹，目前領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊分離出了底層架構(gòu)人員，根據(jù)不同的專業(yè)領(lǐng)域設(shè)立了三個工作方向，包括可以很有效地建立起數(shù)據(jù)管道（Data Pipeline）和數(shù)據(jù)流（Data Flow）的工程專家；負(fù)責(zé)進(jìn)行A/B測試、預(yù)測、打造差分隱私的算法專家；以及有很強(qiáng)的業(yè)務(wù)屬性，將數(shù)據(jù)見解和公司戰(zhàn)略結(jié)合起來的業(yè)務(wù)專家。

這三個領(lǐng)域的專家共同構(gòu)成數(shù)據(jù)科學(xué)團(tuán)隊，并與產(chǎn)品、市場等團(tuán)隊建立起緊密的“嵌入式工作”模式，推動產(chǎn)品的優(yōu)化、基礎(chǔ)設(shè)施運(yùn)維和市場戰(zhàn)略決策，將數(shù)據(jù)廣泛地用在了領(lǐng)英各個渠道。首先是產(chǎn)品，秉承“用戶第一”的價值原則，領(lǐng)英的每一個產(chǎn)品細(xì)節(jié)都由數(shù)據(jù)充分證實(shí)，包括信息流、你可能感興趣的人等功能，或者怎么樣吸引新的用戶來并且提供優(yōu)秀的產(chǎn)品和UI體驗，都是數(shù)據(jù)來推動。

除了產(chǎn)品，領(lǐng)英還會通過數(shù)據(jù)科學(xué)來優(yōu)化公司基礎(chǔ)設(shè)施的運(yùn)行和維護(hù)。領(lǐng)英每年投資數(shù)百萬在數(shù)據(jù)儲存空間等硬件設(shè)施上面，怎樣充分利用這些硬件設(shè)施是意義重大的問題。領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊會通過數(shù)據(jù)分析和算法去衡量工程架構(gòu)的建設(shè)是否有效率，更好地做時間規(guī)劃，讓硬件和GPU發(fā)揮更大的價值，有助于提升公司整體的效率。

此外，數(shù)據(jù)科學(xué)家還可以通過數(shù)據(jù)幫助企業(yè)明確戰(zhàn)略方向，在哪個方面去投資，或者決定下一步的產(chǎn)品或者市場意向。例如通過用戶數(shù)據(jù)了解目標(biāo)用戶的特征，從而針對這樣的群體把他們吸引到領(lǐng)英平臺上；或者了解哪些用戶更容易去購買領(lǐng)英的產(chǎn)品并且成為領(lǐng)英的客戶，從而賦能公司的商業(yè)決策和成果，對凈利潤造成影響。

如何衡量數(shù)據(jù)科學(xué)團(tuán)隊的成果？

由于不同的數(shù)據(jù)科學(xué)家會有不同的側(cè)重方向，比如產(chǎn)品、市場，或者工程，工作的KPI有時候難以進(jìn)行標(biāo)準(zhǔn)和量化。許亞接手領(lǐng)英數(shù)據(jù)團(tuán)隊之后，做的第一件事情就是建立了三個成功的衡量指標(biāo)，到現(xiàn)在都是合理有效的：

一是工作效率和數(shù)據(jù)易得性。以前的數(shù)據(jù)科學(xué)家特別喜歡嘗試最新最難的問題，但沒有維護(hù)和迭代習(xí)慣?，F(xiàn)在許亞認(rèn)為，如果建立了一些衡量標(biāo)準(zhǔn)、數(shù)據(jù)模型或者算法，就應(yīng)該確保它一直可使用。許亞也鼓勵數(shù)據(jù)科學(xué)家們減少重復(fù)性工作，并提供自動化的工具和平臺，讓每個數(shù)據(jù)科學(xué)家都能更有效率地去挖掘數(shù)據(jù)價值。

二是戰(zhàn)略化思維。數(shù)據(jù)科學(xué)團(tuán)隊在公司里的職責(zé)之一是用數(shù)據(jù)去指導(dǎo)、指引公司的一些策略方向，甚至和公司的高層直接溝通。許亞認(rèn)為在疫情后，用戶的行為多少會發(fā)生一些不可逆轉(zhuǎn)的改變，數(shù)據(jù)可以幫助團(tuán)隊更好地去學(xué)習(xí)用戶行為變化，了解用戶是如何在領(lǐng)英上獲得價值，從而在戰(zhàn)略上指引公司對哪些領(lǐng)域進(jìn)行重點(diǎn)投資。

三是直接商業(yè)影響。數(shù)據(jù)團(tuán)隊的成果是跟這個公司的凈利潤是有直接作用的，數(shù)據(jù)科學(xué)家需要去衡量他們的工作怎么樣去影響公司的凈利潤，如何對公司的商業(yè)目標(biāo)產(chǎn)生積極影響。

許亞以最佳產(chǎn)品優(yōu)化利器A/B測試應(yīng)用舉例：A/B測試是數(shù)據(jù)驅(qū)動的常見產(chǎn)品功能優(yōu)化手段，將用戶分為對照組和實(shí)驗組，對照組使用現(xiàn)有的功能，實(shí)驗組測試新功能，從而判斷新功能是否應(yīng)該上線。許亞介紹，在領(lǐng)英，基本上你可以看得到的任何產(chǎn)品改變，都是經(jīng)過反復(fù)A/B測試產(chǎn)生的，比如搜索欄、搜索算法、導(dǎo)航欄，甚至是APP的字號和字體。所以領(lǐng)英不選擇用直覺來進(jìn)行假設(shè)，而是用A/B測試來判斷到底大眾喜不喜歡新推出的產(chǎn)品功能，讓一切都通過數(shù)據(jù)來說話。一個產(chǎn)品開發(fā)生命周期內(nèi)A/B測試的示例例如在使用APP的過程中展示的頁面內(nèi)容數(shù)量就涉及到產(chǎn)品的平衡與取舍。每次加載可以展示20個、30個、也可以100個內(nèi)容在頁面上，但展示的數(shù)據(jù)越多，加載的時間就越長，用戶上下滑動App時就需要等候；展示的數(shù)據(jù)越少，用戶就需要頻繁刷新，影響到用戶體驗。所以領(lǐng)英數(shù)據(jù)團(tuán)隊會根據(jù)A/B測試來決定到底是應(yīng)該放多少個。另外，領(lǐng)英要不要建立或者關(guān)閉一個數(shù)據(jù)中心也通過A/B測試決定，因為用戶和數(shù)據(jù)中心的距離對于傳輸速度有很大的關(guān)系，選擇不同的數(shù)據(jù)中心對于用戶的請求的處理有很大的影響。A/B測試也并不是僅由數(shù)據(jù)科學(xué)團(tuán)隊來主導(dǎo)的，不同的團(tuán)隊在決定是否做A/B測試的過程也同樣激發(fā)了大量的創(chuàng)新。

許亞解釋道，領(lǐng)英每天大概有100個新的試驗進(jìn)行，數(shù)據(jù)科學(xué)團(tuán)隊沒有精力去參加公司的所有試驗項目，會更加投入在重要的試驗研究和分析上。借助公司提供的自動化工具和A/B測試平臺，其他團(tuán)隊可以解決大部分的實(shí)驗設(shè)計、應(yīng)用、分析上的問題，從而自主地產(chǎn)生創(chuàng)新的想法，并通過A/B測試來確認(rèn)是否正確，避免一些主觀爭議。這樣科學(xué)的決策機(jī)制、開放的實(shí)驗文化和數(shù)據(jù)文化，讓公司里的每個團(tuán)隊都能放心大膽地去構(gòu)想并且驗證創(chuàng)新的想法。

新的挑戰(zhàn)：促進(jìn)公平

當(dāng)技術(shù)手段和基礎(chǔ)設(shè)施從數(shù)據(jù)中挖掘出更多的價值之時，也帶來了全新的挑戰(zhàn)與問題：公平性。

公平很難有一個準(zhǔn)確的定義，但領(lǐng)英的愿景是為全球勞動市場里的每一位創(chuàng)造經(jīng)濟(jì)機(jī)會，希望有著同樣才能的兩個人應(yīng)該獲得相等的機(jī)會。為了實(shí)現(xiàn)這一點(diǎn)，領(lǐng)英在開發(fā)產(chǎn)品和功能的時候會很重視可量化的指標(biāo)，確保領(lǐng)英的產(chǎn)品對于每個用戶群體都會帶來積極的影響。如果只看平均下來的效果，可能會只對一部分人有益，而給另一部分人帶來不公平的因素。

領(lǐng)英是如何構(gòu)建“公平”的

特別是在疫情“新常態(tài)”下，職場人獲得機(jī)會的難度加大，社會不平等帶來的挑戰(zhàn)也隨之加劇。為此領(lǐng)英開展了一個稱為“Project Every Member”的項目，這個項目能讓數(shù)據(jù)科學(xué)家們借助A/B測試和算法來準(zhǔn)確地評估和優(yōu)化每一個新產(chǎn)品，從而縮小人脈差距，確保每個人都能夠獲得公平地去發(fā)現(xiàn)和連接機(jī)會。領(lǐng)英也在近期開源了Project Every Member里有關(guān)Apache Spark的一段代碼，從而幫助更多公司準(zhǔn)確地衡量產(chǎn)品帶來的影響，打造更加富有公平性的產(chǎn)品。

“促進(jìn)公平的重點(diǎn)不僅僅在于算法，而在于產(chǎn)品設(shè)計的方方面面?！痹S亞說。“此外，我們也經(jīng)常去評估現(xiàn)在平臺上面是否有一些導(dǎo)致不公平的漏洞。比如說招聘者用我們的產(chǎn)品去招人，搜索的結(jié)果下面出來的都是男性，這會導(dǎo)致女性失去了這個工作機(jī)會。所以一年前我們推出了Representative Ranking，通過機(jī)器學(xué)習(xí)模型對候選集進(jìn)行重新排序，使搜索結(jié)果能夠代表所有的潛在候選人，以確保減少偏見，獲得多樣化的人才。”

近兩年來，領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊迅速發(fā)展并逐漸成熟，人數(shù)規(guī)模擴(kuò)張了一倍，從150人增加到了300多人，遍布世界各地。在中國，領(lǐng)英同樣有一支精良的數(shù)據(jù)科學(xué)團(tuán)隊，服務(wù)本地市場。在疫情帶來的不確定之下，領(lǐng)英通過數(shù)據(jù)發(fā)現(xiàn)平臺上用戶的內(nèi)容類型和比例都嚴(yán)重的受到了影響，比如疫情對剛?cè)肼殘龅娜擞绊懞艽螅瑢ε缘挠绊懸脖葘δ行缘母蟆?/span>

許亞說，在這個過程中，你可以感受最大化數(shù)據(jù)價值的強(qiáng)大能力，感受到數(shù)據(jù)的責(zé)任所在，從而更好地幫助這些受影響的人，這也是數(shù)據(jù)科學(xué)家這份工作最有意義的地方。

LinkedIn 領(lǐng)英

上一篇：創(chuàng)建Google AdWords廣告步驟

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于網(wǎng)易號，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章