數(shù)據(jù)科學(xué)并不算是一個(gè)全新的領(lǐng)域,可以追溯到50年前,統(tǒng)計(jì)學(xué)家John W.Tukey第一次在學(xué)術(shù)界展開(kāi)數(shù)據(jù)分析。而自從2008年DJ Patil在領(lǐng)英提出“數(shù)據(jù)科學(xué)家”這個(gè)名詞時(shí),數(shù)據(jù)科學(xué)家才真正地作為職業(yè)開(kāi)始起步,逐漸成為“21世紀(jì)最性感的職業(yè)”。
據(jù)領(lǐng)英《2020年新興工作報(bào)告》顯示,過(guò)去5年招聘需求增速最快的職業(yè)中,數(shù)據(jù)科學(xué)家位列第三。
在數(shù)據(jù)的總量完成了史無(wú)前例的增長(zhǎng)、新基建等政策不斷加持的今天,我們已經(jīng)正式進(jìn)入了一個(gè)“數(shù)據(jù)密集型”的時(shí)代。面對(duì)用戶(hù)在網(wǎng)上產(chǎn)生的源源不斷向四處流動(dòng)的數(shù)據(jù),公司可以通過(guò)這些數(shù)據(jù)去了解用戶(hù)的需求,為用戶(hù)提供更好的產(chǎn)品,推動(dòng)公司增長(zhǎng),因此數(shù)據(jù)團(tuán)隊(duì)對(duì)于互聯(lián)網(wǎng)企業(yè)的重要性日益增加,數(shù)據(jù)科學(xué)家的定位也隨之在不斷產(chǎn)生改變。
在LinkedIn(領(lǐng)英)全球數(shù)據(jù)科學(xué)負(fù)責(zé)人許亞看來(lái),數(shù)據(jù)科學(xué)團(tuán)隊(duì)的整體趨勢(shì)更加走向了專(zhuān)業(yè)化,他們的職責(zé)不再是建立數(shù)據(jù)基礎(chǔ)設(shè)施或平臺(tái),而是去使用數(shù)據(jù)科學(xué)和工程來(lái)最大化數(shù)據(jù)的價(jià)值。那么從團(tuán)隊(duì)運(yùn)作方式、工作衡量標(biāo)準(zhǔn)和社會(huì)責(zé)任等角度,數(shù)據(jù)科學(xué)家的工作在“新常態(tài)”下發(fā)生了怎樣的轉(zhuǎn)變?如何讓數(shù)據(jù)的價(jià)值最大化?
數(shù)據(jù)科學(xué)團(tuán)隊(duì)更加“工程化”和“專(zhuān)業(yè)化”
領(lǐng)英的數(shù)據(jù)團(tuán)隊(duì)起源于對(duì)增長(zhǎng)和商業(yè)表現(xiàn)的需求。在進(jìn)入互聯(lián)網(wǎng)的時(shí)代、大量的用戶(hù)數(shù)據(jù)產(chǎn)生后,領(lǐng)英推出了“你可能認(rèn)識(shí)的人(People You May Know)”功能,推薦潛在可能認(rèn)識(shí)的用戶(hù),這個(gè)功能關(guān)鍵性地推動(dòng)了領(lǐng)英早期的病毒式增長(zhǎng),隨后推出的“職位推薦”等功能也幫助了領(lǐng)英核心的商業(yè)表現(xiàn)。因此領(lǐng)英產(chǎn)生了更多的數(shù)據(jù)需求和對(duì)數(shù)據(jù)科學(xué)的重視,從而建立了數(shù)據(jù)科學(xué)團(tuán)隊(duì),來(lái)驅(qū)動(dòng)領(lǐng)英早期商業(yè)表現(xiàn)和用戶(hù)增長(zhǎng)。
從2008年到現(xiàn)在,數(shù)據(jù)科學(xué)家的定位也產(chǎn)生了一系列的變化。
在早期的時(shí)候,在數(shù)據(jù)科學(xué)領(lǐng)域工作的人都是“萬(wàn)能手”,能身兼多個(gè)任務(wù),比如建立基礎(chǔ)設(shè)施、研發(fā)數(shù)據(jù)儲(chǔ)存方式、編寫(xiě)算法等等。隨著這個(gè)領(lǐng)域越來(lái)越成熟,數(shù)據(jù)量越來(lái)越大,許亞認(rèn)為,數(shù)據(jù)團(tuán)隊(duì)需要變得更加工程化和專(zhuān)業(yè)化,并通過(guò)“嵌入式工作”和“中心化管理”,去應(yīng)對(duì)幾十萬(wàn)、幾千萬(wàn)的用戶(hù)增長(zhǎng)。
許亞介紹,目前領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊(duì)分離出了底層架構(gòu)人員,根據(jù)不同的專(zhuān)業(yè)領(lǐng)域設(shè)立了三個(gè)工作方向,包括可以很有效地建立起數(shù)據(jù)管道(Data Pipeline)和數(shù)據(jù)流(Data Flow)的工程專(zhuān)家;負(fù)責(zé)進(jìn)行A/B測(cè)試、預(yù)測(cè)、打造差分隱私的算法專(zhuān)家;以及有很強(qiáng)的業(yè)務(wù)屬性,將數(shù)據(jù)見(jiàn)解和公司戰(zhàn)略結(jié)合起來(lái)的業(yè)務(wù)專(zhuān)家。
這三個(gè)領(lǐng)域的專(zhuān)家共同構(gòu)成數(shù)據(jù)科學(xué)團(tuán)隊(duì),并與產(chǎn)品、市場(chǎng)等團(tuán)隊(duì)建立起緊密的“嵌入式工作”模式,推動(dòng)產(chǎn)品的優(yōu)化、基礎(chǔ)設(shè)施運(yùn)維和市場(chǎng)戰(zhàn)略決策,將數(shù)據(jù)廣泛地用在了領(lǐng)英各個(gè)渠道。首先是產(chǎn)品,秉承“用戶(hù)第一”的價(jià)值原則,領(lǐng)英的每一個(gè)產(chǎn)品細(xì)節(jié)都由數(shù)據(jù)充分證實(shí),包括信息流、你可能感興趣的人等功能,或者怎么樣吸引新的用戶(hù)來(lái)并且提供優(yōu)秀的產(chǎn)品和UI體驗(yàn),都是數(shù)據(jù)來(lái)推動(dòng)。
除了產(chǎn)品,領(lǐng)英還會(huì)通過(guò)數(shù)據(jù)科學(xué)來(lái)優(yōu)化公司基礎(chǔ)設(shè)施的運(yùn)行和維護(hù)。領(lǐng)英每年投資數(shù)百萬(wàn)在數(shù)據(jù)儲(chǔ)存空間等硬件設(shè)施上面,怎樣充分利用這些硬件設(shè)施是意義重大的問(wèn)題。領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊(duì)會(huì)通過(guò)數(shù)據(jù)分析和算法去衡量工程架構(gòu)的建設(shè)是否有效率,更好地做時(shí)間規(guī)劃,讓硬件和GPU發(fā)揮更大的價(jià)值,有助于提升公司整體的效率。
此外,數(shù)據(jù)科學(xué)家還可以通過(guò)數(shù)據(jù)幫助企業(yè)明確戰(zhàn)略方向,在哪個(gè)方面去投資,或者決定下一步的產(chǎn)品或者市場(chǎng)意向。例如通過(guò)用戶(hù)數(shù)據(jù)了解目標(biāo)用戶(hù)的特征,從而針對(duì)這樣的群體把他們吸引到領(lǐng)英平臺(tái)上;或者了解哪些用戶(hù)更容易去購(gòu)買(mǎi)領(lǐng)英的產(chǎn)品并且成為領(lǐng)英的客戶(hù),從而賦能公司的商業(yè)決策和成果,對(duì)凈利潤(rùn)造成影響。
如何衡量數(shù)據(jù)科學(xué)團(tuán)隊(duì)的成果?
由于不同的數(shù)據(jù)科學(xué)家會(huì)有不同的側(cè)重方向,比如產(chǎn)品、市場(chǎng),或者工程,工作的KPI有時(shí)候難以進(jìn)行標(biāo)準(zhǔn)和量化。許亞接手領(lǐng)英數(shù)據(jù)團(tuán)隊(duì)之后,做的第一件事情就是建立了三個(gè)成功的衡量指標(biāo),到現(xiàn)在都是合理有效的:
一是工作效率和數(shù)據(jù)易得性。以前的數(shù)據(jù)科學(xué)家特別喜歡嘗試最新最難的問(wèn)題,但沒(méi)有維護(hù)和迭代習(xí)慣。現(xiàn)在許亞認(rèn)為,如果建立了一些衡量標(biāo)準(zhǔn)、數(shù)據(jù)模型或者算法,就應(yīng)該確保它一直可使用。許亞也鼓勵(lì)數(shù)據(jù)科學(xué)家們減少重復(fù)性工作,并提供自動(dòng)化的工具和平臺(tái),讓每個(gè)數(shù)據(jù)科學(xué)家都能更有效率地去挖掘數(shù)據(jù)價(jià)值。
二是戰(zhàn)略化思維。數(shù)據(jù)科學(xué)團(tuán)隊(duì)在公司里的職責(zé)之一是用數(shù)據(jù)去指導(dǎo)、指引公司的一些策略方向,甚至和公司的高層直接溝通。許亞認(rèn)為在疫情后,用戶(hù)的行為多少會(huì)發(fā)生一些不可逆轉(zhuǎn)的改變,數(shù)據(jù)可以幫助團(tuán)隊(duì)更好地去學(xué)習(xí)用戶(hù)行為變化,了解用戶(hù)是如何在領(lǐng)英上獲得價(jià)值,從而在戰(zhàn)略上指引公司對(duì)哪些領(lǐng)域進(jìn)行重點(diǎn)投資。
三是直接商業(yè)影響。數(shù)據(jù)團(tuán)隊(duì)的成果是跟這個(gè)公司的凈利潤(rùn)是有直接作用的,數(shù)據(jù)科學(xué)家需要去衡量他們的工作怎么樣去影響公司的凈利潤(rùn),如何對(duì)公司的商業(yè)目標(biāo)產(chǎn)生積極影響。
許亞以最佳產(chǎn)品優(yōu)化利器A/B測(cè)試應(yīng)用舉例:A/B測(cè)試是數(shù)據(jù)驅(qū)動(dòng)的常見(jiàn)產(chǎn)品功能優(yōu)化手段,將用戶(hù)分為對(duì)照組和實(shí)驗(yàn)組,對(duì)照組使用現(xiàn)有的功能,實(shí)驗(yàn)組測(cè)試新功能,從而判斷新功能是否應(yīng)該上線。許亞介紹,在領(lǐng)英,基本上你可以看得到的任何產(chǎn)品改變,都是經(jīng)過(guò)反復(fù)A/B測(cè)試產(chǎn)生的,比如搜索欄、搜索算法、導(dǎo)航欄,甚至是APP的字號(hào)和字體。所以領(lǐng)英不選擇用直覺(jué)來(lái)進(jìn)行假設(shè),而是用A/B測(cè)試來(lái)判斷到底大眾喜不喜歡新推出的產(chǎn)品功能,讓一切都通過(guò)數(shù)據(jù)來(lái)說(shuō)話。一個(gè)產(chǎn)品開(kāi)發(fā)生命周期內(nèi)A/B測(cè)試的示例例如在使用APP的過(guò)程中展示的頁(yè)面內(nèi)容數(shù)量就涉及到產(chǎn)品的平衡與取舍。每次加載可以展示20個(gè)、30個(gè)、也可以100個(gè)內(nèi)容在頁(yè)面上,但展示的數(shù)據(jù)越多,加載的時(shí)間就越長(zhǎng),用戶(hù)上下滑動(dòng)App時(shí)就需要等候;展示的數(shù)據(jù)越少,用戶(hù)就需要頻繁刷新,影響到用戶(hù)體驗(yàn)。所以領(lǐng)英數(shù)據(jù)團(tuán)隊(duì)會(huì)根據(jù)A/B測(cè)試來(lái)決定到底是應(yīng)該放多少個(gè)。另外,領(lǐng)英要不要建立或者關(guān)閉一個(gè)數(shù)據(jù)中心也通過(guò)A/B測(cè)試決定,因?yàn)橛脩?hù)和數(shù)據(jù)中心的距離對(duì)于傳輸速度有很大的關(guān)系,選擇不同的數(shù)據(jù)中心對(duì)于用戶(hù)的請(qǐng)求的處理有很大的影響。A/B測(cè)試也并不是僅由數(shù)據(jù)科學(xué)團(tuán)隊(duì)來(lái)主導(dǎo)的,不同的團(tuán)隊(duì)在決定是否做A/B測(cè)試的過(guò)程也同樣激發(fā)了大量的創(chuàng)新。
許亞解釋道,領(lǐng)英每天大概有100個(gè)新的試驗(yàn)進(jìn)行,數(shù)據(jù)科學(xué)團(tuán)隊(duì)沒(méi)有精力去參加公司的所有試驗(yàn)項(xiàng)目,會(huì)更加投入在重要的試驗(yàn)研究和分析上。借助公司提供的自動(dòng)化工具和A/B測(cè)試平臺(tái),其他團(tuán)隊(duì)可以解決大部分的實(shí)驗(yàn)設(shè)計(jì)、應(yīng)用、分析上的問(wèn)題,從而自主地產(chǎn)生創(chuàng)新的想法,并通過(guò)A/B測(cè)試來(lái)確認(rèn)是否正確,避免一些主觀爭(zhēng)議。這樣科學(xué)的決策機(jī)制、開(kāi)放的實(shí)驗(yàn)文化和數(shù)據(jù)文化,讓公司里的每個(gè)團(tuán)隊(duì)都能放心大膽地去構(gòu)想并且驗(yàn)證創(chuàng)新的想法。
新的挑戰(zhàn):促進(jìn)公平
當(dāng)技術(shù)手段和基礎(chǔ)設(shè)施從數(shù)據(jù)中挖掘出更多的價(jià)值之時(shí),也帶來(lái)了全新的挑戰(zhàn)與問(wèn)題:公平性。
公平很難有一個(gè)準(zhǔn)確的定義,但領(lǐng)英的愿景是為全球勞動(dòng)市場(chǎng)里的每一位創(chuàng)造經(jīng)濟(jì)機(jī)會(huì),希望有著同樣才能的兩個(gè)人應(yīng)該獲得相等的機(jī)會(huì)。為了實(shí)現(xiàn)這一點(diǎn),領(lǐng)英在開(kāi)發(fā)產(chǎn)品和功能的時(shí)候會(huì)很重視可量化的指標(biāo),確保領(lǐng)英的產(chǎn)品對(duì)于每個(gè)用戶(hù)群體都會(huì)帶來(lái)積極的影響。如果只看平均下來(lái)的效果,可能會(huì)只對(duì)一部分人有益,而給另一部分人帶來(lái)不公平的因素。
領(lǐng)英是如何構(gòu)建“公平”的
特別是在疫情“新常態(tài)”下,職場(chǎng)人獲得機(jī)會(huì)的難度加大,社會(huì)不平等帶來(lái)的挑戰(zhàn)也隨之加劇。為此領(lǐng)英開(kāi)展了一個(gè)稱(chēng)為“Project Every Member”的項(xiàng)目,這個(gè)項(xiàng)目能讓數(shù)據(jù)科學(xué)家們借助A/B測(cè)試和算法來(lái)準(zhǔn)確地評(píng)估和優(yōu)化每一個(gè)新產(chǎn)品,從而縮小人脈差距,確保每個(gè)人都能夠獲得公平地去發(fā)現(xiàn)和連接機(jī)會(huì)。領(lǐng)英也在近期開(kāi)源了Project Every Member里有關(guān)Apache Spark的一段代碼,從而幫助更多公司準(zhǔn)確地衡量產(chǎn)品帶來(lái)的影響,打造更加富有公平性的產(chǎn)品。
“促進(jìn)公平的重點(diǎn)不僅僅在于算法,而在于產(chǎn)品設(shè)計(jì)的方方面面?!痹S亞說(shuō)。“此外,我們也經(jīng)常去評(píng)估現(xiàn)在平臺(tái)上面是否有一些導(dǎo)致不公平的漏洞。比如說(shuō)招聘者用我們的產(chǎn)品去招人,搜索的結(jié)果下面出來(lái)的都是男性,這會(huì)導(dǎo)致女性失去了這個(gè)工作機(jī)會(huì)。所以一年前我們推出了Representative Ranking,通過(guò)機(jī)器學(xué)習(xí)模型對(duì)候選集進(jìn)行重新排序,使搜索結(jié)果能夠代表所有的潛在候選人,以確保減少偏見(jiàn),獲得多樣化的人才?!?/span>
近兩年來(lái),領(lǐng)英的數(shù)據(jù)科學(xué)團(tuán)隊(duì)迅速發(fā)展并逐漸成熟,人數(shù)規(guī)模擴(kuò)張了一倍,從150人增加到了300多人,遍布世界各地。在中國(guó),領(lǐng)英同樣有一支精良的數(shù)據(jù)科學(xué)團(tuán)隊(duì),服務(wù)本地市場(chǎng)。在疫情帶來(lái)的不確定之下,領(lǐng)英通過(guò)數(shù)據(jù)發(fā)現(xiàn)平臺(tái)上用戶(hù)的內(nèi)容類(lèi)型和比例都嚴(yán)重的受到了影響,比如疫情對(duì)剛?cè)肼殘?chǎng)的人影響很大,對(duì)女性的影響也比對(duì)男性的更大。
許亞說(shuō),在這個(gè)過(guò)程中,你可以感受最大化數(shù)據(jù)價(jià)值的強(qiáng)大能力,感受到數(shù)據(jù)的責(zé)任所在,從而更好地幫助這些受影響的人,這也是數(shù)據(jù)科學(xué)家這份工作最有意義的地方。