案例分析問(wèn)題在面試中很常見(jiàn),試想,你在面試德勤,面試官問(wèn)你,你該如何衡量Instagram里面stories這個(gè)功能的成功,你會(huì)怎么回答?
如果你的回答是,A/B測(cè)試可以很好地衡量這個(gè)功能的成功,但是面試官進(jìn)一步說(shuō),但是公司現(xiàn)在沒(méi)有做這個(gè)A/B測(cè)試的能力,想一個(gè)替代方案,你又會(huì)怎么回答?
很多人會(huì)愣住,不知道如何回答。那么這邊文章將會(huì)給“愣住”的你們提供思路和解決辦法。
案例分析問(wèn)題現(xiàn)在已然是數(shù)據(jù)科學(xué)和產(chǎn)品開(kāi)發(fā)面試的重要組成部分,很多公司認(rèn)為案例分析面試很能夠看出候選人的敏銳度。面試旨在模擬公司當(dāng)前的產(chǎn)品,測(cè)試候選人的反應(yīng),解決問(wèn)題的能力,有效處理障礙的能力,等等。一般案例分析問(wèn)題有3種類型:
1)產(chǎn)品相關(guān)
2)建模相關(guān)
3)業(yè)務(wù)相關(guān)
接下來(lái)讓我們來(lái)從問(wèn)題入手,看看如何解決一些比較tricky的案例分析問(wèn)題。
但是要注意的是,這類問(wèn)題沒(méi)有標(biāo)準(zhǔn)答案,重在于考察你是否能夠做出現(xiàn)實(shí)的假設(shè)并根據(jù)這些假設(shè)提出解決方案。本文的主要目的是提供回答這類問(wèn)題的一些要點(diǎn)。
問(wèn)題一:
試想你正在運(yùn)行一個(gè)電商網(wǎng)站,你有數(shù)以百萬(wàn)可銷售的的產(chǎn)品,所以想要消除同一產(chǎn)品被命名為不同名稱而歸屬不同的類別的情況。
例如,有兩個(gè)產(chǎn)品名稱分別為iPhone X和Apple iPhone 10,但其實(shí)他們是同一產(chǎn)品;再比如亞馬遜會(huì)以不同的名稱出售相同的N-95口罩:Covid-19口罩和N-95口罩兩個(gè)名稱。
你的任務(wù)是將所有相同產(chǎn)品的不同名稱重命名為一個(gè)通用名稱。但首先你需要找出存在這種情況的所有產(chǎn)品。你會(huì)如何解決這個(gè)問(wèn)題?
解決方法:
我們可以通過(guò)兩種方式解決這個(gè)問(wèn)題。
我們可以通過(guò)從每個(gè)圖像中提取顆粒狀特征并在這些特征上進(jìn)行聚類來(lái)使用所有產(chǎn)品的給定圖像。顆粒度一詞很重要,因?yàn)槲覀儽仨殞?duì)特定產(chǎn)品的不同版本進(jìn)行分類,他們之間會(huì)有細(xì)微的差異。因此,提取低級(jí)別特征將很重要。因?yàn)?,假設(shè)我們從每個(gè)圖像中僅提取了高級(jí)功能并執(zhí)行了聚類。我們的算法會(huì)將所有iPhone聚類到一個(gè)群集中,將所有三星手機(jī)聚類到一個(gè)群集中,等等。但是我們希望每個(gè)模型都有一個(gè)專屬的群集,比如iPhone X有一個(gè)群集,而其他的iPhone模型也有他們的群集。因?yàn)閕PhoneX和iPhone 11的圖像之間的差異很小,所以必須提取顆粒度特征以提高群集算法的性能。
上述解決方案看起來(lái)很有說(shuō)服力,但這時(shí)面試官反問(wèn):如果某些產(chǎn)品根本沒(méi)有圖像怎么辦?
我們還可以對(duì)每種產(chǎn)品的描述進(jìn)行聚類并對(duì)它們進(jìn)行分類。我們可以首先對(duì)描述進(jìn)行數(shù)據(jù)清理,然后在NLP中使用TF-IDF或任何其他熟悉的方法,進(jìn)行聚類。
問(wèn)題二:
你正在為一個(gè)網(wǎng)站工作,并且你手中有一個(gè)大型數(shù)據(jù)庫(kù),其中每一行代表一個(gè)頁(yè)面視圖。而我們的網(wǎng)站有多個(gè)頁(yè)面。(可以參考Facebook,它有登錄頁(yè)面,主頁(yè),個(gè)人資料頁(yè)面等。)你將如何區(qū)分網(wǎng)絡(luò)爬蟲(chóng)和真實(shí)用戶?
解決方法:
基本上,網(wǎng)絡(luò)爬蟲(chóng)的目的是從網(wǎng)站上提取數(shù)據(jù),網(wǎng)絡(luò)爬蟲(chóng)肯定會(huì)有很多頁(yè)面瀏覽量,并且每個(gè)頁(yè)面瀏覽的時(shí)間都很短,因?yàn)榫W(wǎng)絡(luò)爬蟲(chóng)可以非常快速地提取信息。
另一方面,真正的用戶訪問(wèn)相對(duì)較少的頁(yè)面,并在每個(gè)頁(yè)面上花費(fèi)更多的時(shí)間。除了以上兩個(gè)假設(shè)外,我們可以做的另一個(gè)假設(shè)是,我們可以通過(guò)跟蹤IP地址或其他設(shè)備簽名來(lái)跟蹤每個(gè)唯一訪問(wèn)者。
現(xiàn)在,我們可以使用SQL或任何其他查詢語(yǔ)言找到每個(gè)訪問(wèn)者的訪問(wèn)頁(yè)面總數(shù)、頁(yè)面總瀏覽時(shí)間、平均頁(yè)面瀏覽時(shí)間。
然后,我們可以在上述指標(biāo)上使用聚類算法,將網(wǎng)絡(luò)爬蟲(chóng)和真實(shí)用戶分為兩個(gè)集群。
問(wèn)題三:
假設(shè)你是LinkedIn團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家。你有一個(gè)新聞提要排序算法(我們都知道,當(dāng)每個(gè)用戶登錄時(shí),他們會(huì)看到一個(gè)包含各種文章的新聞提要,這些文章使用排序算法進(jìn)行排序)。你將通過(guò)什么樣的方式來(lái)判斷新聞排名算法是否成功應(yīng)用呢?
解決方法:
第一步是提出我們認(rèn)為可以評(píng)估該算法有效性的指標(biāo)。一個(gè)基準(zhǔn)指標(biāo)是點(diǎn)擊率(點(diǎn)擊特定鏈接的用戶與瀏覽該鏈接的總用戶數(shù)量的比率)。但是,有一些更好的指標(biāo)(如轉(zhuǎn)發(fā)和評(píng)論)也可以用來(lái)評(píng)估新聞內(nèi)容的吸引力。
由于上述解決方案似乎很模糊,面試官或許會(huì)問(wèn)一些更加深入的問(wèn)題:
如果上述某些指標(biāo)上升而另一些指標(biāo)下降怎么辦?你將如何處理?你認(rèn)為哪個(gè)指標(biāo)更重要?
在這時(shí)最重要的是LinkedIn團(tuán)隊(duì)對(duì)這個(gè)算法分析的角度。如果他們?cè)噲D從業(yè)務(wù)的角度評(píng)估算法(如LinkedIn通過(guò)廣告來(lái)賺錢),那么點(diǎn)擊率將是一個(gè)更重要的指標(biāo),但如果評(píng)價(jià)是純粹從用戶體驗(yàn)的角度來(lái)看,用戶評(píng)價(jià)將是一個(gè)重要的指標(biāo)。
現(xiàn)在我們來(lái)看一個(gè)模擬面試中的例題:
你如何衡量Instagram Stories的成功?
我們都知道,Instagram Stories允許用戶在24小時(shí)內(nèi)與他人分享照片和視頻。朋友們可以看到這些故事,回復(fù)和分享這些故事。這個(gè)特性試圖實(shí)現(xiàn)兩個(gè)目標(biāo)。
1. 留存率:有多少用戶會(huì)再次使用這個(gè)功能。
2. 參與度:確保用戶更多地使用此功能。
這兩個(gè)目標(biāo)通過(guò)以下幾個(gè)指標(biāo)來(lái)衡量:
1. 平均每個(gè)用戶會(huì)發(fā)幾個(gè)Instagram Stories(每天或每周)
2. 平均每個(gè)顧客會(huì)看幾個(gè)Instagram Stories(每天或每周)
除了上述兩個(gè)指標(biāo)外,另一個(gè)衡量這個(gè)功能成功與否的關(guān)鍵指標(biāo)是發(fā)布多個(gè)故事的用戶比例,可能存在這樣的情況,人們可能只發(fā)布了一個(gè)故事來(lái)嘗試這個(gè)功能,但沒(méi)有人會(huì)重用它。
結(jié)論
回答案例、研究問(wèn)題不僅需要技術(shù)知識(shí),還需要對(duì)業(yè)務(wù)需求有深刻的理解。創(chuàng)造高效,適合企業(yè)需求的產(chǎn)品始終是市場(chǎng)的主導(dǎo)。通過(guò)商業(yè)洞察來(lái)解決現(xiàn)實(shí)生活中的問(wèn)題至關(guān)重要。