Shopify數(shù)據科學案例:4種因果推論方法

來源： MarTechCareer

作者： Shopify數(shù)據科學

時間：2021-05-11

AB測試并不是理解因果關系的唯一工具：如果使用得當，準實驗和反事實分析（Counterfactual）是進行因果推理的有力工具。描述性統(tǒng)計和相關性是每個數(shù)據科學家的“面包和黃油”，但實用它們時卻需要格外小心，因為它們只能證明相關性不是因果關系。

A/B測試并不是理解因果關系的唯一工具：如果使用得當，準實驗和反事實分析（Counterfactual）是進行因果推理的有力工具。

描述性統(tǒng)計和相關性是每個數(shù)據科學家的“面包和黃油”，但實用它們時卻需要格外小心，因為它們只能證明相關性不是因果關系。

在Shopify，我們相信理解因果關系是釋放最大商業(yè)價值的關鍵。我們的目標是找到可以實際解釋在數(shù)據中看到的現(xiàn)象的原因和見解，因為因果性可以驗證整個業(yè)務戰(zhàn)略是否有效。

今天這篇文章，來自Shopify的數(shù)據科學團隊，本文探討了不同的因果推理方法，以及如何使用這些方法來構建好的產品。

因果推理的四個等級

數(shù)據科學家可以使用各種不同的方法來估計一個因素的因果效應。下面這幅圖介紹了因果推論的四個等級，越往上代表這個方法的因果證據越強，越往下就代表這個方法的因果性越低。這幅圖被我們稱為是“因果證據階梯”（Evidence Ladder for Causal Inference）。

▲ 證據階梯的層次：

第一級（最清晰的證據）：A/B測試（也就是統(tǒng)計實驗）；

第二層次（合理的證據水平）：準實驗（包括差值法、匹配法、控制回歸法）；

第三層次（最弱的證據水平）：完全估計反事實；

圖表底部：描述性統(tǒng)計——沒有提供因果關系的直接證據。

階梯并不是方法的排名，而是每個方法給你的證明程度的一個松散的指示。在階梯上越高的方法，越容易計算出構成強因果關系證據的估計。處于階梯頂端的方法通常需要更加關注實驗設置。在另一端，階梯底部的方法使用更多的觀察數(shù)據，但需要更多關注穩(wěn)健性檢查。

階梯很好地解釋了一點：因果推理中沒有免費的午餐。也就是說，要想得到一個強大的因果分析，你要么需要一個好的實驗設置，要么需要一個好的統(tǒng)計學家和大量的工作。

這個階梯還有一個用處就是，數(shù)據科學家可以和他們的利益相關者（stakeholder）去分享這個模型。用它來說明你的工作過程，這是獲得合作者和利益相關者認同的好方法！

因果推理方法

A/B測試

A/B測試，或隨機對照實驗，是因果推理的黃金標準方法——它們是證據階梯的第一級！對于A/B測試，A組和B組是隨機分配的。兩組所處的環(huán)境是完全相同的，除了一個參數(shù)：他們看到的版本。隨機性保證了兩組都是 "平均 "的。這使你能夠從A/B測試中推斷出因果估計，因為它們唯一不同的是看到的版本，這樣就可以判斷到底是不是版本不同導致業(yè)務的變化。當然在實踐中，有很多注意事項。

為產品設置A/B測試是一件很麻煩的事情。如果你是從頭開始設置A/B測試，你將需要：

當用戶使用你的產品時，隨機分配他們到正確的小組的方法；
一種跟蹤機制，用于收集所有相關指標的數(shù)據；
分析這些指標及其相關的統(tǒng)計數(shù)據，以計算效果大小，并驗證你懷疑的因果效應是否真實存在。

而且這些還只是最基本的內容！有時你需要更多的東西才能檢測出正確的信號。在Shopify，我們有一個實驗平臺，可以完成所有繁重的工作，并允許數(shù)據科學家只需點擊幾下就可以開始實驗。

準實驗

在真實的商業(yè)世界中，很多時候是不可能設置一個嚴格控制的實驗的。以下是A/B測試無法在每種情況下都發(fā)揮作用的幾個原因：

缺乏工具。例如，如果你的代碼不能在產品的某些部分進行修改。
缺乏實施實驗的時間。
商業(yè)道德方面的考慮，例如在Shopify，隨意將一些商家排除在一個可以幫助他們業(yè)務的新功能之外，有時是不可能的。

幸運的是，如果你發(fā)現(xiàn)自己處于上述情況之一，還是有一些方法存在，可以讓你獲得因果估計。準實驗就是其中之一。

準實驗（圖中的第二級）是指你的實驗組和對照組被一個自然過程劃分，這個過程不是真正的隨機的，但被認為是足夠接近計算估計的實驗。準實驗經常發(fā)生在產品公司中，例如，當一個功能推出發(fā)生在不同國家的不同日期時，或者如果一個新功能的資格取決于其他功能的行為（比如在廢棄某一功能的情況下）。當控制組使用非隨機標準劃分時，為了計算因果估計，你會使用不同的方法，這些方法對應著不同的假設，即你與隨機情況的 "接近程度"。

我想強調一下我們在Shopify使用的兩種方法。第一種是帶有固定效應的線性回歸。在這種方法中，假設我們已經收集了所有在實驗組和控制組之間劃分個體的因素的數(shù)據。如果這是真的，那么在控制這些因素的情況下，對感興趣的指標進行簡單的線性回歸，就能很好地估計出處于實驗組的因果效應。

第二種也是因果推理中很常見的方法：雙重差分（difference-in-differences）。當你要使用這種方法時，要先找到一個對照組，和實驗組里你感興趣的指標有平行的趨勢，然后再應用任何實驗。然后，實驗開始，這種并行趨勢的差別就只可能是實驗本身造成的。

下圖可以幫助你理解：

▲ 雙重差分的平行趨勢假設。在沒有實驗的情況下，“實驗”組和“對照組”之間的差異是恒定的。像這樣以時間為橫坐標的圖中繪制出這兩條線可以幫助檢查假設的有效性。

反事實分析

最后，有時候你可能想從僅包含實驗觀察結果的數(shù)據中檢測出因果關系。一個經典的技術性方法是執(zhí)行一次向所有用戶發(fā)起的新功能的效果的評估：沒有進行A/B測試，而且沒有人可以作為對照組。在這種情況下，你就可以嘗試反事實條件估計（第三階級）。

反事實條件的底層邏輯是創(chuàng)建一個模型，可以計算反事實條件對照組。也就是說，你可以估計出如果不存在這個功能將會發(fā)生什么。計算估算值不容易。但是，如果你對自己的用戶模型充滿信心，那你就有足夠的資料來進行反事實因果分析！

▲ 時間序列反事實條件與觀測數(shù)據的例子

我們來舉個例子進一步說明。幾個月前，我們需要評估安全升級對用戶的影響。這個升級很重要，并且已經向所有用戶推出了，但是它給用戶帶來了很多麻煩。我們想看看這種困擾是不是會導致用戶的使用量減少。當然，我們不可能在用戶中找到對照組。

在沒有對照組的情況下，我們創(chuàng)建了一個時間序列模型去尋找可靠的升級功能對用戶使用情況的反事實估計。我們訓練了模型，例如不受安全升級影響的其他功能的使用量以及描述Shopify總體活躍度的全球平均趨勢。所有變量都與我們正在研究的安全升級無關。當我們將模型的預測值與實際值進行比較時，我們發(fā)現(xiàn)并沒有提升。這表明新的安全功能不會對用戶的使用量產生負面影響。

使用反事實條件方法時，預測的質量至關重要。如果有一個與最新版本無關的混雜的因素發(fā)生變化，那你也不想將這個改變歸因到你的功能上。比如，如果你有一個可以預測某項功能的日常使用情況的模型，而競爭對手在你之后立即發(fā)布了一項類似的功能，那么你的模型將無法解釋這一新因素。領域專業(yè)知識和嚴格的測試是進行反事實條件因果推理的最佳工具。讓我們再進一步了解。