“理想解決方案”:Daltix的自動(dòng)化數(shù)據(jù)湖歸檔節(jié)省了10萬美元

來源:AI前線
作者:Amrit Singh
時(shí)間:2022-11-16
2313
在快消領(lǐng)域,Daltix 是提供完整、透明、高質(zhì)量零售數(shù)據(jù)的先行者

微信圖片_20221116152512.png

在快消領(lǐng)域,Daltix 是提供完整、透明、高質(zhì)量零售數(shù)據(jù)的先行者。GFK 和聯(lián)合利華等全球行業(yè)領(lǐng)導(dǎo)者依靠他們的定價(jià)、產(chǎn)品、促銷和位置數(shù)據(jù)來制定入市策略并做出關(guān)鍵決策,對 Daltix 來說,維護(hù)一個(gè)可靠的數(shù)據(jù)生態(tài)系統(tǒng)勢在必行。

自 2016 年成立以來,隨著公司的發(fā)展,Daltix 處理的數(shù)據(jù)量呈指數(shù)級增長。他們目前管理著大約 250TB 的數(shù)據(jù),分散在數(shù)十億個(gè)文件中,很快就造成了巨大的時(shí)間和資源消耗。Daltix 的基礎(chǔ)設(shè)施幾乎完全是圍繞 AWS 構(gòu)建,因?yàn)樾枰芾頂?shù)十億個(gè)極小的文件,所以在可擴(kuò)展性和成本效益方面,AWS 的存儲(chǔ)選項(xiàng)已經(jīng)開始無法滿足他們的需求。

微信圖片_20221116152516.png

比利時(shí)的Daltix團(tuán)隊(duì)

我們與 Daltix 首席軟件工程師 Charlie Orford 進(jìn)行了交流,了解他們?nèi)绾芜w移到 Backblaze B2 云存儲(chǔ)以及他們從那個(gè)過程中得出了什么結(jié)論。以下是其中的一些要點(diǎn):

  • 他們使用一個(gè)自定義引擎將數(shù)十億個(gè)文件從 AWS S3 遷移到 Backblaze B2;
  • 月度成本減少了 2500 美元,數(shù)據(jù)的可移植性和可靠性都得到了提升;
  • Daltix 創(chuàng)建的基礎(chǔ)設(shè)施每天可以自動(dòng)備份 840 萬個(gè)數(shù)據(jù)對象。

請繼續(xù)閱讀,看看他們是如何做到的。

一個(gè)基于 AWS 構(gòu)建的復(fù)雜數(shù)據(jù)管道

Daltix 在公司創(chuàng)立初期創(chuàng)建的基于 S3 的基礎(chǔ)設(shè)施,大部分還完好無損。過去,數(shù)據(jù)管道將從網(wǎng)絡(luò)上抓取的資源直接寫入 Amazon S3,經(jīng)由基于 Lambda 的提取器進(jìn)行標(biāo)準(zhǔn)化后,再發(fā)送回 S3。然后,由 AWS Batch 選取要使用其他數(shù)據(jù)源進(jìn)行補(bǔ)充和豐富的資源。

所有這些步驟都是在 Daltix 的分析師團(tuán)隊(duì)準(zhǔn)備好數(shù)據(jù)之前進(jìn)行的。為了優(yōu)化流程并提高效率,Orford 開始將該流程的部分環(huán)節(jié)納入到 Kubernetes 中,但數(shù)據(jù)存儲(chǔ)仍然存在問題;Daltix 每天生成大約 300GB 的壓縮數(shù)據(jù),而且這個(gè)數(shù)值還在迅速增長?!半S著數(shù)據(jù)收集規(guī)模的擴(kuò)大,我們必須更加關(guān)注成本控制、數(shù)據(jù)可移植性和可靠性,”O(jiān)rford 說,“這些都是顯而易見的,但規(guī)模大了,就更加重要了?!?/p>

成本方面的考量促使我們,尋找更友好的歸檔存儲(chǔ)

到 2020 年,Daltix 開始意識(shí)到,在 AWS 中構(gòu)建這么多基礎(chǔ)設(shè)施存在局限性。例如,圍繞 S3 元數(shù)據(jù)進(jìn)行的大量定制使得移動(dòng)對象的能力完全受制于目標(biāo)系統(tǒng)與 S3 的兼容性。Orford 還擔(dān)心,在 S3 中永久存儲(chǔ)如此巨大的數(shù)據(jù)湖的成本。如他所言,“很明顯,沒有必要把所有東西都永遠(yuǎn)存在 S3 中。如果不采取任何措施,那么我們的 S3 成本將繼續(xù)上升,并最終遠(yuǎn)遠(yuǎn)超出我們使用其他 AWS 服務(wù)的成本?!?/p>

微信圖片_20221116152521.png

服務(wù)器成本對比

因?yàn)?Daltix 要處理數(shù)十億個(gè)小文件,所以不可能使用 Glacier,因?yàn)樗亩▋r(jià)模式是基于檢索費(fèi)用的。即使是使用 Glacier 即時(shí)檢索,Daltix 所處理的文件數(shù)量也會(huì)使他們每年額外支付 20 萬美元的費(fèi)用。因此,Daltix 的數(shù)據(jù)收集團(tuán)隊(duì)(公司 85% 以上的數(shù)據(jù)都來自這個(gè)團(tuán)隊(duì))推動(dòng)實(shí)施了一種可替代的解決方案,解決了一些相互矛盾的問題:

  • 數(shù)據(jù)湖的龐大規(guī)模;
  • 需要將原始資源存儲(chǔ)為離散文件(這意味著無法進(jìn)行批處理);
  • 團(tuán)隊(duì)能夠投入的時(shí)間和精力有限;
  • 簡化解決方案,以保證其可靠性。

Daltix 決定使用 Amazon S3 進(jìn)行熱存儲(chǔ),并將暖存儲(chǔ)轉(zhuǎn)移到新的歸檔解決方案中,這可以降低成本,同時(shí)保持重要數(shù)據(jù)可訪問——即使目的是將文件存儲(chǔ)在別處。Orford 說:“重要的是要找到某個(gè)非常容易集成而且開發(fā)風(fēng)險(xiǎn)低的東西,并且有助于降低我們的成本。對我們來說,Backblaze 確實(shí)可以滿足所有要求。”

只是初步遷移每月就立省 2000 美元

在開始全面遷移之前,Orford 和他的團(tuán)隊(duì)做了概念驗(yàn)證(POC),以確保解決方案解決了他們重點(diǎn)關(guān)注的問題:

  • 確保海量數(shù)據(jù)成功遷移;
  • 避免數(shù)據(jù)損壞并使用審計(jì)日志檢查錯(cuò)誤;
  • 保留每個(gè)對象的自定義元數(shù)據(jù)。

“早期,我們與 Backblaze 合作,定制了一個(gè)可以滿足我們所有需求的遷移工具,”O(jiān)rford 說,“這給了我們繼續(xù)前進(jìn)的信心?!盉ackblaze 為我們定制了一個(gè)遷移引擎,可以保證遷移過程能夠可靠地傳輸整個(gè)數(shù)據(jù)湖,并且保證對象級元數(shù)據(jù)完好無損。在成功遷移了一開始的 POC 存儲(chǔ)桶之后,Daltix 就擁有了開始建模和預(yù)測未來成本所需的一切。Orford 說道:“在開始接觸 Backblaze 之后,我們便不再尋找其他選項(xiàng)“。

2021 年 8 月,Daltix 將一個(gè)包含 22 億個(gè)對象的 120TB 的存儲(chǔ)桶從 S3 的標(biāo)準(zhǔn)存儲(chǔ)轉(zhuǎn)移到 Backblaze B2 云存儲(chǔ)。僅最初的遷移就立即節(jié)省了 2000 美元 / 月或 24000 美元 / 年的成本。

微信圖片_20221116152527.png

寧靜的數(shù)據(jù)湖

三倍的數(shù)據(jù),直接兼容 S3,累計(jì)節(jié)省 10 萬美元

現(xiàn)在,Daltix 每天從 Amazon S3 向 Backblaze B2 遷移 320 萬個(gè)數(shù)據(jù)對象(大約 160GB 的數(shù)據(jù))。他們在 S3 中保存了 18 個(gè)月的熱數(shù)據(jù),一旦一個(gè)對象存在達(dá) 18 個(gè)月零一天,就會(huì)被歸檔到 B2 中。在少數(shù)情況下,Daltix 也會(huì)接收到請求 18 個(gè)月窗口期之外的數(shù)據(jù)的請求,由于 Backblaze 的 API 兼容 S3 且數(shù)據(jù)永遠(yuǎn)可用,所以他們可以直接將數(shù)據(jù)從 Backblaze B2 拉到 Amazon S3。

每日審計(jì)日志會(huì)匯總已傳輸?shù)臄?shù)據(jù)量,整個(gè)遷移過程每天自動(dòng)執(zhí)行。Orford 說:“它在后臺(tái)運(yùn)行,我們不需要管理任何東西,什么都可以看到,而且很劃算。對我們來說,Backblaze B2 是一個(gè)理想的解決方案?!?/p>

隨著每日數(shù)據(jù)收集量的增加,會(huì)有越來越多的數(shù)據(jù)從熱存儲(chǔ)窗口中遷出,Orford 預(yù)計(jì)成本會(huì)進(jìn)一步降低。據(jù) Orford 估計(jì),日遷移量將在大約一年半后接近目前水平的三倍:這意味著 Daltix 每天將向 Backblaze B2 備份 900 萬個(gè)對象(約 450GB 數(shù)據(jù))。長遠(yuǎn)來看,從 Amazon S3 切換到 Backblaze B2 為 Daltix 節(jié)省的成本都令人難以置信。Orford 說:“因?yàn)槭褂昧?Backblaze B2,預(yù)計(jì)到 2023 年,我們在存儲(chǔ)支出上將累計(jì)節(jié)省 7.5 萬至 10 萬美元,每年至少節(jié)省 3 萬美元?!?/p>

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:AI前線
版權(quán)說明:本文內(nèi)容來自于AI前線,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號(hào)登錄/注冊
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家