基于亞馬遜云科技云原生數(shù)據(jù)倉庫Amazon Redshift,皮爺咖啡構(gòu)建敏捷的數(shù)據(jù)治理架構(gòu)

來源:亞馬遜云科技
作者:亞馬遜云科技
時(shí)間:2023-08-17
3089
咖啡,正在成為新一代我國年輕人的國民飲料,它是打工人的“續(xù)命”能量飲,是都市青年的生活調(diào)劑。隨著咖啡消費(fèi)已成為習(xí)慣,咖啡行業(yè)正在進(jìn)一步下沉并向咖啡需求的品質(zhì)化、精品化升級。咖啡產(chǎn)業(yè)正在我國加速奔跑,以嶄新的面貌快速發(fā)展、成長。

咖啡,正在成為新一代我國年輕人的國民飲料,它是打工人的“續(xù)命”能量飲,是都市青年的生活調(diào)劑。隨著咖啡消費(fèi)已成為習(xí)慣,咖啡行業(yè)正在進(jìn)一步下沉并向咖啡需求的品質(zhì)化、精品化升級??Х犬a(chǎn)業(yè)正在我國加速奔跑,以嶄新的面貌快速發(fā)展、成長。

皮爺咖啡(Peet’s Coffee)是美國精品咖啡品牌,于2017年進(jìn)入中國,為中國消費(fèi)者帶來傳統(tǒng)經(jīng)典咖啡飲品,并特別呈現(xiàn)更加豐富的品質(zhì)咖啡飲品體驗(yàn)。通過深入應(yīng)用亞馬遜云科技云原生數(shù)據(jù)庫產(chǎn)品Amazon Redshift以及Amazon Database Migration Service(Amazon DMS)等數(shù)據(jù)庫產(chǎn)品,皮爺咖啡在1個(gè)月內(nèi),快速構(gòu)建了敏捷的數(shù)據(jù)架構(gòu),加速數(shù)據(jù)治理進(jìn)程。

640.jpg

皮爺咖啡采用的亞馬遜云科技的產(chǎn)品及服務(wù)包括:Amazon Redshift,Amazon Kinesis Data Streams,Amazon Lambda,Amazon Glue,Amazon Athena,Amazon Lake formation,Amazon DMS。

機(jī)會(huì) 未經(jīng)治理的數(shù)據(jù)“一口水,一口井”

皮爺咖啡是包裝和連鎖咖啡巨頭JDE旗下的精品咖啡品牌,始終秉承著打造極致咖啡體驗(yàn)的理念。在中國,皮爺咖啡也在迅速發(fā)展,伴隨著業(yè)務(wù)的迅速擴(kuò)張,皮爺咖啡迅速意識到需要構(gòu)建對應(yīng)的數(shù)據(jù)治理機(jī)制,去建設(shè)大數(shù)據(jù)平臺。皮爺咖啡數(shù)據(jù)架構(gòu)師馮亞東強(qiáng)調(diào):“2023年是皮爺咖啡的數(shù)字化里程碑的一年,我們對數(shù)據(jù)治理的要求非常明確,就是敏捷。敏捷的定義是:沒什么做不了,沒什么不能改,不需要從頭來,不需要等太久。我們做數(shù)據(jù),數(shù)據(jù)驅(qū)動(dòng)是繞不開的話題,如果驅(qū)動(dòng)不好做,十有八九是不夠敏捷?!?/p>

皮爺咖啡對于數(shù)據(jù)治理的要求非常明確:打破數(shù)據(jù)孤島,構(gòu)建敏捷的數(shù)據(jù)系統(tǒng),具備高效的數(shù)據(jù)整合與流動(dòng)能力,實(shí)現(xiàn)業(yè)務(wù)部門對數(shù)據(jù)平臺建設(shè)的較高參與度。在這之中,主要挑戰(zhàn)有如下幾點(diǎn):

·業(yè)務(wù)數(shù)據(jù)庫繁雜、分散:由于歷史原因,皮爺業(yè)務(wù)數(shù)據(jù)庫有本地IDC的服務(wù)器、也包含其他云平臺的服務(wù)器,數(shù)倉種類包含RDB、NoSQL等,種類繁多,場景類別多樣。因此需要一個(gè)通用的、非線性方式解決數(shù)據(jù)集成問題;

·數(shù)據(jù)治理:數(shù)據(jù)血緣元數(shù)據(jù)產(chǎn)品的核心能力,是大數(shù)據(jù)系統(tǒng)的老大難問題。數(shù)據(jù)血緣管理、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)指標(biāo)管理,都需要優(yōu)化迭代,并適配皮爺咖啡的開源解決方案;

·數(shù)據(jù)應(yīng)用:皮爺咖啡在搭建數(shù)據(jù)中臺的關(guān)鍵思考就是需要滿足現(xiàn)有場景,并賦能業(yè)務(wù)人員可以省心省時(shí)省力運(yùn)用和分析數(shù)據(jù)。

“皮爺咖啡基于云原生數(shù)據(jù)倉庫Amazon Redshift與dbt?構(gòu)建了敏捷的數(shù)據(jù)治理架構(gòu)。在這套架構(gòu)下,我們在2分鐘之內(nèi)可以完成兩天增量數(shù)據(jù)的全部計(jì)算處理過程。”

馮亞東 皮爺咖啡數(shù)據(jù)架構(gòu)師

解決方案 1個(gè)月構(gòu)建敏捷彈性的智能湖倉架構(gòu),打破數(shù)據(jù)孤島

針對以上痛點(diǎn),亞馬遜云科技與皮爺咖啡進(jìn)行深入討論,最終確認(rèn)了圍繞“以訂單系統(tǒng)為核心的數(shù)據(jù)主線”完成一期開發(fā),添枝加葉,完善服務(wù)。

數(shù)據(jù)攝入:Serverless免運(yùn)維架構(gòu),構(gòu)建數(shù)據(jù)攝入能力

針對于皮爺咖啡多樣的數(shù)據(jù)源類型,亞馬遜云科技將數(shù)據(jù)源分成三種類別:面對熱數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù),也是高實(shí)時(shí)要求的數(shù)據(jù),皮爺咖啡充分利用Amazon DMS自動(dòng)化遷移功能,實(shí)現(xiàn)數(shù)據(jù)庫和分析工作負(fù)載的快速遷移和CDC(自動(dòng)數(shù)據(jù)攝取),并盡可能減少停機(jī)時(shí)間和杜絕數(shù)據(jù)丟失,并經(jīng)由Amazon DMS直接進(jìn)入云原生數(shù)據(jù)倉庫Amazon Redshift進(jìn)行分析;面對企業(yè)應(yīng)用端、更加復(fù)雜的非結(jié)構(gòu)化熱數(shù)據(jù),則通過Amazon Kinesis Data Streams進(jìn)行實(shí)時(shí)的流數(shù)據(jù)分析,并通過Serverless架構(gòu)的Amazon Lambda,對數(shù)據(jù)進(jìn)行處理;而面對冷數(shù)據(jù)、存取比比較低的非結(jié)構(gòu)化數(shù)據(jù),則通過Amazon Glue存儲(chǔ)在數(shù)據(jù)湖Amazon S3中,從而降低計(jì)算成本和存儲(chǔ)成本,最終實(shí)現(xiàn)良好的冷、熱、溫?cái)?shù)據(jù)分層和隔離。

640.png

皮爺咖啡基于亞馬遜云科技的系統(tǒng)架構(gòu)示意圖

數(shù)據(jù)分析:運(yùn)用冷熱分離的智能湖倉架構(gòu)實(shí)現(xiàn)降本增效

為了將不同結(jié)構(gòu)、不同類型、不同來源的皮爺咖啡相關(guān)數(shù)據(jù)匯總起來并加以分析、獲得見解,亞馬遜云科技運(yùn)用Amazon S3、Amazon Lake formation、Amazon Redshift構(gòu)建起了冷熱分離的湖倉一體架構(gòu),數(shù)據(jù)通過Amazon S3在亞馬遜云科技體系及開源體系流轉(zhuǎn)。其中,云原生數(shù)據(jù)倉庫Amazon Redshift可提供強(qiáng)大的SQL功能,對智能湖倉存儲(chǔ)內(nèi)的超大型數(shù)據(jù)集進(jìn)行快速在線分析處理(OLAP)。

此外,該數(shù)據(jù)庫還提供并發(fā)擴(kuò)展功能,可在幾秒鐘內(nèi)啟動(dòng)更多瞬態(tài)集群,借此支持幾乎無限數(shù)量的并發(fā)查詢,最終在Amazon Redshift的幫助下,皮爺咖啡能夠輕松實(shí)現(xiàn)2分鐘之內(nèi)完成兩天增量的計(jì)算任務(wù)。馮亞東肯定道:“現(xiàn)階段我們積累了皮爺咖啡從成立到現(xiàn)在所有時(shí)期不同的迭代版本數(shù)據(jù)的全面打通,不同數(shù)據(jù)源都落地在Amazon Redshift節(jié)點(diǎn)中,實(shí)現(xiàn)了數(shù)據(jù)的聯(lián)邦查詢?!?/p>

最后,冷熱分離的湖倉一體架構(gòu)支持分層存儲(chǔ),從而幫助皮爺咖啡實(shí)現(xiàn)成本的高度優(yōu)化,數(shù)據(jù)湖與數(shù)據(jù)倉庫之間的原生集成,可以允許客戶從倉庫存儲(chǔ)中移出大量訪問頻率較低的歷史數(shù)據(jù),并降低存儲(chǔ)成本。

數(shù)據(jù)開發(fā):開源DBT構(gòu)建數(shù)據(jù)開發(fā)流程,實(shí)現(xiàn)數(shù)據(jù)血緣

針對于數(shù)據(jù)開發(fā)層面,基于Amazon Redshift Data Sharing的能力,數(shù)據(jù)開發(fā)工程師可以在不同的Redshift集群之間共享數(shù)據(jù),并在這個(gè)過程中對數(shù)據(jù)進(jìn)行脫敏。

憑借該能力,皮爺咖啡的開發(fā)工程師可以基于開源工具DBT(Data Build Tool)進(jìn)行數(shù)據(jù)開發(fā),形成數(shù)據(jù)管道腳本。并在開發(fā)結(jié)束后,經(jīng)過CI/CD(持續(xù)集成,持續(xù)部署)流程進(jìn)行數(shù)據(jù)提交,保障提交到生產(chǎn)環(huán)境的數(shù)據(jù)沒有質(zhì)量問題,最終,將整個(gè)數(shù)據(jù)的語義層信息,包括數(shù)據(jù)目錄、血緣關(guān)系、數(shù)據(jù)質(zhì)量檢測的結(jié)果都通過統(tǒng)一的途徑發(fā)布給數(shù)據(jù)的消費(fèi)者——也就是業(yè)務(wù)人員,讓業(yè)務(wù)人員可以快速根據(jù)語義信息,業(yè)務(wù)含義搜索到數(shù)據(jù)資產(chǎn),查看數(shù)據(jù)質(zhì)量,并通過血緣關(guān)系找到數(shù)據(jù)的來龍去脈,從而對數(shù)據(jù)進(jìn)行分析。

成果 優(yōu)雅、敏捷數(shù)據(jù)架構(gòu),讓咖啡師也能上手做數(shù)據(jù)分析

憑借亞馬遜云科技智能湖倉架構(gòu),皮爺咖啡實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的快速落地,從規(guī)劃到整個(gè)中臺系統(tǒng)搭建完成,皮爺咖啡只用了1個(gè)月的時(shí)間就實(shí)現(xiàn)了生產(chǎn)數(shù)據(jù)的上線,如果按照傳統(tǒng)的方式進(jìn)行建設(shè),這個(gè)時(shí)間可能會(huì)延長30%-40%。

現(xiàn)如今,皮爺咖啡的業(yè)務(wù)單元正在逐步接入大數(shù)據(jù)平臺中,包含HR系統(tǒng)(人力資源管理系統(tǒng))、訂單管理系統(tǒng)、ERP系統(tǒng)(企業(yè)資源計(jì)劃)、會(huì)員中心、訂單中心以及營銷中心等。以DBT為例,該系統(tǒng)中,皮爺咖啡目前已經(jīng)可以提供超過260個(gè)模型為業(yè)務(wù)部門使用,實(shí)現(xiàn)了數(shù)據(jù)分析的工程化、數(shù)據(jù)中臺的產(chǎn)品化,并提供給更多的業(yè)務(wù)部門復(fù)用。正如馮亞東所預(yù)言的那樣,皮爺咖啡的大數(shù)據(jù)平臺正在枝繁葉茂的方向邁進(jìn)。

640 (1).jpg

在談到敏捷的數(shù)據(jù)治理架構(gòu)為皮爺咖啡帶來的收益時(shí),馮亞東提到了“融合創(chuàng)新”為我們講述了一個(gè)咖啡師的故事:“4月份新加入數(shù)據(jù)團(tuán)隊(duì)的成員,原先是一位咖啡師。在構(gòu)建好數(shù)據(jù)中臺后,現(xiàn)在BI層面的問題,我已經(jīng)完全不用關(guān)注了,這位咖啡師——現(xiàn)在是數(shù)據(jù)分析師同事,他已經(jīng)可以完全可以自主對接需求,實(shí)現(xiàn)了BPIT(業(yè)務(wù)流程信息化)。這得益于我們基于亞馬遜云科技解決方案所設(shè)計(jì)出的,對于架構(gòu)設(shè)計(jì)的分層與良好隔離,可以讓業(yè)務(wù)人員以較低門檻參與到業(yè)務(wù)中來,讓數(shù)據(jù)變的簡單、有親和力。”

未來,皮爺咖啡將會(huì)繼續(xù)基于一條數(shù)據(jù)主線的架構(gòu),打開局面,基于Data Vault建模方法,對來自多個(gè)系統(tǒng)的的數(shù)據(jù)進(jìn)行長期歷史存儲(chǔ),添加更多功能,讓整個(gè)技術(shù)架構(gòu)向更優(yōu)雅的方向演進(jìn)。

關(guān)于皮爺咖啡

640 (2).jpg

皮爺咖啡(Peet’s Coffee)是美國精品咖啡品牌,于2017年進(jìn)入中國,為中國消費(fèi)者帶來傳統(tǒng)經(jīng)典咖啡飲品,并特別呈現(xiàn)更加豐富的品質(zhì)咖啡飲品體驗(yàn)。通過深入應(yīng)用亞馬遜云科技云原生數(shù)據(jù)庫產(chǎn)品Amazon Redshift以及Amazon Database Migration Service(Amazon DMS)等數(shù)據(jù)庫產(chǎn)品,皮爺咖啡在1個(gè)月內(nèi),快速構(gòu)建了敏捷的數(shù)據(jù)架構(gòu),加速數(shù)據(jù)治理進(jìn)程。皮爺咖啡采用的亞馬遜云科技的產(chǎn)品及服務(wù)包括:Amazon Redshift,Amazon Kinesis Data Streams,Amazon Lambda,Amazon Glue,Amazon Athena,Amazon Lake formation,Amazon DMS。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:亞馬遜云科技
版權(quán)說明:本文內(nèi)容來自于亞馬遜云科技,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家