從去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整合之后,各界就高度關(guān)注通信平臺巨頭和電商巨頭整合后將如何激發(fā)出新的火花。
Z控股訂下的首要戰(zhàn)略目標是優(yōu)先加強數(shù)據(jù)治理。這是因為,成為一家世界級AI科技公司,是整合后雙方的共同戰(zhàn)略目標,而高品質(zhì)的可用資料正是邁向這個愿景的關(guān)鍵基礎(chǔ)工程。尤其,Line日本用戶、雅虎日本用戶和PayPay三大生態(tài)系整合后,用戶數(shù)達到2億人規(guī)模。如何支撐新的超大規(guī)模生態(tài)圈,從今年11月剛結(jié)束的Line與雅虎日本首次聯(lián)合技術(shù)會中,可以觀察到,資料科技和AI技術(shù)是關(guān)鍵。
擅長社交平臺,擁有海外多國發(fā)展經(jīng)驗的Line,和擁有深厚電商、零售與金融產(chǎn)業(yè)布局的雅虎日本,在年會中展現(xiàn)出各自不同的技術(shù)發(fā)展重心,卻又可以互補。Line聚焦于發(fā)展平臺式的戰(zhàn)略型技術(shù)架構(gòu),尤其在AI架構(gòu)和資料科技平臺,及區(qū)塊鏈架構(gòu)上,而雅虎日本則聚焦在擴大AI應(yīng)用和產(chǎn)業(yè)AI實踐等。前者聚焦強化AI技術(shù)體質(zhì)和未來性,后者則聚焦擴大產(chǎn)業(yè)AI版圖和業(yè)務(wù)廣度。
Line目前全球每月約2億用戶使用,累計了大量的用戶和行為資料,因此早在2019年,Line激活了一個自助式的超大規(guī)模資料平臺IU(Information Universe),后來,2020年時,又進一步在IU上發(fā)展出了一層機器學(xué)習(xí)平臺MLU(Machine Learning Universe),用來支持多項跨服務(wù)共享的大型ML模型集群,包括NLP模型、計算機視覺模型、推薦模型、廣告優(yōu)化模型。
目前IU支持了Line內(nèi)部超過200項服務(wù),存儲了400PB的HDFS資料,超過4萬個Hive表格,每天要執(zhí)行15萬個任務(wù)。Line首席技術(shù)官Tomohiro Ikebe指出:“龐大資料不只是很大的存儲挑戰(zhàn),利用時也是很大的挑戰(zhàn)。”
IU資料平臺新變革,打造資料血統(tǒng)功能將資料變動過程可視化
在年會中,Tomohiro Ikebe首度披露了后續(xù)IU上進一步打造的網(wǎng)頁式資料目錄服務(wù),也就是IU Web門戶網(wǎng)站。
在這個IU Web上,提供了多項自動化機制,例如元數(shù)據(jù)搜集機制、Data profiling機制、可輔助法遵需求的資料驗證工具。另外,IU也引進了Apache Iceberg資料湖技術(shù),并將流媒體大數(shù)據(jù)分析平臺Spark升級到3.2版。
IU Web最重要的新功能則是2021年11月新上線的Data Lineage(資料血統(tǒng))功能。Tomohiro Ikebe解釋,隨著IU上的資料流程越來越復(fù)雜,一旦發(fā)生問題,想要找出資料間的關(guān)系,越來越困難。要解決這個問題就需要資料血統(tǒng)機制。
資料血統(tǒng)機制可以用來關(guān)注特定資料從創(chuàng)建后到現(xiàn)在的發(fā)展路徑,在瀏覽器上通過圖表來呈現(xiàn)資料變動的過程。
Line資料平臺部門資深產(chǎn)品經(jīng)理宇田川直人表示,這個內(nèi)部資料目錄提供了一站式的入口,來涵蓋所有的資料活動,來提高包括搜索資料,訪問控制,元數(shù)據(jù)管理和探索性資料分析等資料利用的效率。
不過,要打造這樣的資料目錄有兩大挑戰(zhàn),一是得搜集所有資料集的元數(shù)據(jù),第二是如何呈現(xiàn)這些元數(shù)據(jù)的關(guān)聯(lián)。Line使用了開源的目錄服務(wù)項目Apache Atlas來串聯(lián)各種不同資料源,搜集資料元數(shù)據(jù)來了解異動狀況,并將資料每一次的變化過程用可視化的方式呈現(xiàn),這就是資料血統(tǒng)的機制。資料血統(tǒng)圖上的每一個節(jié)點,可以列出這個節(jié)點相關(guān)的資料表簡介、時間戳、表格關(guān)系、PII(涉及個人信息),資料擁有者,使用單位,還有從這份資料產(chǎn)生的相關(guān)報表、用戶清單和各種連接等。
可是,IU上有4萬個Hive表格,每天要執(zhí)行15萬個任務(wù),每一個任務(wù)和每一個表格都是一個人信息料血統(tǒng)圖上的節(jié)點,要追溯出從創(chuàng)建到目前的所有變化和關(guān)聯(lián),就會產(chǎn)生非常復(fù)雜和龐大的節(jié)點關(guān)聯(lián)圖。
為了改善資料血統(tǒng)圖的可讀性,Line采取了多項設(shè)計機制來簡化資料血統(tǒng)圖的復(fù)雜性。Line利用Atlas串聯(lián)了HIve服務(wù)器和Spark,利用Atlas的通知機制,采取推送更新元數(shù)據(jù)的做法。不過,因為IU上執(zhí)行的任務(wù)每天多達十幾萬個,幾分鐘內(nèi)的資料表異動也多達數(shù)百次。因此,Line通過Kafka匯集整理來自Atlas的通知,以30分鐘為最小關(guān)注單位,排除掉30分鐘內(nèi)的異動,例如操作錯誤的數(shù)據(jù)庫反復(fù)添加或刪指令,大幅減少了90%異動通知。再進一步比較異動模式,過濾掉對用戶沒有意義的DDL語法異動資訊,更大幅減少了95%的噪聲。
不只如此,Line在資料血統(tǒng)數(shù)據(jù)庫中,排除了不重要的資料節(jié)點的注冊,這更大幅減少了9成節(jié)點數(shù),也刪除了3萬個不需要的任務(wù)。通過這些一層又一層的過濾和篩選,才讓Line資料目錄IU Web上提供的資料血統(tǒng),要處理的復(fù)雜度降低,甚至可以進一步展開到以字段為節(jié)點單位的關(guān)聯(lián)分析圖。
Line更提供了一個互動式的接口,默認可以展開一項資料從出生到現(xiàn)在的血統(tǒng)脈絡(luò)。
資料血統(tǒng)功能在2021年11月上線,統(tǒng)計到2022年5月,有79個服務(wù)和部門使用這項功能,每天用于ETL、資料管理和數(shù)據(jù)科學(xué)分析等功能,特別是Data ETL團隊可以更容易確認資料表維護的范圍,尤其要執(zhí)行資料表刪除或異動時能更放心。更有不少用戶每天常用資料血統(tǒng)來調(diào)查各種資料錯誤的根本原因
“可以掌握資料間的關(guān)聯(lián),就可以很容易知道如何管理龐大資料,來提高再利用效率,更可以在安全和治理的角度下,來使用這些資料?!盩omohiro Ikebe表示。不只用于IU,在MLU平臺上,也可以利用相同的血統(tǒng)技術(shù),來關(guān)注一個模型用了哪些資料來訓(xùn)練,以及在訓(xùn)練中如何使用這些資料。
IU Web的資料血統(tǒng)功能,可以呈現(xiàn)一項資料從出生到現(xiàn)在的資料異動脈絡(luò)也就是資料血統(tǒng),默認展開三層重要的節(jié)點,用戶可以自行放大或縮小畫面,也可以針對任何一個人信息料字段,再進一步展開下三層的資料血統(tǒng)關(guān)聯(lián)圖。圖片來源/Line
Line機器學(xué)習(xí)平臺MLU引進聯(lián)合學(xué)習(xí)新架構(gòu)
不只IU資料平臺展開大變革,Line的機器學(xué)習(xí)平臺MLU也采用了全新的訓(xùn)練架構(gòu)和模式。Tomohiro Ikebe表示,今年秋天,Line在貼圖推薦導(dǎo)入了一套新的機器學(xué)習(xí)訓(xùn)練架構(gòu),“可以處理爆量特征來創(chuàng)建模型,又能兼顧隱私和用戶便利性,就是聯(lián)合學(xué)習(xí)(Federated Learning)和差分隱私(Differential Privacy)?!?/p>
通過聯(lián)合學(xué)習(xí)機制,在用戶本地端App上完成模型訓(xùn)練,并利用差分隱私(Differential Privacy)架構(gòu),將模型加上噪聲來避免從模型回推原始資料,再將沒有用戶資料的特征模型,回傳到后端服務(wù)器來更新整體推薦模型,再分派新模型到用戶App上,利用本地端Log來產(chǎn)生更個性化的推薦順序。
雅虎日本首席技術(shù)官小久保雅彥指出,兩家公司共同累計了龐大用戶和爆量數(shù)據(jù),而且只會加速增加。為了持續(xù)增長,必須解決多項技術(shù)挑戰(zhàn),像是得打造一套靈活平臺,回應(yīng)快速暴增的流量和資料。也得擴大甚至加速導(dǎo)入先進AI技術(shù)。還要打造安全和隱私保護的可靠性架構(gòu)來創(chuàng)建信任。
這三大挑戰(zhàn),也正是Line資料平臺和AI架構(gòu)新變革要解決的課題。