從去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整合之后,各界就高度關注通信平臺巨頭和電商巨頭整合后將如何激發(fā)出新的火花。
Z控股訂下的首要戰(zhàn)略目標是優(yōu)先加強數據治理。這是因為,成為一家世界級AI科技公司,是整合后雙方的共同戰(zhàn)略目標,而高品質的可用資料正是邁向這個愿景的關鍵基礎工程。尤其,Line日本用戶、雅虎日本用戶和PayPay三大生態(tài)系整合后,用戶數達到2億人規(guī)模。如何支撐新的超大規(guī)模生態(tài)圈,從今年11月剛結束的Line與雅虎日本首次聯合技術會中,可以觀察到,資料科技和AI技術是關鍵。
擅長社交平臺,擁有海外多國發(fā)展經驗的Line,和擁有深厚電商、零售與金融產業(yè)布局的雅虎日本,在年會中展現出各自不同的技術發(fā)展重心,卻又可以互補。Line聚焦于發(fā)展平臺式的戰(zhàn)略型技術架構,尤其在AI架構和資料科技平臺,及區(qū)塊鏈架構上,而雅虎日本則聚焦在擴大AI應用和產業(yè)AI實踐等。前者聚焦強化AI技術體質和未來性,后者則聚焦擴大產業(yè)AI版圖和業(yè)務廣度。
Line目前全球每月約2億用戶使用,累計了大量的用戶和行為資料,因此早在2019年,Line激活了一個自助式的超大規(guī)模資料平臺IU(Information Universe),后來,2020年時,又進一步在IU上發(fā)展出了一層機器學習平臺MLU(Machine Learning Universe),用來支持多項跨服務共享的大型ML模型集群,包括NLP模型、計算機視覺模型、推薦模型、廣告優(yōu)化模型。
目前IU支持了Line內部超過200項服務,存儲了400PB的HDFS資料,超過4萬個Hive表格,每天要執(zhí)行15萬個任務。Line首席技術官Tomohiro Ikebe指出:“龐大資料不只是很大的存儲挑戰(zhàn),利用時也是很大的挑戰(zhàn)?!?/p>
IU資料平臺新變革,打造資料血統(tǒng)功能將資料變動過程可視化
在年會中,Tomohiro Ikebe首度披露了后續(xù)IU上進一步打造的網頁式資料目錄服務,也就是IU Web門戶網站。
在這個IU Web上,提供了多項自動化機制,例如元數據搜集機制、Data profiling機制、可輔助法遵需求的資料驗證工具。另外,IU也引進了Apache Iceberg資料湖技術,并將流媒體大數據分析平臺Spark升級到3.2版。
IU Web最重要的新功能則是2021年11月新上線的Data Lineage(資料血統(tǒng))功能。Tomohiro Ikebe解釋,隨著IU上的資料流程越來越復雜,一旦發(fā)生問題,想要找出資料間的關系,越來越困難。要解決這個問題就需要資料血統(tǒng)機制。
資料血統(tǒng)機制可以用來關注特定資料從創(chuàng)建后到現在的發(fā)展路徑,在瀏覽器上通過圖表來呈現資料變動的過程。
Line資料平臺部門資深產品經理宇田川直人表示,這個內部資料目錄提供了一站式的入口,來涵蓋所有的資料活動,來提高包括搜索資料,訪問控制,元數據管理和探索性資料分析等資料利用的效率。
不過,要打造這樣的資料目錄有兩大挑戰(zhàn),一是得搜集所有資料集的元數據,第二是如何呈現這些元數據的關聯。Line使用了開源的目錄服務項目Apache Atlas來串聯各種不同資料源,搜集資料元數據來了解異動狀況,并將資料每一次的變化過程用可視化的方式呈現,這就是資料血統(tǒng)的機制。資料血統(tǒng)圖上的每一個節(jié)點,可以列出這個節(jié)點相關的資料表簡介、時間戳、表格關系、PII(涉及個人信息),資料擁有者,使用單位,還有從這份資料產生的相關報表、用戶清單和各種連接等。
可是,IU上有4萬個Hive表格,每天要執(zhí)行15萬個任務,每一個任務和每一個表格都是一個人信息料血統(tǒng)圖上的節(jié)點,要追溯出從創(chuàng)建到目前的所有變化和關聯,就會產生非常復雜和龐大的節(jié)點關聯圖。
為了改善資料血統(tǒng)圖的可讀性,Line采取了多項設計機制來簡化資料血統(tǒng)圖的復雜性。Line利用Atlas串聯了HIve服務器和Spark,利用Atlas的通知機制,采取推送更新元數據的做法。不過,因為IU上執(zhí)行的任務每天多達十幾萬個,幾分鐘內的資料表異動也多達數百次。因此,Line通過Kafka匯集整理來自Atlas的通知,以30分鐘為最小關注單位,排除掉30分鐘內的異動,例如操作錯誤的數據庫反復添加或刪指令,大幅減少了90%異動通知。再進一步比較異動模式,過濾掉對用戶沒有意義的DDL語法異動資訊,更大幅減少了95%的噪聲。
不只如此,Line在資料血統(tǒng)數據庫中,排除了不重要的資料節(jié)點的注冊,這更大幅減少了9成節(jié)點數,也刪除了3萬個不需要的任務。通過這些一層又一層的過濾和篩選,才讓Line資料目錄IU Web上提供的資料血統(tǒng),要處理的復雜度降低,甚至可以進一步展開到以字段為節(jié)點單位的關聯分析圖。
Line更提供了一個互動式的接口,默認可以展開一項資料從出生到現在的血統(tǒng)脈絡。
資料血統(tǒng)功能在2021年11月上線,統(tǒng)計到2022年5月,有79個服務和部門使用這項功能,每天用于ETL、資料管理和數據科學分析等功能,特別是Data ETL團隊可以更容易確認資料表維護的范圍,尤其要執(zhí)行資料表刪除或異動時能更放心。更有不少用戶每天常用資料血統(tǒng)來調查各種資料錯誤的根本原因
“可以掌握資料間的關聯,就可以很容易知道如何管理龐大資料,來提高再利用效率,更可以在安全和治理的角度下,來使用這些資料?!盩omohiro Ikebe表示。不只用于IU,在MLU平臺上,也可以利用相同的血統(tǒng)技術,來關注一個模型用了哪些資料來訓練,以及在訓練中如何使用這些資料。
IU Web的資料血統(tǒng)功能,可以呈現一項資料從出生到現在的資料異動脈絡也就是資料血統(tǒng),默認展開三層重要的節(jié)點,用戶可以自行放大或縮小畫面,也可以針對任何一個人信息料字段,再進一步展開下三層的資料血統(tǒng)關聯圖。圖片來源/Line
Line機器學習平臺MLU引進聯合學習新架構
不只IU資料平臺展開大變革,Line的機器學習平臺MLU也采用了全新的訓練架構和模式。Tomohiro Ikebe表示,今年秋天,Line在貼圖推薦導入了一套新的機器學習訓練架構,“可以處理爆量特征來創(chuàng)建模型,又能兼顧隱私和用戶便利性,就是聯合學習(Federated Learning)和差分隱私(Differential Privacy)?!?/p>
通過聯合學習機制,在用戶本地端App上完成模型訓練,并利用差分隱私(Differential Privacy)架構,將模型加上噪聲來避免從模型回推原始資料,再將沒有用戶資料的特征模型,回傳到后端服務器來更新整體推薦模型,再分派新模型到用戶App上,利用本地端Log來產生更個性化的推薦順序。
雅虎日本首席技術官小久保雅彥指出,兩家公司共同累計了龐大用戶和爆量數據,而且只會加速增加。為了持續(xù)增長,必須解決多項技術挑戰(zhàn),像是得打造一套靈活平臺,回應快速暴增的流量和資料。也得擴大甚至加速導入先進AI技術。還要打造安全和隱私保護的可靠性架構來創(chuàng)建信任。
這三大挑戰(zhàn),也正是Line資料平臺和AI架構新變革要解決的課題。