Google宣布推出了資料驗(yàn)證工具(DVT),這是一個(gè)開源的Python命令行工具,可以跨不同環(huán)境進(jìn)行自動(dòng)化資料驗(yàn)證。
Google提到,資料驗(yàn)證是數(shù)據(jù)倉庫、數(shù)據(jù)庫和資料湖搬遷的關(guān)鍵步驟,工作包括比較來源和目標(biāo)表格的結(jié)構(gòu)化和半結(jié)構(gòu)化資料,并在每個(gè)搬遷步驟,像是SQL腳本轉(zhuǎn)換、資料和架構(gòu)搬遷以及ETL搬遷等,驗(yàn)證這些步驟是否正確完成。
跨平臺(tái)驗(yàn)證資料雖然重要但是卻非常耗時(shí),用戶可能必需要構(gòu)建和維護(hù)自定義解決方案,才能完成這項(xiàng)工作,而DVT提供了一個(gè)標(biāo)準(zhǔn)化的解決方案,可供用戶根據(jù)本地端系統(tǒng)中的資料,驗(yàn)證Google云計(jì)算中心搬遷的資料,DVT能夠與現(xiàn)有企業(yè)基礎(chǔ)設(shè)施和ETL工作管線集成,進(jìn)行無縫且自動(dòng)化的驗(yàn)證。
DVT使用Ibis框架來連接到大量數(shù)據(jù)源,Ibis則是一個(gè)Python框架,能夠用標(biāo)準(zhǔn)方式訪問資料,并且對(duì)不同來源的資料進(jìn)行分析運(yùn)算,簡單來說,Ibis供用戶方便地使用Python編寫SQL,但在訪問資料外,其重點(diǎn)在于分析,除了可用于SQL數(shù)據(jù)庫,還支持后端各種資料存儲(chǔ)系統(tǒng)。
有了Ibis的支持,DVT能夠連接到大量的資料源上,包括BigQuery、AWS S3、MySQL、Oracle、Spanner、SQL Server以及Teradata等。DVT能執(zhí)行多層資料驗(yàn)證,從各種表格層級(jí)的驗(yàn)證到列驗(yàn)證。