Google云計算加入一個稱為Tecton的功能平臺,可自動執(zhí)行生產(chǎn)環(huán)境中,構(gòu)建和管理機器學習特征的步驟,Tecton是一個全托管特征構(gòu)建和調(diào)度服務,可完整管理機器學習特征生命周期,降低組織構(gòu)建、管理和共享機器學習特征的障礙,并提高模型性能和可靠性,控制機器學習應用程序的開發(fā)和維護成本。
目前不少企業(yè)開始將機器學習功能集成進應用程序中,但是機器學習模型需要高品質(zhì)的數(shù)據(jù),經(jīng)過轉(zhuǎn)換創(chuàng)建機器學習特征,才能做出精準預測,而Google提到,構(gòu)建和管理生產(chǎn)環(huán)境機器學習特征數(shù)據(jù)工作管線并不容易,這些工作管線的數(shù)據(jù)來自批處理或是流媒體傳輸?shù)炔煌瑏碓?,在將這些數(shù)據(jù)轉(zhuǎn)換成為機器學習特征之后,才能用于訓練和服務上。
而Tecton的目標是要能自動處理機器學習特征的構(gòu)建、處理、共享和供給工作,數(shù)據(jù)團隊可以使用Tecton的聲明式框架,將特征定義為程序代碼,在底層會由Tecton調(diào)度轉(zhuǎn)換與實現(xiàn)機器學習特征所需要的實際工作管線。通過Google Cloud Build這類CI/CD工具,開發(fā)者可以將Tecton特征當作程序代碼進行管理,集中管理程序代碼方便共享和協(xié)作,就像是管理基礎設施即程序代碼,或是模型即程序代碼一樣。
Tecton可自動連接和維護Google云計算批處理和流媒體服務的新數(shù)據(jù),同時Tecton也支持來自包括Redshift、Snowflake和Apache Kafka等非GCP的數(shù)據(jù)。Tecton在Google云計算上,會使用Databricks或Dataproc分布式運算平臺聚合和轉(zhuǎn)換數(shù)據(jù),將傳入的數(shù)據(jù)轉(zhuǎn)換成為特征,放到線上與脫機特征商店中。數(shù)據(jù)特征存放在Tecton低延遲線上存儲,服務即時供給需求,同時也會存放在脫機存儲,以用于產(chǎn)生訓練數(shù)據(jù)集和脫機推理用途。