Google云計算加入一個稱為Tecton的功能平臺,可自動執(zhí)行生產環(huán)境中,構建和管理機器學習特征的步驟,Tecton是一個全托管特征構建和調度服務,可完整管理機器學習特征生命周期,降低組織構建、管理和共享機器學習特征的障礙,并提高模型性能和可靠性,控制機器學習應用程序的開發(fā)和維護成本。
目前不少企業(yè)開始將機器學習功能集成進應用程序中,但是機器學習模型需要高品質的數據,經過轉換創(chuàng)建機器學習特征,才能做出精準預測,而Google提到,構建和管理生產環(huán)境機器學習特征數據工作管線并不容易,這些工作管線的數據來自批處理或是流媒體傳輸等不同來源,在將這些數據轉換成為機器學習特征之后,才能用于訓練和服務上。
而Tecton的目標是要能自動處理機器學習特征的構建、處理、共享和供給工作,數據團隊可以使用Tecton的聲明式框架,將特征定義為程序代碼,在底層會由Tecton調度轉換與實現機器學習特征所需要的實際工作管線。通過Google Cloud Build這類CI/CD工具,開發(fā)者可以將Tecton特征當作程序代碼進行管理,集中管理程序代碼方便共享和協作,就像是管理基礎設施即程序代碼,或是模型即程序代碼一樣。
Tecton可自動連接和維護Google云計算批處理和流媒體服務的新數據,同時Tecton也支持來自包括Redshift、Snowflake和Apache Kafka等非GCP的數據。Tecton在Google云計算上,會使用Databricks或Dataproc分布式運算平臺聚合和轉換數據,將傳入的數據轉換成為特征,放到線上與脫機特征商店中。數據特征存放在Tecton低延遲線上存儲,服務即時供給需求,同時也會存放在脫機存儲,以用于產生訓練數據集和脫機推理用途。