隨著爆發(fā)式增長的數(shù)據(jù)從四面八方奔涌而來,金融行業(yè)面臨的數(shù)據(jù)挑戰(zhàn),比我們很多人想象得更加嚴峻。
在傳統(tǒng)的模式下,數(shù)據(jù)的分析、錄入和審核全部采用人工審閱模式,極大地降低了業(yè)務效率,容易造成商機錯失。于是,通過OCR(光學字符識別)技術來實現(xiàn)各種業(yè)務場景的智能化,已經(jīng)成為當前諸多銀行的首選。作為一項枯燥繁雜、重復度高、工作量大的業(yè)務,財報的數(shù)據(jù)錄入和分析顯然可以讓OCR技術大展身手。最近幾年,云上模式成為趨勢,新型數(shù)字化應用飛速發(fā)展,原有的OCR模式已經(jīng)難以滿足金融行業(yè)需求。
基于相關的技術與云服務,亞馬遜云科技在中國市場近期推出了一系列本地“原生”的、服務于金融行業(yè)的解決方案,幫助企業(yè)盤活數(shù)字資產(chǎn),以AI創(chuàng)新場景,加速金融企業(yè)的數(shù)字化轉(zhuǎn)型。
亞馬遜云科技的智能公告文本知識標簽提取機器人方案,便是其之中一。該方案利用Amazon SageMaker機器學習服務、Amazon Neptune圖數(shù)據(jù)庫服務和金融行業(yè)資產(chǎn)盤活機器人等云服務,對上市公司公告、研報等文本進行分析與實體抽取,形成知識標簽,以提升銀行和證券機構識別外部風險與商業(yè)機會的效率。
利用這個方案,用戶不僅可以從上市公司公告中提取價值信息,也可以“閱讀”法院公告、工商、互聯(lián)網(wǎng)媒體、路透、征信、網(wǎng)點監(jiān)控等不同的數(shù)據(jù)來源。針對上市公司公告、研究報告,通過利用智能公告文本知識標簽提取機器人方案,銀行就不必在季末抽取大量人工投入分析文本、提取內(nèi)容等工作,而可以將這些專業(yè)資源用于其他高價值工作。
與傳統(tǒng)OCR不同的是,該方案對財報的分析不僅是提取其中的數(shù)據(jù),還包括了高管變動等關鍵信息。其中,AI模型可以對文檔進行自動分析與文字抽取,將識別出的數(shù)據(jù)、文字等信息,進行實體識別與關系抽取,形成知識標簽,通過圖數(shù)據(jù)庫進行保存,便于前端進行查詢和展示。
該方案以Amazon S3為基礎,聯(lián)接了Amazon Neptune、Amazon AppSync、Amazon DynamoDB等不同的服務,通過數(shù)據(jù)預處理、數(shù)據(jù)抽取和數(shù)據(jù)后處理,進行智能文本處理服務,可以基于數(shù)據(jù)的生命周期,幫助客戶構建智能業(yè)務平臺和專業(yè)服務團隊。
通過亞馬遜云科技的智能公告文本知識標簽提取機器人方案,金融機構可以高效率地進行如財報等文本的處理和分析,從更多的數(shù)據(jù)來源提取價值信息,及時發(fā)現(xiàn)商機、規(guī)避風險。
“對于金融行業(yè)來說,這是一種很典型的資產(chǎn)激活。”
亞馬遜云科技中國地區(qū)金融解決方案負責人
需要說明的是,亞馬遜云科技中國本土團隊提供的金融行業(yè)解決方案依托開源框架,支持多種框架和模型,用戶對架構和模型自主可控。
其次,用戶的數(shù)據(jù)由金融機構擁有和掌控,他們可以利用這些自有數(shù)據(jù),進行OCR模型的增強訓練和精度提升,實現(xiàn)業(yè)務的更多可能性。
再次,借助機器學習平臺Amazon SageMaker和圖數(shù)據(jù)庫Amazon Neptune,該方案可以在OCR識別出文字的基礎上,進一步進行智能的實體識別與關系抽取,形成知識標簽,支持風控、營銷、推薦等業(yè)務產(chǎn)品的開發(fā),并可引入圖神經(jīng)網(wǎng)絡算法模型,服務更多的業(yè)務場景。
最后,我們還必須提及亞馬遜云科技金融行業(yè)解決方案的云端優(yōu)勢:彈性伸縮、資源按實際用量付費,用戶可以隨時根據(jù)自己的需求開啟服務,節(jié)省不必要的花費。