自然語言處理服務(wù)Amazon Comprehend現(xiàn)支持Word和PDF文件格式

來源: 十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2021-09-18
17410
AWS更新自然語言處理服務(wù)Amazon Comprehend,開始支持Word和PDF文件,讓用戶可以從這些類型的文件截取資料。

3-5031-training.jpg

AWS更新自然語言處理服務(wù)Amazon Comprehend,開始支持Word和PDF文件,讓用戶可以從這些類型的文件截取資料。Amazon Comprehend能夠分析不同語言的文本,并且識(shí)別這些文本的內(nèi)容,諸如人名、地點(diǎn)、品牌和產(chǎn)品等,同時(shí)還能理解文本中的關(guān)鍵句子和情緒,或?qū)Υ罅课募膬?nèi)容,依照主題加以分類。

無論是開設(shè)銀行賬戶、申請(qǐng)保險(xiǎn)或是房屋借款等程序,皆大量使用紙質(zhì)文件,而這些文件動(dòng)輒超過百頁(yè),對(duì)于企業(yè)來說,手動(dòng)處理這些文件是一件繁瑣的工作,不只需要人工,而且速度緩慢容易出錯(cuò),而借由使用Amazon Comprehend,可以大幅加速文件的創(chuàng)建和管理,并且降低出錯(cuò)幾率。

Amazon Comprehend新的解決方案,可處理PDF、Word和原始文本等文件格式,或是筆記和列表等布局,并進(jìn)行內(nèi)容截取和分析,AWS提到,這次推出的解決方案,結(jié)合自然語言處理和光學(xué)字符識(shí)別技術(shù),能夠減少企業(yè)文件的預(yù)處理和后處理工作量,用戶不再需要將文件轉(zhuǎn)換成原始文本,就能夠使用自定義命名實(shí)體識(shí)別(NER)功能。

過去Amazon Comprehend只能處理純文本文件,這需要用戶先將文件整理成機(jī)器可讀的文本,但用戶現(xiàn)在能夠利用Amazon Comprehend以相同的API,直接從PDF和Word中的文本或是列表等不同文件布局,截取特定詞語。

新的Amazon Comprehend自定義實(shí)體識(shí)別模型,綜合分析結(jié)構(gòu)上下文和自然語言上下文,從文件中的任何位置,截取自定義詞語實(shí)體。AWS提到,用戶對(duì)于每一種實(shí)體類型,只要提供250個(gè)文件和100個(gè)注解,即可訓(xùn)練模型并且開始使用該功能,而為了要掃描PDF并截取空間位置,Amazon Comprehend會(huì)調(diào)用Amazon Textract服務(wù),來執(zhí)行必要的處理。

這項(xiàng)新功能有助于企業(yè)處理保險(xiǎn)、抵押、金融等業(yè)務(wù)中的文件處理工作流程,通常這些文件布局復(fù)雜,用戶也不需要頁(yè)面上的每一個(gè)人信息料點(diǎn),因此截取特定信息存在困難,而Amazon Comprehend這項(xiàng)新功能,可以使用機(jī)器學(xué)習(xí),使用單個(gè)模型和API調(diào)用,快速截取自定義的詞語,像是處理汽車或健康保險(xiǎn)文件中的索賠金額,甚至是在抵押貸款中,截取申請(qǐng)人姓名、共同簽署人或是其他財(cái)務(wù)文件信息等。

立即登錄,閱讀全文
AWS
版權(quán)說明:
本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家