OpenAI周一宣布ChatGPT即將讓用戶以語(yǔ)音輸入指令或上傳圖片,而且終于能開(kāi)口說(shuō)話。
語(yǔ)音、圖像識(shí)別新功能將在2周內(nèi)部署給ChatGPT Plus及Enterprise用戶,不過(guò)OpenAI表示“很快”也會(huì)推向開(kāi)發(fā)人員及免費(fèi)版用戶。
支持語(yǔ)音互動(dòng)和圖片識(shí)別讓ChatGPT有更多樣應(yīng)用。用戶可以直接說(shuō)出想要ChatGPT執(zhí)行的任務(wù)、聽(tīng)它的答案,再和這個(gè)聊天機(jī)器人來(lái)回對(duì)話。像是要求它為家人說(shuō)一個(gè)床邊故事,或是設(shè)置晚餐桌上的辯論。加上圖片識(shí)別能力則讓使用場(chǎng)景更為靈活,像是在旅行途中拍下知名建筑物詢問(wèn)有趣故事,或是拍攝冰箱照片,讓ChatGPT建議菜單,并在邊做菜時(shí)邊向它討教做法。用戶也可以拍攝數(shù)學(xué)習(xí)題上傳ChatGPT,請(qǐng)它分享解題技巧給大人和小孩。
OpenAI表示,最新的語(yǔ)音能力是在新的語(yǔ)音合成(text-to-speech)模型上開(kāi)發(fā),它能以數(shù)秒鐘的語(yǔ)音樣本及文本生成逼真的人聲。目前OpenAI提供5種人聲,每種聲音都是OpenAI和專(zhuān)業(yè)聲優(yōu)合作開(kāi)發(fā)出來(lái)。OpenAI并使用開(kāi)源語(yǔ)音識(shí)別系統(tǒng)Whisper將語(yǔ)音轉(zhuǎn)錄為文本。
而圖片識(shí)別則是以多模GPT-3.5和GPT-4為底層。這些模型將語(yǔ)言理解能力應(yīng)用在包含文本和圖片的段落、屏幕截圖及文件上。最新功能允許用戶上傳多幀圖片,或使用其繪圖工具引導(dǎo)ChatGPT畫(huà)一張圖。
OpenAI強(qiáng)調(diào),基于技術(shù)風(fēng)險(xiǎn),該公司選擇逐步發(fā)布這些高端功能,例如語(yǔ)音合成可能給了歹徒詐騙或Deepfake名人的機(jī)會(huì),而視覺(jué)模型目前仍有對(duì)人臉幻覺(jué),以及在重要領(lǐng)域仍依賴模型解釋圖片的問(wèn)題。為此,在語(yǔ)音合成上,目前OpenAI僅發(fā)展語(yǔ)音對(duì)話,但是該公司也在實(shí)現(xiàn)其他應(yīng)用,例如Spotify以O(shè)penAI技術(shù)測(cè)試podcast的語(yǔ)音翻譯功能。至于圖片識(shí)別,在大規(guī)模推廣前,OpenAI已展開(kāi)模型偏激性及科學(xué)能力的測(cè)試,以探詢負(fù)責(zé)任的用途。
新的視覺(jué)識(shí)別功能提供給所有平臺(tái),包括Windows及移動(dòng)版App。語(yǔ)音輸入功能則只部署到iOS和Android版。要使用圖片識(shí)別功能,需以App上的照片鍵拍攝或選擇圖片。iOS或Android手機(jī)版App上則需要先按“+”號(hào)。語(yǔ)音輸入功能方面,需用戶從App的“設(shè)置”區(qū)“新功能”下加入(opt-in)啟動(dòng)語(yǔ)音對(duì)話。之后用戶可按下ChatGPT主頁(yè)右上方的耳機(jī)按鈕,選擇喜歡的聲音完成設(shè)置。