今年3月1日,OpenAI正式跨入企業(yè)應(yīng)用市場,發(fā)布了ChatGPT背后GPT-3.5版模型的付費(fèi)API服務(wù),也跨進(jìn)了更多企業(yè)對話式應(yīng)用場景,從搜索、問答、客服、導(dǎo)航到語音操控等。
不到2周,新一代GPT-4模型問世,不只文本,還能輸入圖片,帶來了生成式AI更多種應(yīng)用的可能,不只是回答問題,還可以解釋圖片、看圖答題,或是分析圖表趨勢,甚至,只要輸入一張手繪的網(wǎng)站設(shè)計草圖,GPT-4就能自動生成對應(yīng)網(wǎng)頁的程序代碼。不只海外企業(yè),臺灣金融業(yè)、制造業(yè)、政府和教育機(jī)構(gòu)都躍躍欲試,想要開始采用ChatGPT背后的超大語言模型技術(shù)。
不過,企業(yè)擁抱GPT的考量,和個人使用截然不同,我們整理了10個企業(yè)擁抱ChatGPT技術(shù)要先知道的10個QA。
OpenAI的付費(fèi)API沒有提出服務(wù)可用性的保證,根據(jù)其服務(wù)狀態(tài)儀表板來看,API可用性約98~99%,每個月會中斷30~40分鐘。這是企業(yè)采用前要留意的事。
Q:GPT、ChatGPT、OpenAI和Azure OpenAI有何不同?
A這是上手ChatGPT技術(shù)前要先厘清的四個名詞,ChatGPT應(yīng)用是爆紅的AI對話服務(wù),背后所用的生成式AI模型就是GPT模型的3.5版本,而開發(fā)出ChatGPT應(yīng)用的公司就是OpenAI,他們也在3月1日發(fā)布了OpenAI的API服務(wù),其中就包括了ChatGPT模型的API。而微軟則是將OpenAI的技術(shù)部署到Azure上來提供,也就是Azure OpenAI服務(wù)。
Q:OpenAI和Azure提供的ChatGPT技術(shù)API有什么不同?
A在技術(shù)上,凡是OpenAI公司提供API功能或模型,微軟承諾會盡快跟進(jìn)在自家Azure OpenAI服務(wù)上提供。兩者主要不同是,OpenAI公司的API傾向于研發(fā)、研究使用為主,而微軟則比照原本Azure公有云的服務(wù)等級,提供了更多安全強(qiáng)化(例如VLAN傳輸)、服務(wù)可用性承諾(例如99.9%的的SLA)、企業(yè)合規(guī)要求、顧客資料保護(hù)承諾、隱私機(jī)制、AI倫理機(jī)制等。另外,企業(yè)則可自助申請快速激活OpenAI的付費(fèi)API服務(wù),但Azure OpenAI目前則采審查申請制,需等待一段時間審查才能開通。
Q:企業(yè)可以使用哪些OpenAI生成式模型?
AOpenAI目前可以提供最新多模態(tài)的GPT-4(限定測試版)以及ChatGPT所用的GPT-3.5版模型,以及GPT-3模型,另外還提供了圖片生成式模型DALL·E(測試版)、語音轉(zhuǎn)文本的Whisper模型(測試版)、程序代碼生成模型Codex(限定測試版)、過濾敏感資料的微調(diào)模型Moderation,還有一個適合用于企業(yè)內(nèi)部運(yùn)用的Embeddings模型API。不過,這些模型都是公版的基礎(chǔ)模型(base-model),企業(yè)若希望模型能更佳定制化,需要進(jìn)行模型微調(diào)(Finetune)或是輸入提示(Prompt)來引導(dǎo)。
Q:提示和微調(diào)有什么不同?
AChatGPT可以輸入提示文本(prompt)來引導(dǎo)ChatGPT產(chǎn)生的內(nèi)容,越來越符合適戶預(yù)期的需求,同樣也可以用于OpenAI的API,甚至出現(xiàn)了“AI提示工程師”(Prompt Engineer)或者更詩意的“AI詠唱者”說法,只要提問的問題問得好,就越能得到更貼切的答案。
但是,輸入提示給基礎(chǔ)模型,不會改變基礎(chǔ)模型本身的權(quán)重。因此,每一次都要重新輸入提示文本才能得到想要的答案。若要創(chuàng)建定制化的模型,企業(yè)得改用微調(diào)(Finetune)的方式,輸入一批自己的資料,來調(diào)教OpenAI提供的基礎(chǔ)模型,產(chǎn)生自己的定制化模型。不過,目前OpenAI還沒有開放GPT-3.5和GPT-4的微調(diào),只能通過提示工程來進(jìn)行定制化。另外,微調(diào)也不是重新訓(xùn)練整套GPT模型,而是針對用戶提供的少量數(shù)據(jù)來改變部分參數(shù)的權(quán)重(或者可以說是加上一個屬性模型),讓模型輸出的結(jié)果更符合適戶的期待,因此,微調(diào)模型不需要龐大訓(xùn)練資料,也不需要像重新訓(xùn)練那樣耗時及龐大成本。
Q:為何要計算Token?一次最多上傳多少字?
A當(dāng)輸入一段文本到API后,OpenAI會抽取這段文本中的詞或概念(類似斷詞),將文本轉(zhuǎn)換成一個個Token。以中文本來說,平均一千個中文本約有600~700個Token不等,但還要看文本內(nèi)容而定。OpneAI的API上傳限制就是按照Token數(shù)量來計算,例如GPT-3.5模型的上限是4K個Token,而GPT-4則增加了四倍,最大到32K個(不過,目前只開放特定用戶)。Token也是OpenAI API的計價單位,以對話用的gpt-3.5-turbo的API來說,每千個Token要價0.002美元,而最新的GPT-4的32K引擎版本則每千個Token要價0.12美元,后者貴了60倍。
Q:什么是Embeddings模型?有什么用途?
A不同于GPT-4或GPT-3.5是生成媲美人話的文本來回復(fù)用戶,Embeddings模型是將輸入的文本轉(zhuǎn)換成一個浮點(diǎn)數(shù)值的嵌入矢量(Embeddings Vector),當(dāng)兩段文本的矢量距離越近(可通過矢量計算得到),就代表了這兩段文本的關(guān)聯(lián)性越高??梢杂糜谒阉鳎ū葘σ欢卧捲谝黄恼轮械奈恢?,或從一批文章找出最相關(guān)者)、分類用途(將相關(guān)性高的文章分成同一群)、尋找關(guān)鍵字(找出中一篇文章最相關(guān)的幾個關(guān)鍵詞)等。摩根士丹利財管公司就是利用Embeddings功能來搜索和整理龐大知識資產(chǎn)。
Q:企業(yè)能不能下載模型到本地端部署?
A不能,不論是OpenAI或Azure都沒有提供GPT-3.5或GPT-4的本地端部署,企業(yè)只能將資料上傳到云計算API。通過微調(diào)產(chǎn)生的定制化模型,也只能存儲在云計算,通過API調(diào)用來使用,無法下載部署。
Q:OpenAI將資料存儲在哪?
A目前全都存儲在Azure美國機(jī)房,微軟的Azure OpenAI服務(wù)也是。所以,對臺灣企業(yè)而言,等于是境外服務(wù)。
Q:企業(yè)上傳的資料會不會變成訓(xùn)練資料?
A企業(yè)上傳到OpenAI的資料可分為兩類,一類是每次輸入的提示文本或問題,另一類是用來微調(diào)模型的數(shù)據(jù)。OpenAI承諾從3月1日后不會用這些提示文本資料來訓(xùn)練(代表之前會),不過,企業(yè)可選擇愿意授權(quán)給他們用于訓(xùn)練。對于第二類,OpenAI保證只會用于顧客自己模型的微調(diào),不做他用。微軟則比照Azure政策,不會私自使用顧客上傳的資料也不會賣給第三方。不過,不論是OpenAI或微軟,對于輸入的第一類提示文本則會保留30天,以供敏感資料的真人審查之用。
Q:為何需要真人審查?企業(yè)能不能拒絕?
AGPT-4目前只能過濾8成敏感內(nèi)容(不當(dāng)指令攔截可超過95%但并非100%),而gpt-3.5-turbo甚至不到6成,因此,OpenAI在特定情況下會由少數(shù)獲得授權(quán)的真人來審查有疑慮的內(nèi)容,微軟Auzre OpenAI服務(wù)也是如此,不過,微軟也提供企業(yè)可以項(xiàng)目申請免除真人審查。
不論是OpenAI或微軟,對于企業(yè)輸入的提示文本會保留30天,以供敏感資料的真人審查之用。不過,微軟開放企業(yè)項(xiàng)目申請免除真人審查。圖片來源/微軟