企業(yè)擁抱ChatGPT技術(shù)要知道的10個QA

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2023-03-20

今年3月1日，OpenAI正式跨入企業(yè)應(yīng)用市場，發(fā)布了ChatGPT背后GPT-3.5版模型的付費API服務(wù)，也跨進(jìn)了更多企業(yè)對話式應(yīng)用場景，從搜索、問答、客服、導(dǎo)航到語音操控等。

不到2周，新一代GPT-4模型問世，不只文本，還能輸入圖片，帶來了生成式AI更多種應(yīng)用的可能，不只是回答問題，還可以解釋圖片、看圖答題，或是分析圖表趨勢，甚至，只要輸入一張手繪的網(wǎng)站設(shè)計草圖，GPT-4就能自動生成對應(yīng)網(wǎng)頁的程序代碼。不只海外企業(yè)，臺灣金融業(yè)、制造業(yè)、政府和教育機(jī)構(gòu)都躍躍欲試，想要開始采用ChatGPT背后的超大語言模型技術(shù)。

不過，企業(yè)擁抱GPT的考量，和個人使用截然不同，我們整理了10個企業(yè)擁抱ChatGPT技術(shù)要先知道的10個QA。

OpenAI的付費API沒有提出服務(wù)可用性的保證，根據(jù)其服務(wù)狀態(tài)儀表板來看，API可用性約98~99%，每個月會中斷30～40分鐘。這是企業(yè)采用前要留意的事。

Q：GPT、ChatGPT、OpenAI和Azure OpenAI有何不同？

A這是上手ChatGPT技術(shù)前要先厘清的四個名詞，ChatGPT應(yīng)用是爆紅的AI對話服務(wù)，背后所用的生成式AI模型就是GPT模型的3.5版本，而開發(fā)出ChatGPT應(yīng)用的公司就是OpenAI，他們也在3月1日發(fā)布了OpenAI的API服務(wù)，其中就包括了ChatGPT模型的API。而微軟則是將OpenAI的技術(shù)部署到Azure上來提供，也就是Azure OpenAI服務(wù)。

Q：OpenAI和Azure提供的ChatGPT技術(shù)API有什么不同？

A在技術(shù)上，凡是OpenAI公司提供API功能或模型，微軟承諾會盡快跟進(jìn)在自家Azure OpenAI服務(wù)上提供。兩者主要不同是，OpenAI公司的API傾向于研發(fā)、研究使用為主，而微軟則比照原本Azure公有云的服務(wù)等級，提供了更多安全強(qiáng)化（例如VLAN傳輸）、服務(wù)可用性承諾（例如99.9%的的SLA）、企業(yè)合規(guī)要求、顧客資料保護(hù)承諾、隱私機(jī)制、AI倫理機(jī)制等。另外，企業(yè)則可自助申請快速激活OpenAI的付費API服務(wù)，但Azure OpenAI目前則采審查申請制，需等待一段時間審查才能開通。

Q：企業(yè)可以使用哪些OpenAI生成式模型？

AOpenAI目前可以提供最新多模態(tài)的GPT-4（限定測試版）以及ChatGPT所用的GPT-3.5版模型，以及GPT-3模型，另外還提供了圖片生成式模型DALL·E（測試版）、語音轉(zhuǎn)文本的Whisper模型（測試版）、程序代碼生成模型Codex（限定測試版）、過濾敏感資料的微調(diào)模型Moderation，還有一個適合用于企業(yè)內(nèi)部運用的Embeddings模型API。不過，這些模型都是公版的基礎(chǔ)模型（base-model），企業(yè)若希望模型能更佳定制化，需要進(jìn)行模型微調(diào)（Finetune）或是輸入提示（Prompt）來引導(dǎo)。

Q：提示和微調(diào)有什么不同？

AChatGPT可以輸入提示文本（prompt）來引導(dǎo)ChatGPT產(chǎn)生的內(nèi)容，越來越符合適戶預(yù)期的需求，同樣也可以用于OpenAI的API，甚至出現(xiàn)了“AI提示工程師”（Prompt Engineer）或者更詩意的“AI詠唱者”說法，只要提問的問題問得好，就越能得到更貼切的答案。

但是，輸入提示給基礎(chǔ)模型，不會改變基礎(chǔ)模型本身的權(quán)重。因此，每一次都要重新輸入提示文本才能得到想要的答案。若要創(chuàng)建定制化的模型，企業(yè)得改用微調(diào)（Finetune）的方式，輸入一批自己的資料，來調(diào)教OpenAI提供的基礎(chǔ)模型，產(chǎn)生自己的定制化模型。不過，目前OpenAI還沒有開放GPT-3.5和GPT-4的微調(diào)，只能通過提示工程來進(jìn)行定制化。另外，微調(diào)也不是重新訓(xùn)練整套GPT模型，而是針對用戶提供的少量數(shù)據(jù)來改變部分參數(shù)的權(quán)重（或者可以說是加上一個屬性模型），讓模型輸出的結(jié)果更符合適戶的期待，因此，微調(diào)模型不需要龐大訓(xùn)練資料，也不需要像重新訓(xùn)練那樣耗時及龐大成本。

Q：為何要計算Token?一次最多上傳多少字？

A當(dāng)輸入一段文本到API后，OpenAI會抽取這段文本中的詞或概念（類似斷詞），將文本轉(zhuǎn)換成一個個Token。以中文本來說，平均一千個中文本約有600～700個Token不等，但還要看文本內(nèi)容而定。OpneAI的API上傳限制就是按照Token數(shù)量來計算，例如GPT-3.5模型的上限是4K個Token，而GPT-4則增加了四倍，最大到32K個（不過，目前只開放特定用戶）。Token也是OpenAI API的計價單位，以對話用的gpt-3.5-turbo的API來說，每千個Token要價0.002美元，而最新的GPT-4的32K引擎版本則每千個Token要價0.12美元，后者貴了60倍。

Q：什么是Embeddings模型？有什么用途？

A不同于GPT-4或GPT-3.5是生成媲美人話的文本來回復(fù)用戶，Embeddings模型是將輸入的文本轉(zhuǎn)換成一個浮點數(shù)值的嵌入矢量（Embeddings Vector），當(dāng)兩段文本的矢量距離越近（可通過矢量計算得到），就代表了這兩段文本的關(guān)聯(lián)性越高。可以用于搜索（比對一段話在一篇文章中的位置，或從一批文章找出最相關(guān)者）、分類用途（將相關(guān)性高的文章分成同一群）、尋找關(guān)鍵字（找出中一篇文章最相關(guān)的幾個關(guān)鍵詞）等。摩根士丹利財管公司就是利用Embeddings功能來搜索和整理龐大知識資產(chǎn)。

Q：企業(yè)能不能下載模型到本地端部署？

A不能，不論是OpenAI或Azure都沒有提供GPT-3.5或GPT-4的本地端部署，企業(yè)只能將資料上傳到云計算API。通過微調(diào)產(chǎn)生的定制化模型，也只能存儲在云計算，通過API調(diào)用來使用，無法下載部署。

Q：OpenAI將資料存儲在哪？

A目前全都存儲在Azure美國機(jī)房，微軟的Azure OpenAI服務(wù)也是。所以，對臺灣企業(yè)而言，等于是境外服務(wù)。

Q：企業(yè)上傳的資料會不會變成訓(xùn)練資料？

A企業(yè)上傳到OpenAI的資料可分為兩類，一類是每次輸入的提示文本或問題，另一類是用來微調(diào)模型的數(shù)據(jù)。OpenAI承諾從3月1日后不會用這些提示文本資料來訓(xùn)練（代表之前會），不過，企業(yè)可選擇愿意授權(quán)給他們用于訓(xùn)練。對于第二類，OpenAI保證只會用于顧客自己模型的微調(diào)，不做他用。微軟則比照Azure政策，不會私自使用顧客上傳的資料也不會賣給第三方。不過，不論是OpenAI或微軟，對于輸入的第一類提示文本則會保留30天，以供敏感資料的真人審查之用。

Q：為何需要真人審查？企業(yè)能不能拒絕？

AGPT-4目前只能過濾8成敏感內(nèi)容（不當(dāng)指令攔截可超過95%但并非100%），而gpt-3.5-turbo甚至不到6成，因此，OpenAI在特定情況下會由少數(shù)獲得授權(quán)的真人來審查有疑慮的內(nèi)容，微軟Auzre OpenAI服務(wù)也是如此，不過，微軟也提供企業(yè)可以項目申請免除真人審查。