如果您關(guān)注開發(fā)者社區(qū)動態(tài),您大概已經(jīng)了解了AI的發(fā)展對整個生態(tài)產(chǎn)生的影響。無論您是在工作流程中使用AI來提高生產(chǎn)力,還是向用戶提供基于AI的功能與服務(wù),不夸張的說-AI現(xiàn)在幾乎無處不在。通過對AI發(fā)展進(jìn)程的持續(xù)關(guān)注,我們也對未來充滿期待。
不久前,如果您想利用AI的力量,你需要徹底了解機器學(xué)習(xí),并能夠管理為其提供支持的基礎(chǔ)設(shè)施。
作為一個已經(jīng)擁有上百萬活躍開發(fā)人員的開發(fā)人員平臺(Cloudflare開發(fā)人員平臺),我們相信還有非常巨大的潛力有待挖掘,所以我們正在改變向開發(fā)人員提供AI的方式。當(dāng)前許多解決方案雖然功能強大,但基于封閉的專有模型,無法滿足開發(fā)人員和用戶要求的隱私需求。另一方面,開源領(lǐng)域涌現(xiàn)出了許多強大的模型,但并非每個開發(fā)人員都能輕易使用它們。想象一下,您可以通過您的代碼運行一個模型,無論它托管在哪里,而且無需尋找GPU或設(shè)置支持該模型的基礎(chǔ)設(shè)施。
今天,我們隆重宣布推出Workers AI:這是一個AI推理即服務(wù)平臺,賦能開發(fā)人員,僅用幾行代碼就能運行AI模型,全部由我們的全球GPU網(wǎng)絡(luò)提供支持。它開放,易用,無服務(wù)器、注重隱私,靠近用戶運行,隨用隨付,從頭開始構(gòu)建以提供一流的開發(fā)體驗。
Workers AI——輕松運行推理
我們推出Workers AI,旨在讓每個開發(fā)人員都能進(jìn)行推理,為了實現(xiàn)這個目標(biāo),它應(yīng)該開箱即用。我們是如何做到這一點的?
從核心來看,它運行在正確的基礎(chǔ)設(shè)施上——我們的世界級GPU網(wǎng)絡(luò)
我們提供現(xiàn)成的模型,可在我們的基礎(chǔ)設(shè)施上無縫運行
最后,就是令人愉悅的交付體驗。開發(fā)人員應(yīng)該能夠在幾分鐘內(nèi)即可創(chuàng)造出自己的第一款Workers AI應(yīng)用-便捷且易用
那么,Workers AI究竟是什么?
Workers AI是我們?yōu)镃loudflare開發(fā)人員平臺添加的另一個組成部分,它幫助開發(fā)人員在無服務(wù)器GPU上運行知名的AI模型,全部在Cloudflare值得信賴的全球網(wǎng)絡(luò)上進(jìn)行。作為我們開發(fā)人員平臺最新增加的組成部分,Workers AI與Workers+Pages無縫銜接,但為了使它真正易于使用,我們將它設(shè)計成與平臺相互獨立無捆綁,以便它也能在其他任何地方運行,通過REST API提供服務(wù)。
開發(fā)人員所熟知且喜愛的模型
我們推出了一套經(jīng)過精選的熱門開源模型,可涵蓋廣泛的推理任務(wù):
·文本生成(大語言模型):meta/llama-2-7b-chat-int8
·自動語音識別(ASR):openai/whisper
·翻譯:meta/m2m100-1.2
·文本分類:huggingface/distilbert-sst-2-int8
·圖像分類:microsoft/resnet-50
·嵌入:baai/bge-base-en-v1.5
您可在Cloudflare儀表板中瀏覽所有可用的模型,而且很快就能夠獲得每個模型的日志和分析。
這只是開始,我們有很宏偉的計劃。在推出之后,我們將根據(jù)社區(qū)反饋繼續(xù)擴(kuò)展。更令人興奮的是,為了更進(jìn)一步加速豐富和擴(kuò)展我們的目錄,我們還與領(lǐng)先的AI社區(qū)及資源中心Hugging Face建立了合作伙伴關(guān)系-這一合作關(guān)系是多方面的(將會有另一篇文章詳細(xì)介紹與Hugging Face的合作),很快您就可以直接在Workers AI中瀏覽和運行Hugging Face目錄的一個子集。
人人可用
Cloudflare開發(fā)人員平臺構(gòu)建的初衷之一,就是希望可以為所有開發(fā)人員提供構(gòu)建理想中的應(yīng)用所需的構(gòu)建模塊。當(dāng)然,獲取合適的構(gòu)建模塊只是其中的一部分——作為開發(fā)人員,您的任務(wù)是將它們組合成一個應(yīng)用程序。我們的目標(biāo)是使這個過程盡可能簡單。
考慮到為了確保您可以通過任意接口都可以簡單便捷地使用Workers AI,我們已通過Cloudflare Workers及Pages為其提供訪問,使其易于在Cloudflare生態(tài)系統(tǒng)中使用,同時,如果您想將Workers AI與當(dāng)前堆棧一起使用,也可以通過REST API實現(xiàn)訪問。
以下是一個快速的CURL示例,將一些文本從英語翻譯為法語:
以下是響應(yīng)的示例:
Workers AI可在任何堆棧、任何地方使用——您喜歡的Jamstack框架、Python+Django/Flask、Node.js、Ruby on Rails等等都可以-可能性是無限的。您只需部署,便可使用。
專為開發(fā)人員設(shè)計
開發(fā)人員對我們來說非常重要。實際上,本文大部分內(nèi)容都是討論開發(fā)人員體驗。確保它能夠開箱即用。提供能夠立即使用的熱門模型。所有開發(fā)人員都能使用,無論是通過Cloudflare還是其他平臺進(jìn)行構(gòu)建和部署。不僅如此——開發(fā)人員體驗應(yīng)該是無摩擦的,快速從零開始到生產(chǎn),全程順暢且高效。
讓我們通過另一個例子來展示它是如何簡單易用。我們將在一個Worker中運行Llama 2,這是一個由Meta開源的流行大語言模型。
我們假設(shè)您已經(jīng)完成了一些基本的準(zhǔn)備工作(Cloudflare賬戶、Node、NPM等),或者,這份指南將引導(dǎo)您做正確設(shè)置。
1.創(chuàng)建一個Workers項目
運行以下命令創(chuàng)建一個名為workers-ai的新項目:
$npm create cloudflare@latest
在設(shè)置workers-ai worker時,按照以下方式回答設(shè)置問題:
輸入workers-ai作為應(yīng)用的名稱
選擇Hello World腳本作為應(yīng)用的類型
對于使用TypeScript,選擇yes
對于使用Git,選擇yes
對于部署,選擇no
最后,導(dǎo)航到新應(yīng)用的目錄:
cd workers-ai
2.將Workers AI連接到您的worker
創(chuàng)建一個Workers AI綁定,使您的Worker可以訪問Workers AI服務(wù),而無需自己管理API密鑰。
為了將Workers AI綁定到您的Worker,請將以下內(nèi)容添加到您的wrangler.toml文件末尾:
【ai】
binding="AI"#available in your worker via env.AI
您還可以將Workers AI綁定到Pages Function。有關(guān)更多信息,請參考Functions Bindings。
3.安裝Workers AI客戶端庫
npm install@cloudflare/ai
4.在您的worker中運行推理任務(wù)
使用如下代碼更新source/index.ts:
5.使用Wrangler在本地開發(fā)
在項目目錄中,運行以下命令測試Workers AI:
$npx wrangler dev--remote
注:這些模型目前只運行在Cloudflare的GPU網(wǎng)絡(luò)上(而不是本地),所以必須如上設(shè)置--remote,此時您會被提示登錄。
Wrangler會給您一個URL(很可能是localhost:8787)。訪問該URL,您將看到這樣的響應(yīng):
6.部署您的worker
最后,部署worker,使您的項目可以在互聯(lián)網(wǎng)上訪問。
$npx wrangler deploy
#Outputs:https://workers-ai..workers.dev
大功告成。從零開始部署AI僅需幾分鐘。這顯然是一個簡單的例子,但足以顯示在任一項目中運行Workers AI是多么容易。
默認(rèn)保護(hù)隱私
Cloudflare成立時,我們的價值主張有三大方向:更安全、更可靠、更高效。隨著時間的推移,我們意識到,一個更好的互聯(lián)網(wǎng)同時應(yīng)該也是一個更私密的互聯(lián)網(wǎng),我們希望為它的構(gòu)建貢獻(xiàn)一份力量。
因此Workers AI默認(rèn)是私有的——我們不會根據(jù)您的數(shù)據(jù)或?qū)υ拋碛?xùn)練我們的模型,無論是LLM還是其他,我們的模型也不會從您的用例中學(xué)習(xí)。您可以放心地在個人和商業(yè)環(huán)境中使用Workers AI,而不必?fù)?dān)心泄露數(shù)據(jù)。其他提供商只在其企業(yè)版本中提供這個基本功能。但對我們而言,Workers AI是為所有人構(gòu)建的。
我們也準(zhǔn)備在將來支持?jǐn)?shù)據(jù)本地化。為了實現(xiàn)這一目標(biāo),我們還有一個更宏偉的計劃-GPU覆蓋計劃——我們已啟動了7個站點,預(yù)計到2023年底大約100個,到2024年底幾乎無處不在。最終,這將使開發(fā)人員能夠繼續(xù)向用戶提供“殺手級”AI功能,同時保持遵守最終用戶的數(shù)據(jù)本地化需求。
平臺的力量
1.矢量數(shù)據(jù)庫——Vectorize
Workers AI完全是關(guān)于運行推理,并使其變得非常容易,但有時推理只是等式的一部分。大語言模型是在固定的數(shù)據(jù)集上訓(xùn)練的,基于過去特定點的快照,并且沒有關(guān)于您的業(yè)務(wù)或用例的上下文。當(dāng)提交一個提示時,與您特定的信息可以提高結(jié)果的質(zhì)量,使其更有用、更相關(guān)。因此我們同時推出矢量數(shù)據(jù)庫Vectorize,旨在與Workers AI無縫協(xié)作。以下簡要概述可以如何協(xié)同使用Workers AI+Vectorize。
示例:當(dāng)用戶與LLM聊天時,使用您的數(shù)據(jù)(知識庫)為它提供額外的上下文。
生成初始嵌入:使用嵌入模型通過Workers AI運行您的數(shù)據(jù)。輸出將成為嵌入,即這些語句的數(shù)值表示。
將這些嵌入插入到Vectorize:這實際上是用您的數(shù)據(jù)在矢量數(shù)據(jù)庫中播種,以便之后可以用它來檢索與用戶查詢相似的嵌入。
從用戶問題中生成嵌入:當(dāng)用戶向您的AI應(yīng)用提交一個問題時,首先,接受這個問題,并使用嵌入模型在Workers AI中運行它。
從Vectorize獲取上下文:使用該嵌入來查詢Vectorize。這應(yīng)該輸出與用戶問題相似的嵌入。
創(chuàng)建上下文感知提示:現(xiàn)在,取與這些嵌入相關(guān)的原始文本,并結(jié)合來自矢量搜索的文本,創(chuàng)建一個新的提示。
運行提示:使用LLM模型通過Workers AI運行這個提示以獲得您的最終結(jié)果。
2.AI Gateway
這涵蓋一種更高級的用例。另一方面,如果您在其他地方運行模型,但想要獲得更佳的體驗,您可以通過我們的AI Gateway運行這些API,以獲得緩存、速率限制、分析和日志等功能。這些功能可用于保護(hù)您的端點,監(jiān)控和優(yōu)化成本,還有助于防止數(shù)據(jù)丟失。
立即開始構(gòu)建
親自試試看,然后讓我們知道您的想法。今天,我們將Workers AI作為所有Workers計劃(包括免費和付費)的公開測試版發(fā)布。但是,目前依然處于早期階段,因此……
注意:這是早期測試版
目前不推薦用于生產(chǎn)應(yīng)用,且有關(guān)限制和訪問有可能發(fā)生變化。
1.限制
我們初期推出時會基于每個模型有所限制。
@cf/meta/llama-2-7b-chat-int8:50請求/分鐘,全球范圍
有關(guān)限制的概述,請查看文檔。
2.定價
今天發(fā)布的只是一個小小的預(yù)覽,以便讓您對即將推出的新產(chǎn)品有初步了解,我們期待可以盡快將全功能版本的Workers AI交付到您的手中。
我們意識到,在您開始構(gòu)建某個項目時,您想要了解的是:這將花費我多少錢?尤其是在AI成本很容易失控的情況下。因此,我們想與您分享即將發(fā)布的Workers AI定價信息。
雖然我們不會從第一天就開始計費,但我們現(xiàn)在將宣布預(yù)計的定價模式。
用戶將可以選擇以下兩種方式之一運行Workers AI:
Regular Twitch Neurons(RTN)-在任何有容量的地方運行,價格為0.01美元/1k神經(jīng)元
Fast Twitch Neurons(FTN)-在最近的用戶位置運行,價格為0.125美元/1k神經(jīng)元
您可能會問,什么是神經(jīng)元?
神經(jīng)元是衡量AI輸出的一種方式(如果沒有使用,您將被收取0個神經(jīng)元的費用)。比如,用1000個神經(jīng)元可以做什么事情,您可以:生成130個LLM響應(yīng),830個圖像分類,或1250個嵌入。
我們的目標(biāo)是幫助客戶只為他們使用的部分付費,并選擇最符合他們使用情況的定價方式,無論他們最關(guān)心的是價格還是延遲。
接下來的計劃
Workers AI才剛剛起步,我們希望得到您的反饋,以幫助我們使它變得更好。同時我們接下來還有一系列相關(guān)計劃:
1.能否提供更多模型?
我們推出了一套直接可用的模型,但我們將根據(jù)您的反饋繼續(xù)推出新的模型。如果您希望在Workers AI上看到特定的模型,請加入我們的Discord并告訴我們!
除此之外,我們還宣布與Hugging Face的合作伙伴關(guān)系,很快您將能夠直接從Workers AI訪問和運行Hugging Face目錄的一個子集。
2.分析+可觀察性
到目前為止,我們都是高度專注于一件事——讓任何開發(fā)者能夠用幾行代碼輕松運行強大的AI模型。但這只是其中的一部分。接下來,我們將致力于開發(fā)一些分析和可觀察性功能,以便為您提供有關(guān)每個模型的使用情況、性能和費用的洞察,此外,如果您希望進(jìn)行一些探索,還可以查看日志。
3.構(gòu)建全球GPU網(wǎng)絡(luò)
我們的目標(biāo)是成為在全球范圍內(nèi)運行推理的最佳選擇,因此我們正在緊鑼密鼓地向我們的數(shù)據(jù)中心添加GPU。
我們計劃在今年年底之前部署到100個數(shù)據(jù)中心
并在2024年底前基本覆蓋每一個地方