升級(jí)版Workers AI:已正式發(fā)布-更多新增功能

來(lái)源:Cloudflare
作者:Cloudflare
時(shí)間:2024-06-11
3068
今天我們將通過(guò)本篇文章與大家分享我們的最新AI產(chǎn)品公告和愿景,包括:Workers AI正式發(fā)布并提供更理想的定價(jià),GPU硬件更新動(dòng)態(tài),我們與Hugging Face的合作伙伴關(guān)系進(jìn)一步擴(kuò)大,自帶LoRA微調(diào)推理,Workers的Python支持,AI Gateway增加更多提供商,以及Vectorize元數(shù)據(jù)過(guò)濾等消息。

今天我們將通過(guò)本篇文章與大家分享我們的最新AI產(chǎn)品公告和愿景,包括:Workers AI正式發(fā)布并提供更理想的定價(jià),GPU硬件更新動(dòng)態(tài),我們與Hugging Face的合作伙伴關(guān)系進(jìn)一步擴(kuò)大,自帶LoRA微調(diào)推理,Workers的Python支持,AI Gateway增加更多提供商,以及Vectorize元數(shù)據(jù)過(guò)濾等消息。

Workers AI正式發(fā)布

我們的Workers AI推理平臺(tái)已正式發(fā)布。經(jīng)過(guò)幾個(gè)月的公測(cè),我們改進(jìn)了服務(wù),提高了可靠性和性能,公布了定價(jià),并在目錄中增加了更多模型。

-提高性能和可靠性

通過(guò)Workers AI,我們的目標(biāo)是使AI推理像Cloudflare網(wǎng)絡(luò)的其余部分一樣可靠易用。在幕后,我們已經(jīng)升級(jí)了Workers AI中內(nèi)置的負(fù)載平衡?,F(xiàn)在,請(qǐng)求可以路由到更多城市中的更多GPU,且每個(gè)城市都知道AI推理的總可用容量。如果請(qǐng)求在當(dāng)前城市必須排隊(duì),它可被路由到另一個(gè)位置,以便在高流量情況下更快地將結(jié)果返回給您。同時(shí),我們已經(jīng)提高了所有模型的速率限制,大多數(shù)LLM現(xiàn)在每分鐘可處理300個(gè)請(qǐng)求,而不是測(cè)試期間的每分鐘50個(gè)請(qǐng)求。較小的模型有每分鐘1500-3000個(gè)請(qǐng)求的限制。請(qǐng)查看我們的開(kāi)發(fā)人員文檔,了解各個(gè)模型的速率限制。

-降低熱門(mén)模型的成本

在Workers AI正式發(fā)布的同時(shí),我們還公布了10個(gè)非測(cè)試版模型的定價(jià)計(jì)算器。我們希望Workers AI成為運(yùn)行推理最經(jīng)濟(jì)、最便捷的解決方案之一,因此對(duì)我們的模型進(jìn)行了一些優(yōu)化,使它們更經(jīng)濟(jì)實(shí)惠?,F(xiàn)在,與我們最初在3月1日公布的數(shù)據(jù)相比,Llama 2的運(yùn)行成本降低了7倍多,Mistral 7B的運(yùn)行成本降低了14倍多。我們希望繼續(xù)成為AI推理的最佳平臺(tái),并將在可能的情況下繼續(xù)向客戶推出優(yōu)化迭代。

提醒一下,我們從4月1日開(kāi)始對(duì)Workers AI的非測(cè)試版模型計(jì)費(fèi),而測(cè)試版模型仍然是免費(fèi)和無(wú)限制的。我們每天免費(fèi)向所有客戶提供10000個(gè)神經(jīng)元。Workers Free用戶在24小時(shí)內(nèi)使用10000個(gè)神經(jīng)元后將遇到嚴(yán)格速率限制,而Workers Paid用戶每增加1000個(gè)神經(jīng)元將產(chǎn)生0.011美元的費(fèi)用。請(qǐng)閱讀我們的Workers AI定價(jià)開(kāi)發(fā)人員文檔,了解有關(guān)定價(jià)的最新信息。

-全新儀表板和演練場(chǎng)

最后,我們改造了Workers AI儀表板和AI演練場(chǎng)。Cloudflare面板中的Workers AI頁(yè)面現(xiàn)在可顯示各個(gè)模型的使用分析,包括神經(jīng)元計(jì)算,以幫助您更好地預(yù)測(cè)定價(jià)。AI演練場(chǎng)可讓您快速測(cè)試和比較不同的模型,并配置提示詞和參數(shù)。我們希望這些新工具能幫助開(kāi)發(fā)人員開(kāi)始在Workers AI上進(jìn)行無(wú)縫構(gòu)建——?dú)g迎嘗試!

31B3077F-1289-43BD-862A-00AFB30CA6F4.jpeg

在分布全球150多個(gè)城市的GPU上運(yùn)行推理

DF059D57-408F-45D4-A024-C51CBF072671.jpeg

2023年9月剛宣布推出Workers AI時(shí),我們就開(kāi)始在世界各地的數(shù)據(jù)中心部署GPU。我們計(jì)劃兌現(xiàn)這一承諾,于2024年底前在幾乎所有地方部署經(jīng)過(guò)推理微調(diào)的GPU,使我們成為分布最廣泛的云AI推理平臺(tái)。目前,我們已在150多個(gè)城市部署了GPU,并將在今年陸續(xù)推出更多GPU。

54D0914D-6869-4108-AD22-F1C7C9CD4A18.jpeg

我們還將在2024年第二季度推出配備GPU的下一代計(jì)算服務(wù)器。這意味著與前幾代產(chǎn)品相比,下一代產(chǎn)品具有更高的性能、能效和可靠性。我們?cè)?023年12月發(fā)表的一篇博客文章中提供了第12代計(jì)算服務(wù)器設(shè)計(jì)的預(yù)覽,更多細(xì)節(jié)將陸續(xù)公布。通過(guò)第12代和未來(lái)計(jì)劃推出的硬件,下一步是支持更大的機(jī)器學(xué)習(xí)模型,并在我們的平臺(tái)上提供微調(diào)。這將使我們能夠?yàn)樯a(chǎn)工作負(fù)載實(shí)現(xiàn)更大的推理吞吐量、更低的延遲和更高的可用性,并擴(kuò)大對(duì)微調(diào)等新型工作負(fù)載的支持。

Huggingface合作伙伴關(guān)系

AA454F7B-B59E-45BC-A04D-62338BE22052.jpeg

我們很高興能推進(jìn)與Hugging Face之間的合作關(guān)系,致力于為我們的客戶提供更優(yōu)的開(kāi)源技術(shù)。現(xiàn)在,您可以訪問(wèn)Hugging Face上一些最受歡迎的模型,如果該模型在我們的平臺(tái)上可用,您只需輕松點(diǎn)擊該模型便可在Workers AI上運(yùn)行。

AD8DE821-74E7-40C8-B417-C0427DCAC8B8.jpeg

通過(guò)與Hugging Face的合作,我們的平臺(tái)添加了4個(gè)模型。您現(xiàn)在可以訪問(wèn)改進(jìn)了上下文窗口的全新Mistral 7B v0.2模型、Nous Research的Hermes 2 Pro微調(diào)版Mistral 7B、Google的Gemma 7B和來(lái)自O(shè)penChat的Starling-LM-7B-beta微調(diào)版。目前,我們與Hugging Face合作管理著14個(gè)模型,用于在Cloudflare的Workers AI運(yùn)行無(wú)服務(wù)器GPU推理-更多模型即將推出。這些模型均使用Hugging Face的技術(shù)通過(guò)TGI后端提供服務(wù),我們與Hugging Face團(tuán)隊(duì)密切合作,共同策劃、優(yōu)化和部署了這些模型。

“我們很高興能與Cloudflare合作,讓開(kāi)發(fā)人員更容易利用AI。對(duì)Hugging Face社區(qū)來(lái)說(shuō),通過(guò)全球GPU網(wǎng)絡(luò)支持的無(wú)服務(wù)器API提供最流行的開(kāi)放模型是一個(gè)非常棒的提議,我迫不及待想看看他們會(huì)用它構(gòu)建什么?!?/p>

-Julien Chaumond,聯(lián)合創(chuàng)始人兼首席技術(shù)官,Hugging Face

您可以在Hugging Face Collection中找到Workers AI支持的所有開(kāi)放模型,“部署到Cloudflare Workers AI”按鈕位于每個(gè)模型卡的頂部。

支持微調(diào)推理——自帶LoRA

微調(diào)推理是用戶呼聲最高的Workers AI功能之一,現(xiàn)在我們離自帶(BYO)LoRA又近了一步。研究人員利用流行的低階適應(yīng)(Low-Rank Adaptation)方法,找到了如何對(duì)一個(gè)模型根據(jù)手頭的任務(wù)調(diào)整部分模型參數(shù)的方法,而不是重寫(xiě)所有模型參數(shù)(就像完全微調(diào)模型一樣)。這意味著,無(wú)需付出完全微調(diào)模型的計(jì)算費(fèi)用,您就可以獲得微調(diào)模型的輸出。

我們現(xiàn)在支持將經(jīng)過(guò)訓(xùn)練的LoRA帶到Workers AI,我們?cè)谶\(yùn)行時(shí)將LoRA適配器應(yīng)用于基礎(chǔ)模型,為您提供經(jīng)過(guò)微調(diào)的推理,成本、大小和速度僅為完全微調(diào)模型的一小部分。未來(lái),我們希望能夠在我們的平臺(tái)上直接支持微調(diào)任務(wù)和完全微調(diào)模型,但我們依然很高興在這一階段能夠通過(guò)LoRA更進(jìn)一步。

1B69ED47-1B58-47DD-9A7E-F929E517A764.jpeg

BYO LoRAs現(xiàn)已開(kāi)放測(cè)試,適用于Gemma 2B和7B、Llama 2 7B和Mistral 7B模型,LoRA適配器大小不超過(guò)100MB,最高8階,每個(gè)賬戶最多30個(gè)LoRA。一如既往,我們希望您在使用Workers AI和新的BYO LoRA功能時(shí)遵守我們的服務(wù)條款,包括模型許可條款中包含的任何模型特定使用限制。

用Python編寫(xiě)Workers

Python是世界上第二流行的編程語(yǔ)言(僅次于JavaScript),也是構(gòu)建AI應(yīng)用程序的首選語(yǔ)言?,F(xiàn)在開(kāi)始,在公測(cè)版中,您可以用Python編寫(xiě)Cloudflare Workers。Python Workers支持與Cloudflare資源的所有綁定,包括Vectorize、D1、KV、R2等。

LangChain是構(gòu)建由LLM驅(qū)動(dòng)的應(yīng)用程序的最流行框架,就像Workers AI與langchain-js協(xié)作一樣,Python LangChain庫(kù)也能在Python Workers上運(yùn)行,就像FastAPI等其他Python軟件包一樣。

用Python編寫(xiě)Workers與使用JavaScript編寫(xiě)Workers一樣簡(jiǎn)單:

1F07377C-629A-47DD-B869-2591BF4DB230.jpeg

……只需在Wrangler.toml中指向一個(gè).py文件即可進(jìn)行配置:

914FF40E-F83C-46D0-AC6E-9E61B672769A.jpeg

無(wú)需額外的工具鏈或預(yù)編譯步驟。Pyodide Python執(zhí)行環(huán)境由Workers運(yùn)行時(shí)直接提供,工作方式與JavaScript編寫(xiě)的Workers如出一轍。

AI Gateway現(xiàn)已支持Anthropic、Azure、AWS Bedrock、Google Vertex和Perplexity

6B353655-343D-4F0A-8111-68B6A34554FF.jpeg

我們的AI Gateway產(chǎn)品幫助開(kāi)發(fā)人員更好地控制和觀察他們的AI應(yīng)用,提供分析、緩存、速率限制等功能。我們正繼續(xù)為該產(chǎn)品添加更多供應(yīng)商,包括最近加入的Anthropic、Google Vertex和Perplexity。我們?cè)?023年12月推出了對(duì)Azure和Amazon Bedrock的支持,這意味著最流行的提供商現(xiàn)在都可以通過(guò)AI Gateway獲得支持,包括Workers AI本身。

即將推出:持久日志(Persistent Logs)

在2024年第二季度,我們將推出持久日志,以便將日志(包括提示詞和響應(yīng))推送到對(duì)象存儲(chǔ);自定義元數(shù)據(jù),以便使用用戶ID或其他標(biāo)識(shí)符標(biāo)記請(qǐng)求;機(jī)密管理,以便安全地管理應(yīng)用程序的API密鑰。

我們希望AI Gateway成為您的AI應(yīng)用程序控制平面,允許開(kāi)發(fā)人員動(dòng)態(tài)評(píng)估并將請(qǐng)求路由到不同的模型和提供商。通過(guò)持久日志功能,我們希望讓開(kāi)發(fā)人員能夠使用他們記錄的數(shù)據(jù)一鍵微調(diào)模型,最終在我們的Workers AI平臺(tái)上直接運(yùn)行微調(diào)任務(wù)和微調(diào)模型。AI Gateway只是我們AI工具包中的產(chǎn)品之一,但我們對(duì)它能為在我們平臺(tái)上開(kāi)發(fā)的開(kāi)發(fā)人員解鎖的工作流程和用例感到興奮,希望您也能為之興奮。

Vectorize元數(shù)據(jù)過(guò)濾,正式版將支持百萬(wàn)向量索引

Vectorize是我們AI應(yīng)用程序工具包的另一個(gè)組件。自2023年9月公測(cè)以來(lái),Vectorize允許開(kāi)發(fā)人員持久化嵌入(向量),例如從Workers AI文本嵌入模型生成的那些,并查詢(xún)最接近的匹配,以支持相似性搜索或推薦等用例。如果沒(méi)有向量數(shù)據(jù)庫(kù),模型輸出會(huì)被遺忘而無(wú)法調(diào)用,除非投入額外成本并重新運(yùn)行模型。

自Vectorize公測(cè)發(fā)布以來(lái),我們?cè)黾恿嗽獢?shù)據(jù)過(guò)濾功能。元數(shù)據(jù)過(guò)濾讓開(kāi)發(fā)人員能夠?qū)⑾蛄克阉髋c任意元數(shù)據(jù)過(guò)濾結(jié)合起來(lái),支持AI應(yīng)用中的復(fù)雜查詢(xún)。我們正全力以赴為Vectorize正式發(fā)布做準(zhǔn)備,目標(biāo)日期就在2024年6月,其中將包括對(duì)百萬(wàn)級(jí)索引的支持。

10B80901-67B9-453F-8D94-256178C38F67.jpeg

構(gòu)建AI應(yīng)用的最全面開(kāi)發(fā)人員平臺(tái)

在Cloudflare開(kāi)發(fā)人員平臺(tái)上,我們認(rèn)為所有開(kāi)發(fā)人員都應(yīng)該能夠快速構(gòu)建和發(fā)布全棧應(yīng)用,其中也包括AI體驗(yàn)。通過(guò)Workers AI正式版、Workers AI的Python支持、AI Gateway、Vectorize以及與Hugging Face的合作關(guān)系,擴(kuò)大了在我們的平臺(tái)上構(gòu)建AI應(yīng)用程序的可能性。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:Cloudflare
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于Cloudflare,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家