升級版Workers AI：已正式發(fā)布-更多新增功能

來源：Cloudflare

作者：Cloudflare

時間：2024-06-11

今天我們將通過本篇文章與大家分享我們的最新AI產(chǎn)品公告和愿景，包括：Workers AI正式發(fā)布并提供更理想的定價，GPU硬件更新動態(tài)，我們與Hugging Face的合作伙伴關(guān)系進一步擴大，自帶LoRA微調(diào)推理，Workers的Python支持，AI Gateway增加更多提供商，以及Vectorize元數(shù)據(jù)過濾等消息。

Workers AI正式發(fā)布

我們的Workers AI推理平臺已正式發(fā)布。經(jīng)過幾個月的公測，我們改進了服務(wù)，提高了可靠性和性能，公布了定價，并在目錄中增加了更多模型。

-提高性能和可靠性

通過Workers AI，我們的目標(biāo)是使AI推理像Cloudflare網(wǎng)絡(luò)的其余部分一樣可靠易用。在幕后，我們已經(jīng)升級了Workers AI中內(nèi)置的負(fù)載平衡?，F(xiàn)在，請求可以路由到更多城市中的更多GPU，且每個城市都知道AI推理的總可用容量。如果請求在當(dāng)前城市必須排隊，它可被路由到另一個位置，以便在高流量情況下更快地將結(jié)果返回給您。同時，我們已經(jīng)提高了所有模型的速率限制，大多數(shù)LLM現(xiàn)在每分鐘可處理300個請求，而不是測試期間的每分鐘50個請求。較小的模型有每分鐘1500-3000個請求的限制。請查看我們的開發(fā)人員文檔，了解各個模型的速率限制。

-降低熱門模型的成本

在Workers AI正式發(fā)布的同時，我們還公布了10個非測試版模型的定價計算器。我們希望Workers AI成為運行推理最經(jīng)濟、最便捷的解決方案之一，因此對我們的模型進行了一些優(yōu)化，使它們更經(jīng)濟實惠。現(xiàn)在，與我們最初在3月1日公布的數(shù)據(jù)相比，Llama 2的運行成本降低了7倍多，Mistral 7B的運行成本降低了14倍多。我們希望繼續(xù)成為AI推理的最佳平臺，并將在可能的情況下繼續(xù)向客戶推出優(yōu)化迭代。

提醒一下，我們從4月1日開始對Workers AI的非測試版模型計費，而測試版模型仍然是免費和無限制的。我們每天免費向所有客戶提供10000個神經(jīng)元。Workers Free用戶在24小時內(nèi)使用10000個神經(jīng)元后將遇到嚴(yán)格速率限制，而Workers Paid用戶每增加1000個神經(jīng)元將產(chǎn)生0.011美元的費用。請閱讀我們的Workers AI定價開發(fā)人員文檔，了解有關(guān)定價的最新信息。

-全新儀表板和演練場

最后，我們改造了Workers AI儀表板和AI演練場。Cloudflare面板中的Workers AI頁面現(xiàn)在可顯示各個模型的使用分析，包括神經(jīng)元計算，以幫助您更好地預(yù)測定價。AI演練場可讓您快速測試和比較不同的模型，并配置提示詞和參數(shù)。我們希望這些新工具能幫助開發(fā)人員開始在Workers AI上進行無縫構(gòu)建——歡迎嘗試！

在分布全球150多個城市的GPU上運行推理

2023年9月剛宣布推出Workers AI時，我們就開始在世界各地的數(shù)據(jù)中心部署GPU。我們計劃兌現(xiàn)這一承諾，于2024年底前在幾乎所有地方部署經(jīng)過推理微調(diào)的GPU，使我們成為分布最廣泛的云AI推理平臺。目前，我們已在150多個城市部署了GPU，并將在今年陸續(xù)推出更多GPU。

我們還將在2024年第二季度推出配備GPU的下一代計算服務(wù)器。這意味著與前幾代產(chǎn)品相比，下一代產(chǎn)品具有更高的性能、能效和可靠性。我們在2023年12月發(fā)表的一篇博客文章中提供了第12代計算服務(wù)器設(shè)計的預(yù)覽，更多細(xì)節(jié)將陸續(xù)公布。通過第12代和未來計劃推出的硬件，下一步是支持更大的機器學(xué)習(xí)模型，并在我們的平臺上提供微調(diào)。這將使我們能夠為生產(chǎn)工作負(fù)載實現(xiàn)更大的推理吞吐量、更低的延遲和更高的可用性，并擴大對微調(diào)等新型工作負(fù)載的支持。

Huggingface合作伙伴關(guān)系

我們很高興能推進與Hugging Face之間的合作關(guān)系，致力于為我們的客戶提供更優(yōu)的開源技術(shù)?，F(xiàn)在，您可以訪問Hugging Face上一些最受歡迎的模型，如果該模型在我們的平臺上可用，您只需輕松點擊該模型便可在Workers AI上運行。

通過與Hugging Face的合作，我們的平臺添加了4個模型。您現(xiàn)在可以訪問改進了上下文窗口的全新Mistral 7B v0.2模型、Nous Research的Hermes 2 Pro微調(diào)版Mistral 7B、Google的Gemma 7B和來自O(shè)penChat的Starling-LM-7B-beta微調(diào)版。目前，我們與Hugging Face合作管理著14個模型，用于在Cloudflare的Workers AI運行無服務(wù)器GPU推理-更多模型即將推出。這些模型均使用Hugging Face的技術(shù)通過TGI后端提供服務(wù)，我們與Hugging Face團隊密切合作，共同策劃、優(yōu)化和部署了這些模型。

“我們很高興能與Cloudflare合作，讓開發(fā)人員更容易利用AI。對Hugging Face社區(qū)來說，通過全球GPU網(wǎng)絡(luò)支持的無服務(wù)器API提供最流行的開放模型是一個非常棒的提議，我迫不及待想看看他們會用它構(gòu)建什么。”

-Julien Chaumond，聯(lián)合創(chuàng)始人兼首席技術(shù)官，Hugging Face

您可以在Hugging Face Collection中找到Workers AI支持的所有開放模型，“部署到Cloudflare Workers AI”按鈕位于每個模型卡的頂部。

支持微調(diào)推理——自帶LoRA

微調(diào)推理是用戶呼聲最高的Workers AI功能之一，現(xiàn)在我們離自帶（BYO）LoRA又近了一步。研究人員利用流行的低階適應(yīng)（Low-Rank Adaptation）方法，找到了如何對一個模型根據(jù)手頭的任務(wù)調(diào)整部分模型參數(shù)的方法，而不是重寫所有模型參數(shù)（就像完全微調(diào)模型一樣）。這意味著，無需付出完全微調(diào)模型的計算費用，您就可以獲得微調(diào)模型的輸出。

我們現(xiàn)在支持將經(jīng)過訓(xùn)練的LoRA帶到Workers AI，我們在運行時將LoRA適配器應(yīng)用于基礎(chǔ)模型，為您提供經(jīng)過微調(diào)的推理，成本、大小和速度僅為完全微調(diào)模型的一小部分。未來，我們希望能夠在我們的平臺上直接支持微調(diào)任務(wù)和完全微調(diào)模型，但我們依然很高興在這一階段能夠通過LoRA更進一步。

BYO LoRAs現(xiàn)已開放測試，適用于Gemma 2B和7B、Llama 2 7B和Mistral 7B模型，LoRA適配器大小不超過100MB，最高8階，每個賬戶最多30個LoRA。一如既往，我們希望您在使用Workers AI和新的BYO LoRA功能時遵守我們的服務(wù)條款，包括模型許可條款中包含的任何模型特定使用限制。

用Python編寫Workers

Python是世界上第二流行的編程語言（僅次于JavaScript），也是構(gòu)建AI應(yīng)用程序的首選語言?，F(xiàn)在開始，在公測版中，您可以用Python編寫Cloudflare Workers。Python Workers支持與Cloudflare資源的所有綁定，包括Vectorize、D1、KV、R2等。

LangChain是構(gòu)建由LLM驅(qū)動的應(yīng)用程序的最流行框架，就像Workers AI與langchain-js協(xié)作一樣，Python LangChain庫也能在Python Workers上運行，就像FastAPI等其他Python軟件包一樣。

用Python編寫Workers與使用JavaScript編寫Workers一樣簡單：

……只需在Wrangler.toml中指向一個.py文件即可進行配置：

無需額外的工具鏈或預(yù)編譯步驟。Pyodide Python執(zhí)行環(huán)境由Workers運行時直接提供，工作方式與JavaScript編寫的Workers如出一轍。

AI Gateway現(xiàn)已支持Anthropic、Azure、AWS Bedrock、Google Vertex和Perplexity

我們的AI Gateway產(chǎn)品幫助開發(fā)人員更好地控制和觀察他們的AI應(yīng)用，提供分析、緩存、速率限制等功能。我們正繼續(xù)為該產(chǎn)品添加更多供應(yīng)商，包括最近加入的Anthropic、Google Vertex和Perplexity。我們在2023年12月推出了對Azure和Amazon Bedrock的支持，這意味著最流行的提供商現(xiàn)在都可以通過AI Gateway獲得支持，包括Workers AI本身。

即將推出：持久日志（Persistent Logs）

在2024年第二季度，我們將推出持久日志，以便將日志（包括提示詞和響應(yīng)）推送到對象存儲；自定義元數(shù)據(jù)，以便使用用戶ID或其他標(biāo)識符標(biāo)記請求；機密管理，以便安全地管理應(yīng)用程序的API密鑰。

我們希望AI Gateway成為您的AI應(yīng)用程序控制平面，允許開發(fā)人員動態(tài)評估并將請求路由到不同的模型和提供商。通過持久日志功能，我們希望讓開發(fā)人員能夠使用他們記錄的數(shù)據(jù)一鍵微調(diào)模型，最終在我們的Workers AI平臺上直接運行微調(diào)任務(wù)和微調(diào)模型。AI Gateway只是我們AI工具包中的產(chǎn)品之一，但我們對它能為在我們平臺上開發(fā)的開發(fā)人員解鎖的工作流程和用例感到興奮，希望您也能為之興奮。

Vectorize元數(shù)據(jù)過濾，正式版將支持百萬向量索引

Vectorize是我們AI應(yīng)用程序工具包的另一個組件。自2023年9月公測以來，Vectorize允許開發(fā)人員持久化嵌入（向量），例如從Workers AI文本嵌入模型生成的那些，并查詢最接近的匹配，以支持相似性搜索或推薦等用例。如果沒有向量數(shù)據(jù)庫，模型輸出會被遺忘而無法調(diào)用，除非投入額外成本并重新運行模型。

自Vectorize公測發(fā)布以來，我們增加了元數(shù)據(jù)過濾功能。元數(shù)據(jù)過濾讓開發(fā)人員能夠?qū)⑾蛄克阉髋c任意元數(shù)據(jù)過濾結(jié)合起來，支持AI應(yīng)用中的復(fù)雜查詢。我們正全力以赴為Vectorize正式發(fā)布做準(zhǔn)備，目標(biāo)日期就在2024年6月，其中將包括對百萬級索引的支持。

構(gòu)建AI應(yīng)用的最全面開發(fā)人員平臺

在Cloudflare開發(fā)人員平臺上，我們認(rèn)為所有開發(fā)人員都應(yīng)該能夠快速構(gòu)建和發(fā)布全棧應(yīng)用，其中也包括AI體驗。通過Workers AI正式版、Workers AI的Python支持、AI Gateway、Vectorize以及與Hugging Face的合作關(guān)系，擴大了在我們的平臺上構(gòu)建AI應(yīng)用程序的可能性。

Cloudflare 云服務(wù)

上一篇：在Workers AI上使用LoRAs運行微調(diào)模型

原文鏈接：點擊前往 >

文章來源：Cloudflare

版權(quán)說明：本文內(nèi)容來自于Cloudflare，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章