今天,Anthropic最新推出的Claude 3.5 Sonnet模型在A(yíng)mazon Bedrock正式上線(xiàn)。升級(jí)版Claude 3.5 Sonnet獲得了一項(xiàng)革命性的新技能:能夠像人類(lèi)一樣操作電腦。根據(jù)Anthropic介紹,該模型各項(xiàng)能力均超越之前版本,實(shí)現(xiàn)了全面提升——尤其在代碼方面,進(jìn)一步鞏固其行業(yè)領(lǐng)先地位。
Claude 3.5 Sonnet在業(yè)界基準(zhǔn)測(cè)試中表現(xiàn)卓越,在SWE-bench Verified編碼測(cè)試的得分由33%躍升至49%,超越所有目前公開(kāi)可用的模型。在TAU-bench(評(píng)估模型靈活運(yùn)用工具和API綜合能力的基準(zhǔn)測(cè)試)中,其零售領(lǐng)域得分從62.6%提高到69.2%,航空領(lǐng)域從36.0%提高到46.0%。性能全面提升的同時(shí),Claude 3.5 Sonnet的成本與之前版本保持一致。
Claude 3.5 Sonnet新增的“計(jì)算機(jī)使用”功能現(xiàn)已在A(yíng)mazon Bedrock上線(xiàn)公測(cè)版,賦予使用者引導(dǎo)模型模擬人類(lèi)行為進(jìn)行屏幕觀(guān)察、鼠標(biāo)移動(dòng)、點(diǎn)擊以及文本輸入等操作的能力。由于這項(xiàng)技術(shù)仍處于早期階段,建議用戶(hù)從嘗試低風(fēng)險(xiǎn)任務(wù)開(kāi)始,逐步探索這項(xiàng)強(qiáng)大的新功能。
Claude 3.5 Sonnet現(xiàn)已在美國(guó)西部(俄勒岡州)地區(qū)的Amazon Bedrock中上線(xiàn)。