云計算正迎來屬于它的黃金十年。
中國信通院數(shù)據(jù)顯示,2019年,全球云計算市場規(guī)模達到1883億美元,增速20.86%。預(yù)計2023年市場規(guī)模將超過3500億美元。在國內(nèi)市場,2019年云計算市場規(guī)模達1334億元,增速38.61%。其中,公有云市場規(guī)模達到689億元,較2018年增長57.6%,規(guī)模首次超過私有云。
云計算歷史性發(fā)展的背后,是一部產(chǎn)業(yè)變遷史。IT基礎(chǔ)設(shè)施從主機時代的集中,到PC時代的離散,云計算的興起,再一次將IT基礎(chǔ)設(shè)施集中化,IT產(chǎn)業(yè)似乎也在遵循著“否定之否定”的鐘擺定理。
隨著算力趨于集中,云計算基礎(chǔ)設(shè)施也在經(jīng)歷新一輪的變化。軟硬一體,一個不甚新鮮的詞匯,在不同時代卻有不同的內(nèi)涵,云計算時代的軟硬一體如何演進?
騰訊云自研服務(wù)器上新,堅定戰(zhàn)略布局
在騰訊2020 Techo Park開發(fā)者大會,騰訊云重磅發(fā)布星星海首款自研GPU服務(wù)器和星星海新一代自研雙路服務(wù)器,后者也是國內(nèi)首款搭載第三代英特爾至強可擴展處理器(Ice Lake)的雙路服務(wù)器。
早在2019年10月份,騰訊云就發(fā)布了首款基于AMD平臺的星星海服務(wù)器,持續(xù)不斷地發(fā)布自研硬件新品,說明騰訊云絕對不是“玩票”性質(zhì)。
星星海首款自研GPU服務(wù)器在設(shè)計上實現(xiàn)了全球首創(chuàng),機框最短,適配主流機架,在同一框架內(nèi)可以靈活更換主板,并且支持多平臺兼容。同時結(jié)合業(yè)務(wù)對PCIe帶寬要求低的特點,支持16卡GPU+4路intel服務(wù)器,達到業(yè)界最高密度,可大幅降低單卡TCO。
星星海新一代自研雙路服務(wù)器率先采用第三代英特爾至強可擴展處理器,經(jīng)測試,星星海新一代自研雙路服務(wù)器通過深度優(yōu)化定制,計算密度提升50%;通過高性能散熱器和研發(fā)創(chuàng)新獨立風(fēng)道設(shè)計,散熱方案支持CPU功效提升45%;基于增強的可靠性、可用性和可服務(wù)性(RAS)技術(shù),可多維度全覆蓋故障診斷、精細(xì)化定位等問題明確故障,使宕機率減少50%。
那么,騰訊為什么要做自研服務(wù)器?
騰訊云服務(wù)器與供應(yīng)鏈管理部總經(jīng)理劉裕勛強調(diào),騰訊做硬件從來不會單純的跟風(fēng),而是結(jié)合自己的實際情況做演進。騰訊服務(wù)器從零到超百萬臺,二十年時間可分為三個時期,2000年到2010年階段的PC互聯(lián)網(wǎng)階段,2010年到2016年的移動互聯(lián)網(wǎng)階段,以及2016到現(xiàn)在的云時代。
不同時期的業(yè)務(wù)矛盾特點不一樣,早期以QQ業(yè)務(wù)為核心,業(yè)務(wù)類型比較單一,依靠服務(wù)器的增加就能解決;到了移動互聯(lián)網(wǎng)時代,騰訊開始爆發(fā)式增長,社交、游戲、視頻、微信等內(nèi)容產(chǎn)品快速崛起,不同業(yè)務(wù)架構(gòu)復(fù)雜,催生了硬件定制化需求,如存儲服務(wù)器等。
“現(xiàn)在騰訊走上了自研服務(wù)器的道路,內(nèi)部架構(gòu)會逐步趨同,趨同的情況下我們有更好的辦法做更通用的硬件定制,我們要考慮更好的性價比和更穩(wěn)定的質(zhì)量。這是騰訊做服務(wù)器的初衷?!眲⒃渍f道。
騰訊運營管理部總經(jīng)理陳鐵鋼也表示,過去服務(wù)器的研發(fā)周期長達一年左右,騰訊將所有業(yè)務(wù)架構(gòu)的團隊和服務(wù)器團隊集中在一起進行評測,軟件團隊和硬件團隊協(xié)同,找到最佳適配的平衡點,從而大大縮短了服務(wù)器的研發(fā)時間。
“單純依靠硬件不能滿足業(yè)務(wù)所有負(fù)載,比如高密度服務(wù)器的存儲I/O能力會成為業(yè)務(wù)瓶頸,騰訊通過提供PaaS平臺解決了這個問題,用戶雖然感知不到,但是已經(jīng)在享受軟硬一體帶來的好處?!标愯F鋼說。
軟硬一體,騰訊補充全局版圖
“2018年‘930’變革之后,開源協(xié)同和自研上云就成為了騰訊未來在技術(shù)演進上面大的戰(zhàn)略調(diào)整。通過自有業(yè)務(wù),比如微信、QQ、廣告、大數(shù)據(jù)等等海量規(guī)模業(yè)務(wù)上云,不斷打磨騰訊云的PaaS和IaaS層面能力,來真正的做到軟硬一體化協(xié)同?!眲⒃捉榻B。
真正的軟硬一體協(xié)同,當(dāng)然不是只有服務(wù)器。騰訊式軟硬一體,是以全新自研服務(wù)器產(chǎn)品為核心,圍繞網(wǎng)絡(luò)、存儲和運維等細(xì)分領(lǐng)域提供多樣解決方案,打造面向下一代的云計算基礎(chǔ)設(shè)施。
“云計算客戶都希望采用低成本、高質(zhì)量的產(chǎn)品,客戶的需求推動我們?nèi)プ龈嗟淖兏锖脱葸M?;A(chǔ)設(shè)施領(lǐng)域不僅是服務(wù)器,還包括數(shù)據(jù)中心和網(wǎng)絡(luò)等,騰訊正在系統(tǒng)性推進整體布局,得益于騰訊的技術(shù)變革,在這樣的戰(zhàn)略轉(zhuǎn)變下大家能夠更好的合作,這也是騰訊能夠把基礎(chǔ)設(shè)施做得很好的一種方式?!标愯F鋼表示。
比如云網(wǎng)絡(luò)面臨著性能壓力、運維壓力和可運維性方面的挑戰(zhàn),對此,騰訊云通過可編程芯片硬件的解決方案使得網(wǎng)絡(luò)帶寬提升的同時,成本縮減約為原來的三十分之一。
傳統(tǒng)網(wǎng)關(guān)升級通過冷升級的方式,依賴上聯(lián)交換機的hash能力和underlay網(wǎng)絡(luò)路由收斂時間,而騰訊云可編程芯片硬件解決方案通過單節(jié)點熱升級的方式,onl控制面把配置按照數(shù)據(jù)面格式固化在內(nèi)存存,利用tonfino dma控制器,升級后reload配置,整個熱升級過程可以控制在20ms之內(nèi)。
而在網(wǎng)絡(luò)存儲虛擬化軟硬協(xié)同方面,騰訊云推出了下一代容器網(wǎng)絡(luò)方案。該方案可無縫的支持和存量的云主機進行相互熱遷移,能快速進行云主機和容器服務(wù)部署,并且依托軟硬件協(xié)同實現(xiàn)的高密度彈性網(wǎng)卡,支持一個Pod獨占一張彈性網(wǎng)卡,不再經(jīng)過節(jié)點網(wǎng)絡(luò)協(xié)議棧(default namespace),極大縮短了容器訪問鏈路,縮短了訪問時延,并使PPS可以達到整機上限。
在存儲方面,硬盤容量越來越大,故障率和故障恢復(fù)時長也隨之變長,這會對云上開發(fā)帶來很大的穩(wěn)定性挑戰(zhàn)。為了給開發(fā)者提供更為穩(wěn)健的云服務(wù),騰訊云通過對硬盤來料質(zhì)量,運營監(jiān)控和技術(shù)創(chuàng)新等手段進行智能化運營。
騰訊云服務(wù)器運營中心專家工程師牛犇介紹,在來料質(zhì)量方面,騰訊云采取基于業(yè)務(wù)模型的來料篩選機制,通過云業(yè)務(wù)模型與硬盤底層參數(shù)建模,分析參數(shù)統(tǒng)計分布,定制化篩選標(biāo)準(zhǔn),使得硬盤年化故障率顯著降低至1/5。在運營監(jiān)控方面,騰訊云的硬盤智能監(jiān)控系統(tǒng)通過多維度硬盤健康評分和AI故障預(yù)測,可使硬盤故障提前識別率提升至80%。
據(jù)騰訊統(tǒng)計,硬件故障導(dǎo)致的系統(tǒng)宕機中,內(nèi)存故障占比排第一。騰訊云通過優(yōu)化算法進行內(nèi)存篩選、優(yōu)選X4顆粒內(nèi)存條、使能多種內(nèi)存RAS特性等方式大大提升了服務(wù)器的可靠性。此外,騰訊云也是業(yè)內(nèi)首家在云計算領(lǐng)域大規(guī)模研發(fā)部署MCA Recovery技術(shù)的云服務(wù)商,該技術(shù)能夠減少40%以上內(nèi)存故障導(dǎo)致的宕機。
星星海,騰訊ToB必由之路
云計算行業(yè)新的黃金十年,也是普惠發(fā)展的十年。新基建、數(shù)字經(jīng)濟、新冠疫情等一系列因素推動云計算行業(yè)競爭愈發(fā)激烈,尤其超大規(guī)模數(shù)據(jù)中心的崛起,業(yè)務(wù)需求倒逼服務(wù)器等產(chǎn)品升級,依靠上一形態(tài)的產(chǎn)業(yè)鏈分工,已經(jīng)無法全部滿足當(dāng)下的客戶需求。
星星海硬件實驗室是騰訊首個硬件工程實驗室,該實驗室專注于硬件系統(tǒng)架構(gòu)設(shè)計和前瞻性基礎(chǔ)技術(shù)研究,目前騰訊云星星海已經(jīng)發(fā)布了多款自研硬件產(chǎn)品,包括四款自研服務(wù)器和一款智能網(wǎng)卡,并且在計算、存儲、網(wǎng)絡(luò)等全線硬件產(chǎn)品領(lǐng)域申請超過20多項專利。
星星海,取名自青海省果洛藏族自治州瑪多星星海,以水為名,取靈動與智慧之意,頗有互聯(lián)網(wǎng)快速創(chuàng)新的意味。
騰訊是全球最大的幾家CSP(內(nèi)容服務(wù)提供商)之一,服務(wù)器保有量規(guī)模過百萬,天然有著業(yè)務(wù)場景的沃土,可以持續(xù)不斷的迭代其底層基礎(chǔ)設(shè)施,隨著騰訊從CSP轉(zhuǎn)型云服務(wù)商,這些自研能力自然而然對外輸出。
據(jù)了解,騰訊目前在新增服務(wù)器中自研比例達到10-15%,未來騰訊云和騰訊業(yè)務(wù)對自研服務(wù)器的需求將加快提升。
云計算承載的業(yè)務(wù)規(guī)模呈現(xiàn)指數(shù)級增長,哪怕萬分之一的成本降低或者效率提高,放到騰訊業(yè)務(wù)上都是肉眼可見的收益,騰訊云給千行百業(yè)帶來的收益更是無法測算。
可以確定的是,未來云計算的軟硬件一體化技術(shù)會進一步發(fā)展,企業(yè)用戶呼喚更健壯的云基礎(chǔ)設(shè)施平臺,軟硬一體在性能、資源利用率等方面仍有上升潛力。
“云基礎(chǔ)架構(gòu)的復(fù)雜度對服務(wù)器的質(zhì)量要求會越來越高,通用服務(wù)器的質(zhì)量管控?zé)o法很好滿足。不論是部件和整機系統(tǒng)的匹配,還有上層軟件的適配,勢必需要騰訊和騰訊云的團隊,在更加理解底層整機系統(tǒng)包和新興技術(shù)協(xié)同的基礎(chǔ)上做文章,騰訊不是為做硬件而做硬件,而是騰訊演進過程中必須要走的那一步。”劉裕勛肯定地表示。
海量云時代,誰能為客戶提供更加穩(wěn)定、更具性價比的服務(wù),也就意味著獲得了云計算馬拉松的身位優(yōu)勢,騰訊云已行至中途。