我們放大一下視角,從產(chǎn)業(yè)的角度看待一個這個問題。
如果對行進中的中國互聯(lián)網(wǎng)產(chǎn)業(yè)有些許的關(guān)注,那么你一定不會忘記在402天前,2018年9月30日,騰訊那場浩浩蕩蕩的變革。
那是騰訊二十年歷史中第三次揮刀指向自我,而變革的中心所指正是如今正站在舞臺中央的CSIG(云與智慧產(chǎn)業(yè))事業(yè)群。一年多時間過去,CSIG到了交答案的時候了。
站在2019年11月6日早晨舉行的騰訊云首屆Techo開發(fā)者大會舞臺中央,騰訊公司副總裁、騰訊云總裁邱躍鵬最先回答了未來騰訊云去向何方的問題,他表示站在騰訊的角度看軟硬件一體化、Serverless(無服務(wù)器)、智能化將是未來產(chǎn)業(yè)的發(fā)展方向。
而緊隨邱躍鵬之后,騰訊云副總裁、云架構(gòu)平臺部總經(jīng)理謝明則回答了騰訊過去二十年在基礎(chǔ)方面的演進和創(chuàng)新,以及如今騰訊如今在云計算領(lǐng)域的全面技術(shù)部署與優(yōu)勢。
騰訊云副總裁、騰訊數(shù)據(jù)平臺部總經(jīng)理蔣杰博士則進一步披露了騰訊大數(shù)據(jù)平臺這10年來從以Hadoop為基礎(chǔ)做離線計算的整合到如今自主開發(fā)Angel分布式機器學(xué)習(xí)平臺日接入數(shù)據(jù)量35萬億條的技術(shù)演進歷程。
龐大的社交巨頭如何轉(zhuǎn)型成一家科技公司?
農(nóng)場偷菜開始的云業(yè)務(wù)萌芽是如何發(fā)展成為騰訊的企業(yè)級戰(zhàn)略?
經(jīng)過二十年的累積與一年的變革,騰訊云又交出了怎樣的答卷?
與此同時,以騰訊為代表,巨頭們基礎(chǔ)設(shè)施與技術(shù)一路發(fā)展而來所走過的歷史,為后來者們又留下怎樣的財富?
通過深度參與這場大會,并對謝明、蔣杰等騰訊云高管進行采訪,我們試圖在這場大會之中找到上面所有問題的答案。
一、邱躍鵬:軟硬件一體化、Serverless、智能化是云計算三大趨勢
作為第一屆騰訊云Techo開發(fā)者大會的首位演講者,邱躍鵬一開場就向所有人清晰的闡述了站在騰訊的角度,他們看到的未來云技術(shù)發(fā)展的三個趨勢:
首先是軟硬一體化。隨著云端所承載的業(yè)務(wù)規(guī)模越來越大,面向未來,更加高效的算力、更加低成本的存儲一定是大勢所趨,而在這一基礎(chǔ)之上,硬件設(shè)計云原生也就是軟硬件一體結(jié)合也成為了一個需要不斷探索的方向。這對于開發(fā)者而言,可以為他們提供更堅實的基礎(chǔ)設(shè)施平臺以及更好的云計算性能并提高資源利用率。
第二個是Serverless(無服務(wù)器),作為一種新型的軟件設(shè)計架構(gòu)正在快速崛起。作為繼虛擬機、容器后的第三代通用計算平臺,Serverless技術(shù)也一直是騰訊云原生的重點發(fā)力領(lǐng)域。它可以將開發(fā)者從繁瑣、冗雜的開發(fā)配置工作中解放出來,不需要任何的基礎(chǔ)設(shè)施建設(shè)、管理與運維,極大降低了開發(fā)門檻,而只需關(guān)注自己的業(yè)務(wù)邏輯。
以騰訊云和微信聯(lián)合推出的“小程序·云開發(fā)”為例,目前它實現(xiàn)了小程序開發(fā)的Serverless,上線一年至今,已經(jīng)有超過了50萬的開發(fā)者在使用。
此外,值得一提的是在Techo開發(fā)者大會上,騰訊云還宣布與全球最流行的Serverless開發(fā)平臺達成戰(zhàn)略合作,成為Serverless的全球戰(zhàn)略合作伙伴以及大中華區(qū)獨家合作伙伴,雙方將聯(lián)手打造下一代無服務(wù)器計算開發(fā)平臺——Serverless Cloud,該平臺將覆蓋從初始化、編碼、調(diào)試、資源配置到部署發(fā)布,再到業(yè)務(wù)監(jiān)控告警、故障排查的全生命周期。
智能化則是未來云技術(shù)發(fā)展的第三大趨勢。當(dāng)硬件的成本越來越低,紅利不斷被釋放,開發(fā)者也就能夠越來越關(guān)注于應(yīng)用本身,數(shù)字化時代的進程也就隨之加快。這一過程中,數(shù)字化帶來了海量數(shù)據(jù)的增長,對于算力的要求變得前所未見,人工智能也成為了開發(fā)者們必須關(guān)注和應(yīng)用的技術(shù)。未來,云廠商也將會提供更多人工智能產(chǎn)品和能力給到開發(fā)者。
最后,邱躍鵬表示,截至目前,騰訊云已經(jīng)服務(wù)了數(shù)百萬開發(fā)者,給到開發(fā)者的資源扶持超過100億元。未來,騰訊云將秉承開源、分享、創(chuàng)新的理念,與開發(fā)者一起共建生態(tài)。
二、謝明:從使用通用產(chǎn)品到基于自研的極致彈性云時代,騰訊基礎(chǔ)設(shè)施的二十年發(fā)展復(fù)盤
上場伊始,騰訊云副總裁、云架構(gòu)平臺部總經(jīng)理謝明先向我們透露了這樣一組數(shù)據(jù):如今在騰訊的生態(tài)之中,QQ有8億用戶,微信的用戶超過11億,騰訊視頻用戶量超過1億,騰訊游戲的用戶數(shù)量也已經(jīng)超過7億。
在會后的采訪中,謝明也向我們開玩笑表示,事實上,騰訊自己才是騰訊云最大的客戶。
因為,即使在騰訊內(nèi)部對于基礎(chǔ)設(shè)施的需求也是不盡相同的,這對于日后騰訊云的對外能力輸出,提供了豐富的技術(shù)以及經(jīng)驗積累。
比如當(dāng)年的農(nóng)場偷菜,需要的是高寫入低存儲,是典型的高并發(fā)場景;無數(shù)人的青春回憶QQ相冊則對存儲的需求更加嚴格,如何降低存儲成本成了當(dāng)時的首要需求;而最近的國慶閱兵直播,騰訊視頻加上騰訊云客戶的國慶閱兵播放量大概在8000萬左右,這種存在非常巨大的流量時間差異的波峰波谷情況則是一個偏接入的服務(wù),為滿足業(yè)務(wù)需求,騰訊選擇自研CDN,并扛住了諸如國慶閱兵、LOL的S9直播等一系列重大時間節(jié)點的需求。
截止2019年5月份,騰訊全網(wǎng)的服務(wù)器總量超過了100萬臺,已經(jīng)成為國內(nèi)首家超過一百萬服務(wù)器的企業(yè)。
那么從服務(wù)自身到服務(wù)客戶,騰訊云究竟在哪幾個方面做出了哪些成績呢?謝明從服務(wù)器平臺演進、基礎(chǔ)網(wǎng)絡(luò)架構(gòu)演進、數(shù)據(jù)中心演進、計算演進、存儲演進、數(shù)據(jù)庫演進六個維度進行了總結(jié)與復(fù)盤,并展望了在彈性計算、智能運營、智能服務(wù)等方面騰訊的發(fā)力方向。
服務(wù)器方面,從通用到自研是騰訊最主要的演進思路。在創(chuàng)業(yè)的最初騰訊使用的就是通用服務(wù)器,到了2007年,騰訊定制了首款Twins服務(wù)器,并制作了一個大規(guī)模上架管理系統(tǒng),能夠做到在一天內(nèi)交付一千臺服務(wù)器,幫騰訊抗住了業(yè)務(wù)的洪峰。到了云時代,客戶對服務(wù)器的性能、成本、安全性有了更高的要求,于是騰訊就啟動了自研服務(wù)器的進程。
前幾天在成都,騰訊還發(fā)布了星星海服務(wù)器,它最大的特點是針對云端場景做深度優(yōu)化,實現(xiàn)行業(yè)最優(yōu)單核性能和最優(yōu)單核TCO,包括實現(xiàn)云服務(wù)實例綜合性能提升35%以上,最大負載能效對比業(yè)界可提高50%。
基礎(chǔ)網(wǎng)絡(luò)架構(gòu)上,騰訊則經(jīng)歷了商業(yè)設(shè)備人工運維到商業(yè)設(shè)備工具建設(shè)到定制設(shè)備路由控制再到如今的自研設(shè)備軟件定義階段。
如今,騰訊已經(jīng)與超過100家運營商建立了網(wǎng)絡(luò)互連,出口帶寬也超過了100Tb。同時,騰訊還基于自研設(shè)備和SDN構(gòu)建了第四代網(wǎng)絡(luò)架構(gòu),在自研設(shè)備上,騰訊自研交換機、自研光網(wǎng)絡(luò)能力達到業(yè)界頂級水平,通過自研,騰訊網(wǎng)絡(luò)設(shè)備TCO下降20%
在2019年7月份某運營商核心設(shè)備故障3個小時期間,騰訊網(wǎng)絡(luò)3分鐘切換出口恢復(fù)也正是得益于此,而類似的調(diào)度,騰訊2019年已經(jīng)累計完成了549次。
數(shù)據(jù)中心方面,謝明表示騰訊的演進思路是高速化、規(guī)?;?、集約化以及智能化。
在最新的第四代數(shù)據(jù)中心T-Block建設(shè)中,騰訊通過將IT、電力、空調(diào)的產(chǎn)品化,結(jié)合騰訊數(shù)據(jù)中心最佳模型及建設(shè)方法論,按照搭積木的方式,實現(xiàn)全數(shù)據(jù)中心的模塊化配置及快速建設(shè)。
相比于傳統(tǒng)大規(guī)模數(shù)據(jù)中心,現(xiàn)場施工周期減少一半;同時,由于率先在行業(yè)內(nèi)采用更高效率的制冷和供配電架構(gòu),系統(tǒng)能源使用效率得到有效提升。PUE降低至1.2。以一個擁有30萬臺服務(wù)器的園區(qū)為例,通過部署T-Block一年可節(jié)省2.5億度電。
計算上,彈性計算已經(jīng)成為大勢所趨,存儲和網(wǎng)絡(luò)從計算實例解耦出來成了必然選擇。如今,騰訊已經(jīng)通過虛擬網(wǎng)絡(luò)VPC和軟件定義存儲SDS做到了內(nèi)外網(wǎng)IP隨意漂移和云盤的靈活掛載,再結(jié)合虛擬機的熱遷移技術(shù),做到虛擬機在物理母機間的無感遷移,有效滿足物理資源升級容錯的需求。
騰訊云主機管控平臺Vstation則做到了每分鐘交付千臺虛擬機的能力,中等規(guī)模公司的計算需求可以在騰訊云上得到快速滿足。
存儲方面,從當(dāng)年的QQ相冊開始,騰訊就開啟了自研之路,并支撐起了數(shù)個爆款應(yīng)用興起的全過程。
早在2006年,騰訊兩款國民級應(yīng)用QQ空間及相冊業(yè)務(wù)突然爆發(fā),讓當(dāng)時的運營商的機位和帶寬全線告急,在業(yè)務(wù)高峰期,當(dāng)時的騰訊不得不采取限流措施。同時,為應(yīng)對每天海量的圖片上傳需求,騰訊根據(jù)當(dāng)時最前沿的分布式存儲理念,迅速開發(fā)出騰訊分布式存儲TFS,有效支持了Qzone相冊每天億級別的圖片上傳。
現(xiàn)如今,盡管機械硬盤容量從十年前的500G增長到了16TB,但每GB存儲的IOPS能力卻下降到了原來的3%。全新的云時代分布式存儲成為新的時代需求,騰訊云對象存儲引擎YottaStore應(yīng)運而生,磁盤利用率達到90%以上,單集群理論可管理百萬級節(jié)點,并大幅降低了運維的人工投入。
數(shù)據(jù)庫方面,當(dāng)年QQ空間的訪問峰值一度達到百萬/秒,對數(shù)據(jù)庫的性能、成本和擴展性挑戰(zhàn)非常大,也是自此,騰訊走上了自研數(shù)據(jù)庫的道路。
首先在架構(gòu)上,騰訊采用了基于share nothing的分布式計算存儲分離架構(gòu),讓計算、存儲的無限擴展成為可能;其次,性能上,在單機上也嘗試軟硬結(jié)合優(yōu)化;并且通過采用多級存儲介質(zhì),達到最佳的性價比。
到了云時代,技術(shù)棧的需要更加立體。騰訊通過開源托管、商業(yè)合作、自研三線齊發(fā),提供超過20種數(shù)據(jù)庫產(chǎn)品,以及數(shù)據(jù)備份、SQL審計、數(shù)據(jù)管理、數(shù)據(jù)遷移等服務(wù)等生態(tài)工具,最終讓用戶獲取最佳的上云體驗。
而基于以上六大基礎(chǔ)技術(shù)的發(fā)展,不難發(fā)現(xiàn)當(dāng)前的云業(yè)務(wù)已經(jīng)步入到一個極致彈性時代,其表現(xiàn)主要在以下三大方面:
1、性能和容量能夠做到實例規(guī)格的足夠大、足夠小,既能幫助大客戶扛住業(yè)務(wù)洪峰,又能讓小客戶不浪費一分錢。
2、計費模式上,真正按照使用量來計費。
3、交付能力要秒升秒降,快上快下。
而基于彈性計算的理念,計算上,作為虛擬機、容器后的第三代通用計算平臺,騰訊表示,其無服務(wù)函數(shù)計算平臺可以做到資源使用率100%,成本則直降50%以上。通過使用自研的輕量級虛擬化技術(shù),騰訊無服務(wù)函數(shù)計算平臺還可以將啟動時間縮短至90毫秒,并且使函數(shù)冷啟動率降低到萬分之一以內(nèi)。
存儲上,騰訊推出了可用性和可靠性更高的多AZ存儲。讓數(shù)據(jù)根據(jù)用戶實際需求,靈活選擇。
數(shù)據(jù)庫方面,騰訊的CynosDB則基于計算存儲解耦架構(gòu),通過存儲池化、日志即數(shù)據(jù)庫、可計算存儲等技術(shù),單實例可以達到百TB級別,資源利用率可到100%。
而面向未來,謝明則表示,云計算還需要結(jié)合更多的智能來提供更好的服務(wù)。
比如,通過智能視頻和智能機器人實現(xiàn)智能運營;基于深度強化學(xué)習(xí)的云數(shù)據(jù)庫自動性能優(yōu)化系統(tǒng)來實現(xiàn)智能服務(wù);以及數(shù)據(jù)的智能分層、計算的智能擴縮……這些都是未來需要不斷發(fā)力的方向。
三、蔣杰:從0到日均35萬億數(shù)據(jù)采集,騰訊大數(shù)據(jù)平臺10年技術(shù)演進
作為騰訊云副總裁、騰訊數(shù)據(jù)平臺部總經(jīng)理蔣杰則主要分享了騰訊在大數(shù)據(jù)以及AI方面的探索。
依舊是一串?dāng)?shù)據(jù),蔣杰表示,當(dāng)前騰訊內(nèi)部有超過100萬臺服務(wù)器,算力資源池中的規(guī)模為20萬臺,另外,騰訊每天有1500萬的分析任務(wù),30萬億次的實時計算量,每天35萬億條的數(shù)據(jù)采集量,分布式機器學(xué)習(xí)平臺,能支撐1萬億維度的數(shù)據(jù)訓(xùn)練。
然而這一切在十年前,還都是一片空白。
從無到有,騰訊經(jīng)歷了最開始的以Hadoop為核心的離線計算時代,后來的以Spark、Storm、Flink為核心的實時計算時代,再到如今的機器學(xué)習(xí)和深度學(xué)習(xí)時代。在這一過程中,騰訊從無到有研發(fā)了分布式的機器學(xué)習(xí)引擎Angel,以及一站式AI開發(fā)平臺智能鈦TI。
在這一過程之中,騰訊主要解決了四大方面的困難以及挑戰(zhàn)。
第一個挑戰(zhàn)來自于如何實現(xiàn)在線、離線混部,管理十萬級規(guī)模的資源池的問題。
十年前,騰訊管理幾百個節(jié)點都很困難,調(diào)度性能差,規(guī)模上不去。在這之后,騰訊自研了調(diào)度器,相對于原生調(diào)度器,調(diào)度性能提升了150倍,大大提升了集群可擴展性。僅僅在2014年,單集群規(guī)模就已經(jīng)達到8800臺。
再后來,離線計算大規(guī)模集群的問題解決了,騰訊開始著眼于解決在線離線業(yè)務(wù)混合部署的問題。2017年前后,騰訊開始把在線系統(tǒng)和離線系統(tǒng)混合部署,錯峰調(diào)度,將幾十萬甚至上百萬的集群管理起來,形成一個統(tǒng)一的大池子,提升了整體資源利用率。
第二個挑戰(zhàn)來自于數(shù)據(jù)接入,如何實時采集和處理每天數(shù)十萬億條數(shù)據(jù)?
騰訊的數(shù)據(jù)體量巨大是眾所周知的情況,每天都上百PB、幾十萬億條數(shù)據(jù)在產(chǎn)生,從2013年起短短5、6年,數(shù)據(jù)量就從百億級增長到十萬億級,漲幅達到了幾千倍。
為了應(yīng)對這種爆炸式增長,騰訊走了一條技術(shù)引進+改造+自研的道路。
從最開始用開源的kafka+storm來承載,到因為系統(tǒng)非常不穩(wěn)定、丟包、數(shù)據(jù)重復(fù)、數(shù)據(jù)無法消費等問題而優(yōu)化系統(tǒng)、重寫storm,再到自研分布式消息中間件TubeMQ替換Kafka,這是騰訊的解決高數(shù)據(jù)量增長的主要途徑。此外,在千億到萬億再到十萬億的階段,騰訊還為萬兆網(wǎng)絡(luò)以及內(nèi)存存儲重新設(shè)計了軟件架構(gòu)。
第三個挑戰(zhàn)來自于跨IDC、跨集群、跨平臺數(shù)據(jù)的高效分析。
騰訊擁有20萬的彈性資源池,但是這些機器分布在多個不同地區(qū)甚至是不同國家的數(shù)據(jù)中心,客觀上形成了數(shù)據(jù)孤島或者數(shù)據(jù)煙囪。2018年,騰訊自研了漂移計算引擎SuperSQL,作為統(tǒng)一的數(shù)據(jù)分析入口,通過智能CBO優(yōu)化器(基于成本的優(yōu)化),將計算下推到分布在各地的異構(gòu)數(shù)據(jù)源,數(shù)據(jù)分析性能提高很多倍,并且數(shù)據(jù)量越大優(yōu)勢越明顯。
最后,如何搞定萬億維度的大模型數(shù)據(jù)訓(xùn)練?
2015年,騰訊自研了高性能的分布式機器學(xué)習(xí)平臺Angel,采用PS的架構(gòu),能支持10億維度?,F(xiàn)在Angel已經(jīng)發(fā)展到3.0,可以支撐萬億維度并兼容Spark、PyTorch、TensorFlow等多種生態(tài),并在此前只能處理大模型的基礎(chǔ)上,今年新增了對深度學(xué)習(xí)、圖計算等支持。
將騰訊的這些能力與經(jīng)驗進一步沉淀,騰訊云成了對外賦能的主要窗口。當(dāng)前,騰訊已經(jīng)把網(wǎng)絡(luò)、存儲、數(shù)據(jù)庫等IaaS能力,大數(shù)據(jù)、機器學(xué)習(xí)等PaaS的能力,以及上層的圖像、語音、NLP、BI等SaaS能力,通過騰訊云對外開放。
在大數(shù)據(jù)和AI兩個領(lǐng)域,騰訊還推出了以TBDS和智能鈦TI為首的雙引擎,讓企業(yè)和數(shù)百萬的開發(fā)者能夠更便捷的使用大數(shù)據(jù)和AI的能力。
結(jié)語:從全面復(fù)盤歷史到交出最新成績,巨頭們走過的路,為后來者點亮了前行的燈
不難發(fā)現(xiàn),騰訊的基礎(chǔ)設(shè)施成長之路是一個從自身業(yè)務(wù)需求為出發(fā)點,不斷沉淀全方位的數(shù)據(jù)、技術(shù)能力,從局部優(yōu)化到自主研發(fā)的過程。
而騰訊這二十年來的技術(shù)成長之路中的某個節(jié)點,以及他們所經(jīng)歷的苦難與重重挑戰(zhàn),或許也正是千千萬萬來自其他行業(yè)的企業(yè)當(dāng)前所正在經(jīng)歷的,只是騰訊更大、跑的更快,問題也就最先遇到。
或許對比國內(nèi)的其他競爭對手,騰訊并不算走的最快的一個,但卻是走的最穩(wěn)的一位。站在大變革一年后的時間節(jié)點,將這一路的經(jīng)驗的挑戰(zhàn)深度復(fù)盤,是騰訊回顧歷史對自我的總結(jié),同時這也是將技術(shù)與經(jīng)驗沉淀借騰訊云對外輸出的最佳案例。
或許全面上云,未來還需要多久,我們并不知道,但是我們知道的是,前路有人照亮,技術(shù)有人幫扶,選擇上云的后來者們的路徑無疑會比他們的前輩走的更加順暢與快速。