從引進(jìn)到自研再到開(kāi)源融合,這10年騰訊大數(shù)據(jù)平臺(tái)經(jīng)歷了什么

來(lái)源: 百家號(hào)
作者:尚學(xué)堂大數(shù)據(jù)學(xué)院
時(shí)間:2020-10-26
16917
騰訊云副總裁,騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣潔分享了騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展方向以及人工智能與云技術(shù)的融合。

在空中3000米處,一架民用飛機(jī)拖著煙翼,在空中畫(huà)出兩條黑線。不遠(yuǎn)處,有13名乘客從機(jī)艙中喪生。

此刻,在不遠(yuǎn)的地方,鐵甲的智能助手老賈通過(guò)大數(shù)據(jù)算法提出了數(shù)百種解決方案,并一一淘汰。

突然,裝甲開(kāi)始剎車(chē),一個(gè)人開(kāi)始在空中飛舞。眨眼間,所有13名乘客都被救出,整個(gè)過(guò)程僅30秒。

f9198618367adab45e0c2381f82fc91b8501e412.jpg

在《鋼鐵俠3》中,空難救援場(chǎng)景很經(jīng)典。鋼鐵人通過(guò)授權(quán)AI,使用大數(shù)據(jù),云計(jì)算和其他技術(shù),可以在1/30秒內(nèi)做出準(zhǔn)確的決策。

電影中顯示的極端情況引起了我們對(duì)這種技術(shù)的好奇。在現(xiàn)實(shí)生活中,大數(shù)據(jù),云計(jì)算和其他技術(shù)的迭代,集成和著陸會(huì)影響上層應(yīng)用程序的各個(gè)方面(企業(yè)方面)。

從入門(mén)到自我研究再到開(kāi)源集成,過(guò)去十年來(lái)騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了什么

10月6日,雷鋒受邀參加了騰訊舉辦的技術(shù)開(kāi)發(fā)者大會(huì)。在此期間,騰訊云副總裁,騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣潔分享了騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展方向以及人工智能與云技術(shù)的融合。

每日數(shù)據(jù)計(jì)算量超過(guò)30萬(wàn)億

騰訊業(yè)務(wù)部門(mén)資源與大數(shù)據(jù)平臺(tái)機(jī)器資源的結(jié)合形成了大數(shù)據(jù)全平臺(tái)計(jì)算能力。

蔣潔透露,到目前為止,計(jì)算能力資源池已達(dá)到20萬(wàn)多個(gè)單位,每天計(jì)算的實(shí)時(shí)數(shù)據(jù)超過(guò)30萬(wàn)億條。但是,一天之內(nèi)沒(méi)有取得這樣的成就。在過(guò)去的十年中,騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了三個(gè)階段:

1.離線計(jì)算

2009年1月,騰訊建立了首個(gè)Hadoop集群并開(kāi)始擴(kuò)展數(shù)據(jù)。

這是Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)結(jié)構(gòu),它實(shí)現(xiàn)了分布式文件系統(tǒng)(HDFS)。

HDFS具有較高的容錯(cuò)能力,適合在低成本硬件上部署;它提供高吞吐量以訪問(wèn)應(yīng)用程序數(shù)據(jù),適用于具有大數(shù)據(jù)集的應(yīng)用程序。

HDFS為海量數(shù)據(jù)提供存儲(chǔ),而MapReduce為海量數(shù)據(jù)提供計(jì)算能力。

2.實(shí)時(shí)計(jì)算

2012年,隨著移動(dòng)互聯(lián)網(wǎng)的爆發(fā),騰訊的大數(shù)據(jù)平臺(tái)進(jìn)入了第二階段,從Hadoop到風(fēng)靡一時(shí)的暴風(fēng)雨。

該平臺(tái)在吸收開(kāi)源技術(shù)的基礎(chǔ)上,根據(jù)業(yè)務(wù)需求進(jìn)行了重寫(xiě)。在此期間,騰訊開(kāi)始探索流計(jì)算,二級(jí)采集系統(tǒng)的構(gòu)建,并構(gòu)建企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)。

大數(shù)據(jù)平臺(tái)的在線分析和實(shí)時(shí)計(jì)算功能被廣泛應(yīng)用于實(shí)時(shí)報(bào)告,實(shí)時(shí)查詢(xún)和實(shí)時(shí)監(jiān)控等場(chǎng)景。

3.機(jī)器計(jì)算

自2015年以來(lái),為了滿足業(yè)務(wù)數(shù)據(jù)挖掘的需求,機(jī)器學(xué)習(xí)平臺(tái)的主體建設(shè)已經(jīng)開(kāi)始。從數(shù)據(jù)分析到數(shù)據(jù)挖掘的轉(zhuǎn)變是大數(shù)據(jù)平臺(tái)“智能”的體現(xiàn)。

2016年,騰訊自主研發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel專(zhuān)注于復(fù)雜的計(jì)算場(chǎng)景,可以進(jìn)行大規(guī)模的數(shù)據(jù)培訓(xùn),支持內(nèi)容推薦,廣告推薦等AI應(yīng)用場(chǎng)景。

姜潔表示,騰訊大數(shù)據(jù)平臺(tái)的開(kāi)發(fā)是一個(gè)從引入到自學(xué),從離線到實(shí)時(shí),從分析,計(jì)算再到人工智能的全方位演進(jìn)過(guò)程。借助正式的開(kāi)源資源管理平臺(tái)核心tke和分布式數(shù)據(jù)庫(kù)tbase,與開(kāi)發(fā)和計(jì)算平臺(tái)TDW,全棧機(jī)器學(xué)習(xí)平臺(tái)angel和開(kāi)源實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq一起形成了騰訊大數(shù)據(jù)開(kāi)源陣營(yíng)。事實(shí)證明,騰訊大數(shù)據(jù)平臺(tái)具有自主研發(fā)能力,已積極推廣開(kāi)源并回饋行業(yè)。

大數(shù)據(jù)平臺(tái)的新方向:融合在談到發(fā)展方向時(shí),蔣潔強(qiáng)調(diào)了“整合”這個(gè)詞。他認(rèn)為,騰訊大數(shù)據(jù)平臺(tái)正在朝著以下三個(gè)特征進(jìn)行迭代:

1.批量流集成,從批量計(jì)算和實(shí)時(shí)計(jì)算分離到SQL級(jí)別的集成,再到底層計(jì)算引擎級(jí)別和存儲(chǔ)級(jí)別的多方面技術(shù)集成;

2.ABC融合,人工智能,大數(shù)據(jù)和云的集成應(yīng)該綁定在一起。騰訊開(kāi)發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel就是一個(gè)整合案例。Angel已經(jīng)實(shí)現(xiàn)了從預(yù)處理到數(shù)據(jù)培訓(xùn)的集成。當(dāng)整個(gè)系統(tǒng)可以遷移到云中時(shí),將實(shí)現(xiàn)ABC的真正集成;

3。Data Lake實(shí)現(xiàn)了跨IDC,跨平臺(tái)和跨異構(gòu)數(shù)據(jù)源的數(shù)據(jù)共享,并通過(guò)聯(lián)合學(xué)習(xí)解決了數(shù)據(jù)共享中的數(shù)據(jù)安全性和隱私性問(wèn)題。

技術(shù)的發(fā)展并非總是一帆風(fēng)順。蔣潔說(shuō),在大數(shù)據(jù)平臺(tái)開(kāi)發(fā)階段,漏洞還很多。

在資源調(diào)度領(lǐng)域,本地Hadoop的承載規(guī)模很小,這意味著需要自行開(kāi)發(fā)的調(diào)度程序。通過(guò)自行開(kāi)發(fā)的調(diào)度程序,騰訊在2014年使Hadoop單個(gè)集群的規(guī)模達(dá)到8800,現(xiàn)在已經(jīng)超過(guò)40000。在解決了離線規(guī)模問(wèn)題之后,騰訊的大數(shù)據(jù)團(tuán)隊(duì)再次面臨著在線資源問(wèn)題。他們需要實(shí)現(xiàn)在線和離線平臺(tái)的混合部署。此過(guò)程需要更好的資源隔離,并且容器需要具有與虛擬機(jī)相同的隔離功能。同時(shí),應(yīng)該獲得在線服務(wù)的優(yōu)先級(jí)調(diào)度能力,以提高在線資源比例。

器學(xué)習(xí)平臺(tái)來(lái)解決該問(wèn)題。從一開(kāi)始,天使就支持10億個(gè)維度,并逐漸增加到1000億個(gè)。目前,天使平臺(tái)的培訓(xùn)規(guī)模已從1000億擴(kuò)大到1萬(wàn)億。

在過(guò)去的十年中,只有騰訊的大數(shù)據(jù)團(tuán)隊(duì)知道漏洞的嚴(yán)重程度。同時(shí),它們自2014年以來(lái)一直是開(kāi)源的,希望為類(lèi)似的制造商和開(kāi)發(fā)商提供可行的解決方案。

不要踩到你踩的洞

蔣潔表示,騰訊大數(shù)據(jù)平臺(tái)的基礎(chǔ)技術(shù)來(lái)自開(kāi)源。通過(guò)開(kāi)發(fā),迭代和開(kāi)源回饋社區(qū)是最好的選擇。

目前,騰訊云已經(jīng)具備了對(duì)外開(kāi)放的能力,包括存儲(chǔ)網(wǎng)絡(luò),數(shù)據(jù)庫(kù),整個(gè)大數(shù)據(jù)平臺(tái),機(jī)器學(xué)習(xí)平臺(tái)以及為SAAS和語(yǔ)音NLP服務(wù)的上層系統(tǒng)。通過(guò)云上的產(chǎn)品,企業(yè)無(wú)需專(zhuān)業(yè)的大數(shù)據(jù)和AI人才即可分析大數(shù)據(jù)。

雷鋒了解到,2014年,騰訊的第一代開(kāi)發(fā)和計(jì)算平臺(tái)TDW是開(kāi)源的。到2017年,第三代計(jì)算平臺(tái)angel也已經(jīng)開(kāi)源,并且該平臺(tái)已捐贈(zèng)給Linux基金會(huì)。到今年9月,騰訊開(kāi)放了實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq的源代碼,并將其捐贈(zèng)給Apache基金會(huì)。

會(huì)議當(dāng)天,姜潔宣布資源管理容器平臺(tái)tke和分布式數(shù)據(jù)庫(kù)tbase是開(kāi)源的。隨著大數(shù)據(jù)領(lǐng)域開(kāi)源的逐步加速,騰訊正在成為中國(guó)大數(shù)據(jù)領(lǐng)域最全面的開(kāi)源制造商之一。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶(hù)可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買(mǎi)頁(yè)直接購(gòu)買(mǎi)。
騰訊云
云服務(wù)
2024-12-152024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-252024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-042024-11-04
復(fù)雜查詢(xún)性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢(xún)性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢(xún)時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-022024-11-02
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家