隨著大數(shù)據(jù)時代的到來,各大互聯(lián)網(wǎng)公司對于數(shù)據(jù)的重視程度前所未有,各種業(yè)務(wù)對數(shù)據(jù)的依賴也越來越重。有一種觀點認(rèn)為大數(shù)據(jù)存在“3V”特性:Volume,Velocity,Variety。這三個“V”表明大數(shù)據(jù)的三方面特征:量大,實時和多樣。這三個主要特征對數(shù)據(jù)采集系統(tǒng)的影響尤為突出。多種多樣的數(shù)據(jù)源,海量的數(shù)據(jù)以及實時高效的采集是數(shù)據(jù)采集系統(tǒng)主要面對的幾個問題。
我們想要在數(shù)據(jù)上創(chuàng)造價值,首先要解決數(shù)據(jù)獲取的問題。因為在互聯(lián)網(wǎng)發(fā)展中,企業(yè)內(nèi)或不同企業(yè)之間建立了各種不同的業(yè)務(wù)系統(tǒng),這些系統(tǒng)產(chǎn)生的數(shù)據(jù)也都是互不相通的,要想實現(xiàn)數(shù)據(jù)的互通與融合,在數(shù)據(jù)的獲取與處理上就需要下很大功夫。
01.
騰訊云CKafka重磅上線DataHub
騰訊云消息隊列CKafka正式上線數(shù)據(jù)中心接入服務(wù)模塊DataHub。DataHub具有強大的數(shù)據(jù)接入及分析處理的功能,可以從App、Web、MongoDB等數(shù)據(jù)源中進行持續(xù)不斷的數(shù)據(jù)采集,存儲和處理,并得到各種實時的數(shù)據(jù)處理結(jié)果,可用于日志分析、網(wǎng)頁活動追蹤、IoT分析應(yīng)用等。
現(xiàn)今數(shù)據(jù)處理系統(tǒng)大體上可分為離線處理系統(tǒng)和在線處理系統(tǒng)。CKafka推出Datahub數(shù)據(jù)中心接入服務(wù)模塊,負責(zé)直接從業(yè)務(wù)數(shù)據(jù)源獲取數(shù)據(jù),進行一些數(shù)據(jù)預(yù)處理工作,分發(fā)給離線/在線處理平臺,構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同業(yè)務(wù)側(cè)的數(shù)據(jù)源解耦。
02.
DataHub產(chǎn)品優(yōu)勢
DataHub基于CKafka的數(shù)據(jù)處理能力,具有高穩(wěn)定、實時性、高擴展性、高安全性等優(yōu)勢:
·高穩(wěn)定
基于消息隊列CKafka分布式的部署,穩(wěn)定性有很好的保障。
·實時性
數(shù)據(jù)采集實時高效的同時還可以進行實時處理。
·高擴展性
支持集群水平擴容,實例無縫升配,底層系統(tǒng)根據(jù)業(yè)務(wù)規(guī)模自動彈性伸縮,上層業(yè)務(wù)無感知。
·高安全性
不同租戶間網(wǎng)絡(luò)隔離,實例的網(wǎng)絡(luò)訪問在賬戶間天然隔離。支持管理流的CAM鑒權(quán)及數(shù)據(jù)流的SASL權(quán)限控制,嚴(yán)格控制訪問權(quán)限。
·上下游生態(tài)融合
支持與EMR、COS、容器、流計算、云函數(shù)、日志服務(wù)等13+云上產(chǎn)品資源,實現(xiàn)快速一鍵部署。
·統(tǒng)一運維監(jiān)控
提供騰訊云平臺整套的運維服務(wù),包括租戶隔離、權(quán)限控制、消息堆積查詢、消費者詳情查看等多維度監(jiān)控告警等運維服務(wù)。
03.
DataHub應(yīng)用價值
CKafka是一個分布式、高吞吐量、高可擴展性的消息系統(tǒng),基于發(fā)布/訂閱模式,通過消息解耦,使生產(chǎn)者和消費者異步交互,具有數(shù)據(jù)壓縮、同時支持離線和實時數(shù)據(jù)處理等優(yōu)點。DataHub作為CKafka的一個功能模塊,可以幫助用戶以CKafka為入口,通過簡單的界面化配置,即時連接到常用的數(shù)據(jù)源和接收器,打包各個場景的解決方案,實現(xiàn)實時數(shù)據(jù)通道、實時數(shù)據(jù)清洗和分析的功能。
在實際應(yīng)用中,DataHub實時接入各種數(shù)據(jù)源產(chǎn)生的不同類型的數(shù)據(jù),用戶可以將多個數(shù)據(jù)源的數(shù)據(jù)投遞到同一個Topic中,統(tǒng)一管理,經(jīng)過簡單的數(shù)據(jù)處理,并投遞到下游的數(shù)據(jù)處理系統(tǒng),形成清晰的數(shù)據(jù)流,更好地釋放數(shù)據(jù)的價值。
DataHub可以同時實現(xiàn)大數(shù)據(jù)系統(tǒng)與業(yè)務(wù)系統(tǒng)以及大數(shù)據(jù)系統(tǒng)各組件之間的解耦。
1.實時數(shù)據(jù)通道
我們都知道不同企業(yè)之間、不同業(yè)務(wù)之間數(shù)據(jù)互不相通,互不融合的數(shù)據(jù)在數(shù)據(jù)獲取、傳輸上會遇到很多問題,比如可用性差、傳輸延遲等。業(yè)務(wù)層面,也會遇到舊業(yè)務(wù)數(shù)據(jù)系統(tǒng)遷移到新系統(tǒng)、不同系統(tǒng)數(shù)據(jù)整合過程中數(shù)據(jù)不可用等問題,進而影響業(yè)務(wù)的后續(xù)進行。
為了能夠讓數(shù)據(jù)更加實時高效地融合,DataHub利用數(shù)據(jù)接入能力,使業(yè)務(wù)數(shù)據(jù)能夠?qū)崟r融合進大數(shù)據(jù)系統(tǒng),縮短數(shù)據(jù)分析周期,對于客戶來說就是實時的數(shù)據(jù)通道,那DataHub又是如何實現(xiàn)數(shù)據(jù)接入能力的呢?
從上圖可以看出,DataHub的數(shù)據(jù)源可以分為:主動上報、服務(wù)類和日志類。
·主動上報類:App、Web、游戲等;
·服務(wù)類:MongoDB、COS、MySQL等;
·日志類:容器、網(wǎng)絡(luò)流日志、CVM等。
數(shù)據(jù)接入的控制臺界面如圖所示,展示用戶建立的數(shù)據(jù)接入任務(wù)列表。
點擊列表項可以查看每一條數(shù)據(jù)接入任務(wù)的詳情,可以查看監(jiān)控。
數(shù)據(jù)接入具體操作主要分為以下兩個部分:
1.主動上報:提供SDK,使用流程如下:
·以HTTP上報為例:
任務(wù)創(chuàng)建成功后會生成接入點,后續(xù)在任務(wù)詳情中可以查看和復(fù)制該接入點。
2.異步拉取
服務(wù)類、日志類、接口類,提供完整的產(chǎn)品化配置界面,用戶無需關(guān)心底層實現(xiàn)。
·以MongoDB為例:
2.實時數(shù)據(jù)清洗和分析
DataHub接入多種不同類型的數(shù)據(jù)后,通過數(shù)據(jù)流出和數(shù)據(jù)處理,對多種數(shù)據(jù)源的數(shù)據(jù)進行實時清洗、過濾、關(guān)聯(lián)與轉(zhuǎn)換,形成統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)各數(shù)據(jù)源不同類型數(shù)據(jù)的融合。
DataHub又是如何進行數(shù)據(jù)清洗和分析處理的呢?
1.數(shù)據(jù)流出
利用云函數(shù)SCF或者sink connector,分發(fā)數(shù)據(jù)到下游的各種云產(chǎn)品。
·新建數(shù)據(jù)流出任務(wù)
點擊提交后會在數(shù)據(jù)流出任務(wù)列表增加一條記錄,可以查看任務(wù)詳情和監(jiān)控。
2.數(shù)據(jù)處理
DataHub延續(xù)了Kafka to Kafka的數(shù)據(jù)處理能力。
點擊“新建任務(wù)”,出現(xiàn)彈窗:
以上是一些簡單清洗規(guī)則界面化展示,更高級的清洗規(guī)則后續(xù)會支持編寫函數(shù)進行配置。解析模式支持JSON、分隔符、正則表達式,點擊測試可以驗證上面設(shè)置的數(shù)據(jù)處理規(guī)則。
如下圖所示,在消息隊列CKafka控制臺的側(cè)邊欄劃分為消息平臺和DataHub兩個模塊,查找使用更方便,目前DataHub已經(jīng)上線,有需要使用數(shù)據(jù)接入與數(shù)據(jù)處理分析功能需求的用戶,可以用起來啦!
未來騰訊云消息隊列產(chǎn)品的發(fā)展會在數(shù)據(jù)獲取與數(shù)據(jù)處理方向做更深的探索,也會結(jié)合上下游產(chǎn)品,為用戶提供更多符合場景的解決方案,DataHub未來可以發(fā)展為云上統(tǒng)一的數(shù)據(jù)接入服務(wù),為各數(shù)據(jù)源數(shù)據(jù)的接入、分析與處理提供更穩(wěn)定的平臺。
04.
DataHub使用咨詢
目前DataHub都已全面發(fā)布上線,前往騰訊云消息隊列Ckafka控制臺即可使用體驗。