大數(shù)據(jù)驅(qū)動(dòng)IT運(yùn)營(yíng)分析
點(diǎn)擊:1846
A+ A-
所屬頻道:新聞中心
一、傳統(tǒng)日志處理技術(shù)困境
圖1 傳統(tǒng)日志處理技術(shù)困境
如上圖所示,面對(duì)海量機(jī)器數(shù)據(jù),傳統(tǒng)的日志處理技術(shù)存在較多問題的,可以歸納為以下幾點(diǎn):
1) 數(shù)據(jù)孤島。在傳統(tǒng)日志處理系統(tǒng)中,各設(shè)備/系統(tǒng)的日志數(shù)據(jù)是孤立、分散存儲(chǔ)在不同系統(tǒng)中的,不同系統(tǒng)的日志數(shù)據(jù)無法進(jìn)行關(guān)聯(lián)和發(fā)現(xiàn)共性。在定位分析問題時(shí),系統(tǒng)管理員往往需要多次登陸不同系統(tǒng),使用簡(jiǎn)易的腳本命令或程序查看日志數(shù)據(jù),操作繁瑣,并且容易出錯(cuò)。如何解決機(jī)器數(shù)據(jù)統(tǒng)一存儲(chǔ)和管理問題?
2) 海量存儲(chǔ)。傳統(tǒng)日志處理系統(tǒng)采用關(guān)系型數(shù)據(jù)庫,無法適應(yīng)TB/PB級(jí)機(jī)器數(shù)據(jù)存儲(chǔ)和快速訪問性能要求,也不適合處理以非結(jié)構(gòu)化類型為主的機(jī)器數(shù)據(jù)。如何解決海量非結(jié)構(gòu)化機(jī)器數(shù)據(jù)低成本存儲(chǔ)和持續(xù)可擴(kuò)展性問題?
3) 全文檢索。傳統(tǒng)日志處理系統(tǒng)無法實(shí)現(xiàn)從非結(jié)構(gòu)化的機(jī)器數(shù)據(jù)全文中快速查找相關(guān)匹配信息。如何實(shí)現(xiàn)問題快速查找、定位和回溯?
4) 價(jià)值發(fā)掘。傳統(tǒng)日志處理系統(tǒng)在數(shù)據(jù)存儲(chǔ)、快速計(jì)算、全文檢索等方面存在諸多限制,同時(shí)也限制了對(duì)機(jī)器數(shù)據(jù)的新價(jià)值挖掘。如何快速實(shí)現(xiàn)對(duì)來源不同的機(jī)器數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析和機(jī)器學(xué)習(xí),發(fā)掘新的數(shù)據(jù)價(jià)值,如:總體態(tài)勢(shì)、趨勢(shì)分析、異常預(yù)測(cè)等,并通過可視化圖表和儀表盤進(jìn)行直觀呈現(xiàn)?
當(dāng)前,大數(shù)據(jù)技術(shù)可以很好地解決傳統(tǒng)日志系統(tǒng)存在的諸多問題。
二、大數(shù)據(jù)技術(shù)用于ITOA
圖2 大數(shù)據(jù)應(yīng)用于ITOA
如圖2所示,IT系統(tǒng)中的存儲(chǔ)、服務(wù)器、數(shù)據(jù)庫、中間件、操作系統(tǒng)、網(wǎng)絡(luò)、安全、虛擬機(jī)、應(yīng)用等所有部件的機(jī)器數(shù)據(jù),如:日志、配置、事件、告警等,都可以統(tǒng)一采集和存儲(chǔ)到一個(gè)大數(shù)據(jù)平臺(tái),進(jìn)行統(tǒng)一管理、檢索和分析。大數(shù)據(jù)技術(shù)采用分布式存儲(chǔ),基于X86服務(wù)器集群及橫向擴(kuò)展能力,可以提供海量的、低成本的存儲(chǔ)能力,為統(tǒng)一數(shù)據(jù)管理,打破數(shù)據(jù)孤島提供基本的技術(shù)能力;同時(shí),通過Hadoop并行處理框架對(duì)海量數(shù)據(jù)進(jìn)行快速數(shù)據(jù)計(jì)算,通過ElasticSearch對(duì)非結(jié)構(gòu)化數(shù)據(jù)提供一個(gè)分布式全文檢索引擎,可支持快速全文檢索、數(shù)據(jù)關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)挖掘等價(jià)值變現(xiàn)能力。
三、新華三IT大數(shù)據(jù)
圖3 IT大數(shù)據(jù)技術(shù)架構(gòu)
IT大數(shù)據(jù)是一款針對(duì)數(shù)據(jù)中心推出的大數(shù)據(jù)應(yīng)用系統(tǒng),基于分布式處理架構(gòu),通過對(duì)日志數(shù)據(jù)、傳感數(shù)據(jù)、安全事件、KPI指標(biāo)、網(wǎng)絡(luò)數(shù)據(jù)等機(jī)器數(shù)據(jù)進(jìn)行統(tǒng)一采集、解析、存儲(chǔ)和管理,提供全文檢索、機(jī)器學(xué)習(xí)、關(guān)聯(lián)分析、可視化圖表、監(jiān)控告警等功能,幫助用戶獲得海量機(jī)器數(shù)據(jù)有價(jià)值的信息。IT大數(shù)據(jù)由大數(shù)據(jù)平臺(tái)、數(shù)據(jù)采集、應(yīng)用適配、IT大數(shù)據(jù)應(yīng)用和運(yùn)維管理等五個(gè)部分組成。
1.大數(shù)據(jù)平臺(tái)
大數(shù)據(jù)平臺(tái)基于分布式計(jì)算框架Hadoop/Spark和分布式檢索引擎ElasticSearch混合架構(gòu)。
ElasticSearch是當(dāng)前流行的企業(yè)級(jí)全文檢索引擎,其特點(diǎn)包括:支持JOSN進(jìn)行數(shù)據(jù)索引、支持RESTful檢索引擎接口、基于Lucene全文檢索引擎等。ElasticSearch提供分布式檢索引擎架構(gòu),基于X86服務(wù)器及本地硬盤,可以橫向擴(kuò)展集群節(jié)點(diǎn)到上千臺(tái),存儲(chǔ)和處理PE/EB索引數(shù)據(jù)。ElasticSearch支持索引數(shù)據(jù)分塊和多副本機(jī)制,副本分布存儲(chǔ)在集群的不同節(jié)點(diǎn),可提供分布式處理能力,并支持索引數(shù)據(jù)的冗余備份機(jī)制。
IT大數(shù)據(jù)對(duì)Hadoop/Spark和ElasticSearch進(jìn)行深度混合應(yīng)用,ElasticSearch作為數(shù)據(jù)源,Hadoop/Spark作為執(zhí)行引擎,通過實(shí)現(xiàn)Hadoop和ElasticSearch之間的輸入/輸出,可以在Hadoop/Spark里面對(duì)ElasticSearch集群的數(shù)據(jù)進(jìn)行讀取和寫入,充分發(fā)揮Hadoop/Spark并行處理的優(yōu)勢(shì),為Hadoop/Spark數(shù)據(jù)帶來實(shí)時(shí)全文搜索能力。
2.數(shù)據(jù)采集
針對(duì)數(shù)據(jù)中心機(jī)器數(shù)據(jù)來源的多樣性,IT大數(shù)據(jù)實(shí)現(xiàn)了多種數(shù)據(jù)采集方式,對(duì)網(wǎng)絡(luò)、安全、服務(wù)器、存儲(chǔ)等日志數(shù)據(jù),通過配置和監(jiān)聽UDP端口采集;對(duì)主機(jī)性能、應(yīng)用性能、數(shù)據(jù)庫日志等數(shù)據(jù),通過在客戶端安裝探針進(jìn)行采集。
機(jī)器數(shù)據(jù)是基于時(shí)間序列生成的非結(jié)構(gòu)化數(shù)據(jù),無標(biāo)準(zhǔn)格式,不同廠家的設(shè)備/系統(tǒng)格式都不一樣,IT大數(shù)據(jù)支持自定義解析規(guī)則,可以兼容任意廠家的機(jī)器數(shù)據(jù)格式。
利用Kafaka+Storm/Stream組件對(duì)數(shù)據(jù)進(jìn)行接收、解析和加載等進(jìn)行分布式處理,可以大幅提升數(shù)據(jù)采集性能,支持多達(dá)數(shù)十萬個(gè)數(shù)據(jù)源并行采集。
3.應(yīng)用適配
通過IT大數(shù)據(jù)提供的應(yīng)用適配功能,用戶可以快速生成所需的場(chǎng)景化應(yīng)用。
全文檢索功能能夠幫助用戶快速查詢所需要全文信息,用于問題查找、定位和回溯等,用戶可以自定義檢索條件,包括模糊查詢、優(yōu)先級(jí)、操作符(AND、OR、NOT、+、-),可定義查詢索引表組合和范圍,可自定義報(bào)表字段以及時(shí)間序列等。
可視化圖表對(duì)檢索或分析結(jié)果進(jìn)行可視化展示,圖表類型豐富,包括:折線圖、面積圖、餅圖、地圖、區(qū)域圖、表格、曲線圖、柱狀圖、雷達(dá)圖、標(biāo)簽云、?;鶊D、時(shí)間軸、熱力圖、雷達(dá)圖、雷達(dá)掃描圖等,多個(gè)圖表可以組成主題儀表盤。
使用監(jiān)控告警功能,可以對(duì)異常分析結(jié)果進(jìn)行告警,并通過email、聲音提醒、web通知等方式通知用戶。
4.IT大數(shù)據(jù)應(yīng)用
IT大數(shù)據(jù)應(yīng)用可以分以下幾種類型,包括:
主題統(tǒng)計(jì)/分析類型。基于某個(gè)主題,對(duì)相關(guān)機(jī)器數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,生成可視化報(bào)告。例如:IT態(tài)勢(shì)感知,對(duì)IT系統(tǒng)中整體信息進(jìn)行分析、統(tǒng)計(jì),實(shí)時(shí)監(jiān)控IT系統(tǒng)的整體健康狀況;網(wǎng)絡(luò)安全態(tài)勢(shì)主題,對(duì)IT系統(tǒng)中所有安全相關(guān)的信息進(jìn)行分析和統(tǒng)計(jì),監(jiān)控整個(gè)網(wǎng)絡(luò)的安全動(dòng)態(tài);無線軌跡態(tài)勢(shì)主題,對(duì)智能終端軌跡數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì),監(jiān)控整個(gè)熱點(diǎn)區(qū)域軌跡態(tài)勢(shì),并對(duì)重點(diǎn)軌跡行為進(jìn)行分析。
異常查找/定位類型。通過全文檢索功能,根據(jù)異常的特征,從整個(gè)IT系統(tǒng)機(jī)器數(shù)據(jù)中查找/定位所有相關(guān)信息,描繪異常發(fā)生的路徑,回溯異常發(fā)生的源頭。例如:故障快速定位/異常行為追蹤,按故障/異常的特征進(jìn)行全文檢索,能夠檢索出故障/異常發(fā)生的所有相關(guān)設(shè)備、時(shí)間、路徑和源頭,并通過可視化圖表進(jìn)行展示。
趨勢(shì)研判/預(yù)測(cè)類型。對(duì)系統(tǒng)內(nèi)相關(guān)樣本數(shù)據(jù)采用機(jī)器學(xué)習(xí)算法訓(xùn)練出相關(guān)模型,能夠?qū)μ卣餍袨檫M(jìn)行預(yù)測(cè)和趨勢(shì)分析。例如:網(wǎng)絡(luò)流量預(yù)測(cè),通過采集大量的樣本數(shù)據(jù),通過時(shí)間序列和流量等關(guān)鍵特征訓(xùn)練建模,能夠預(yù)測(cè)未來實(shí)際網(wǎng)絡(luò)流量的流向、大小等趨勢(shì)。
5. 運(yùn)維管理
運(yùn)維管理部分實(shí)行對(duì)IT大數(shù)據(jù)集群的安裝部署、運(yùn)維監(jiān)控、單點(diǎn)登錄、用戶管理、權(quán)限管理和安全審計(jì)等系統(tǒng)功能,為用戶使用IT大數(shù)據(jù)系統(tǒng)提供基本管理。
四、結(jié)束語
移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、SaaS等新技術(shù)的快速發(fā)展,驅(qū)動(dòng)IT運(yùn)營(yíng)由過去的支撐系統(tǒng)向價(jià)值創(chuàng)造的生產(chǎn)系統(tǒng)轉(zhuǎn)變。IT大數(shù)據(jù)能夠最大程度地解決了現(xiàn)代數(shù)據(jù)中心的管理矛盾問題,滿足了云計(jì)算、大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)中心環(huán)境整體監(jiān)控、運(yùn)維管理、分析預(yù)測(cè)等要求,幫助用戶極大地提高數(shù)據(jù)中心的可用性、可維護(hù)性和工作效率,同時(shí)大幅降低運(yùn)維管理成本,為數(shù)據(jù)中心的運(yùn)營(yíng)分析帶來巨大的應(yīng)用價(jià)值。
(審核編輯: 智匯小新)