大數(shù)據(jù)日志收集及智能分析
-
系統(tǒng)運行狀態(tài)和告警信息都是通過系統(tǒng)的運行日志承載的,眾多系統(tǒng)每天會生成海量的日志數(shù)據(jù),各企業(yè)將大量的日志信息遺棄或進行回檔入庫,并不能在實際的應(yīng)用系統(tǒng)管理過程中充分發(fā)揮其價值,反而成為了一種負擔。 -
數(shù)據(jù)處理按照日志數(shù)據(jù)本身的特性和管理需要進行實時和非實時的數(shù)據(jù)處理方式,實現(xiàn)對海量歷史數(shù)據(jù)的和實時數(shù)據(jù)的分析,協(xié)助系統(tǒng)管理人員實現(xiàn)對應(yīng)用系統(tǒng)運行過程中出現(xiàn)的各種問題的敏捷洞察,快速定位及排障,并能夠通過對歷史數(shù)據(jù)的演變過程及時發(fā)現(xiàn)未來可能出現(xiàn)的異常狀況。
通過聚類、回歸分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等算法實現(xiàn)對海量日志數(shù)據(jù)的分析可視化和深度挖掘,、完成對應(yīng)用系統(tǒng)全面監(jiān)控、預(yù)警、故障溯源、統(tǒng)計分析等功能。充分利用機器學習和人工智能分析方法,實現(xiàn)對應(yīng)用系統(tǒng)運行的趨勢分析,在容量規(guī)劃、性能優(yōu)化、客戶滿意度等方面全面發(fā)力,提升IT部門的運維管理能力,提升企業(yè)信息化管理水平。 -
在日志采集模塊針對各類應(yīng)用系統(tǒng)通過可延展的日志采集服務(wù)、從日志源采集日志。用戶只需配置源地址、目的地址、收集規(guī)則等簡單配置即可實現(xiàn)日志的高可靠、高可用采集。
采集到的日志通過日志處理模塊,通過日志接入消息服務(wù)Kafka作為消息隊列傳遞給Spark Cluster對日志數(shù)據(jù)進行計算處理,按照日志數(shù)據(jù)的采集時間分為熱數(shù)據(jù)(7~30天)、溫數(shù)據(jù)(30~90天)和冷數(shù)據(jù)(90天以上),分別、將處理后的數(shù)據(jù)寫入到ElasticSearch Cluster、Hive、HDFS中進行保存。
日志分析模塊首先通過日志數(shù)據(jù)治理模塊對數(shù)據(jù)進行清洗、規(guī)則校驗在通過高速分析引擎對日志數(shù)據(jù)進行各類分析模型進行關(guān)聯(lián)分析、故障分析、容量分析、業(yè)務(wù)支撐分析等。
在應(yīng)用與展示模塊,通過數(shù)據(jù)可視化展示模塊將告警信息、趨勢信息等各種KPI指標進行集中呈現(xiàn)。 -
全面收集企業(yè)日志數(shù)據(jù),通過關(guān)聯(lián)、聚類等算法對海量日志數(shù)據(jù)進行分析挖掘,全面提升數(shù)據(jù)的可用性、易用性。
2. 提高工作效率
對系統(tǒng)層、網(wǎng)絡(luò)層、應(yīng)用層等各層級的日志數(shù)據(jù)進行采集,實現(xiàn)了全方位日志統(tǒng)一管理,支持對各種精確和模糊查詢;根據(jù)運維規(guī)范和業(yè)務(wù)管理規(guī)范形成了多維度的數(shù)據(jù)分析,對已知關(guān)注的KPI指標進行直接的呈現(xiàn)。
3. 全面的數(shù)據(jù)可視化
提供故障分析、業(yè)務(wù)鏈路分析、安全評估分析、容量規(guī)劃分析、趨勢預(yù)警分析等各類直觀的可視化圖表,各種情況直觀呈現(xiàn),極大提升管理效率。
4. 提升運營管理能力
通過對日志數(shù)據(jù)的管理和挖掘,發(fā)揮其最大價值,并可以根據(jù)實際使用情況不斷演進,合理制定企業(yè)IT發(fā)展戰(zhàn)略。