首頁-人工智能- 大數(shù)據(jù)日志收集及智能分析

  • 背景

    隨著企業(yè)信息化的長期發(fā)展和建設(shè),在每個成熟領(lǐng)域均出現(xiàn)了大量的應(yīng)用系統(tǒng),信息化系統(tǒng)已經(jīng)成為企業(yè)的命脈,是企業(yè)生成和發(fā)展密不可分的一部分。其要求的業(yè)務(wù)聯(lián)系性等級越來越高、故障回復(fù)時間越來越短,尤其伴隨互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,對系統(tǒng)異常的容忍度也越來越低,這就要求IT部門從上層的業(yè)務(wù)應(yīng)用到底層的基礎(chǔ)設(shè)施都要做到全面的掌控,并能夠及時的發(fā)現(xiàn)和解決問題。

    系統(tǒng)運行狀態(tài)和告警信息都是通過系統(tǒng)的運行日志承載的,眾多系統(tǒng)每天會生成海量的日志數(shù)據(jù),各企業(yè)將大量的日志信息遺棄或進行回檔入庫,并不能在實際的應(yīng)用系統(tǒng)管理過程中充分發(fā)揮其價值,反而成為了一種負擔。
  • 解決方案

    基于大數(shù)據(jù)平臺技術(shù)構(gòu)建統(tǒng)一的應(yīng)用系統(tǒng)日志數(shù)據(jù)集市,充分利用大數(shù)據(jù)平臺特性將企業(yè)內(nèi)眾多格式多樣和不統(tǒng)一的日志數(shù)據(jù)源全部進行采集,并集中存儲于大數(shù)據(jù)平臺,包括:系統(tǒng)日志、網(wǎng)絡(luò)日志、安全日志、應(yīng)用系統(tǒng)運行日志、操作行為日志等等。

    數(shù)據(jù)處理按照日志數(shù)據(jù)本身的特性和管理需要進行實時和非實時的數(shù)據(jù)處理方式,實現(xiàn)對海量歷史數(shù)據(jù)的和實時數(shù)據(jù)的分析,協(xié)助系統(tǒng)管理人員實現(xiàn)對應(yīng)用系統(tǒng)運行過程中出現(xiàn)的各種問題的敏捷洞察,快速定位及排障,并能夠通過對歷史數(shù)據(jù)的演變過程及時發(fā)現(xiàn)未來可能出現(xiàn)的異常狀況。

    通過聚類、回歸分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)等算法實現(xiàn)對海量日志數(shù)據(jù)的分析可視化和深度挖掘,、完成對應(yīng)用系統(tǒng)全面監(jiān)控、預(yù)警、故障溯源、統(tǒng)計分析等功能。充分利用機器學習和人工智能分析方法,實現(xiàn)對應(yīng)用系統(tǒng)運行的趨勢分析,在容量規(guī)劃、性能優(yōu)化、客戶滿意度等方面全面發(fā)力,提升IT部門的運維管理能力,提升企業(yè)信息化管理水平。
  • 系統(tǒng)架構(gòu)

    基礎(chǔ)數(shù)據(jù)平臺基于大數(shù)據(jù)平臺框架,在深度學習、人工智能算法、分布式日子服務(wù)等方面提供基礎(chǔ)功能模塊支撐。

    在日志采集模塊針對各類應(yīng)用系統(tǒng)通過可延展的日志采集服務(wù)、從日志源采集日志。用戶只需配置源地址、目的地址、收集規(guī)則等簡單配置即可實現(xiàn)日志的高可靠、高可用采集。

    采集到的日志通過日志處理模塊,通過日志接入消息服務(wù)Kafka作為消息隊列傳遞給Spark Cluster對日志數(shù)據(jù)進行計算處理,按照日志數(shù)據(jù)的采集時間分為熱數(shù)據(jù)(7~30天)、溫數(shù)據(jù)(30~90天)和冷數(shù)據(jù)(90天以上),分別、將處理后的數(shù)據(jù)寫入到ElasticSearch Cluster、Hive、HDFS中進行保存。

    日志分析模塊首先通過日志數(shù)據(jù)治理模塊對數(shù)據(jù)進行清洗、規(guī)則校驗在通過高速分析引擎對日志數(shù)據(jù)進行各類分析模型進行關(guān)聯(lián)分析、故障分析、容量分析、業(yè)務(wù)支撐分析等。

    在應(yīng)用與展示模塊,通過數(shù)據(jù)可視化展示模塊將告警信息、趨勢信息等各種KPI指標進行集中呈現(xiàn)。
  • 方案價值

    1. 充分發(fā)掘數(shù)據(jù)價值
    全面收集企業(yè)日志數(shù)據(jù),通過關(guān)聯(lián)、聚類等算法對海量日志數(shù)據(jù)進行分析挖掘,全面提升數(shù)據(jù)的可用性、易用性。
    2. 提高工作效率
    對系統(tǒng)層、網(wǎng)絡(luò)層、應(yīng)用層等各層級的日志數(shù)據(jù)進行采集,實現(xiàn)了全方位日志統(tǒng)一管理,支持對各種精確和模糊查詢;根據(jù)運維規(guī)范和業(yè)務(wù)管理規(guī)范形成了多維度的數(shù)據(jù)分析,對已知關(guān)注的KPI指標進行直接的呈現(xiàn)。
    3. 全面的數(shù)據(jù)可視化
    提供故障分析、業(yè)務(wù)鏈路分析、安全評估分析、容量規(guī)劃分析、趨勢預(yù)警分析等各類直觀的可視化圖表,各種情況直觀呈現(xiàn),極大提升管理效率。
    4. 提升運營管理能力
    通過對日志數(shù)據(jù)的管理和挖掘,發(fā)揮其最大價值,并可以根據(jù)實際使用情況不斷演進,合理制定企業(yè)IT發(fā)展戰(zhàn)略。