一、培訓對象
二、培訓目標
-
掌握AIOps平臺的核心功能架構與數(shù)據(jù)流轉機制
-
能夠獨立進行告警降噪、異常檢測、根因分析等智能運維操作
-
掌握平臺規(guī)則與算法參數(shù)的調優(yōu)方法,降低誤報與漏報率
-
結合業(yè)務場景設計智能運維策略,提升故障發(fā)現(xiàn)與定位效率
三、培訓內容
一、AIOps平臺整體架構與核心概念
講解AIOps平臺的數(shù)據(jù)接入層、算法引擎層、可視化層,以及指標、日志、調用鏈三大數(shù)據(jù)源在平臺中的融合方式。
二、平臺安裝部署與基礎配置
演示典型AIOps平臺(如騰訊云AIOps、阿里云SmartOps或開源平臺)的環(huán)境準備、組件部署、基礎賬號與權限配置。
三、數(shù)據(jù)源接入與管理
學習如何接入Prometheus、Elasticsearch、Jaeger等系統(tǒng)的數(shù)據(jù),配置數(shù)據(jù)清洗標簽、時間對齊與缺失值處理策略。
四、智能告警與靜默降噪配置
講解基于時間序列的告警聚合、依賴關系靜默、告警風暴抑制等策略,以及動態(tài)閾值與靜態(tài)閾值的適用場景。
五、異常檢測算法原理與參數(shù)調優(yōu)
針對波動性檢測、周期性檢測、同比環(huán)比檢測等算法,講解敏感度、窗口長度、置信度等關鍵參數(shù)的調優(yōu)方法。
六、根因分析功能的使用
通過調用鏈與拓撲關系,學習如何快速定位故障的“源頭服務”或“底層資源”,并驗證分析結果的有效性。
七、日志智能分析與模式聚類
訓練平臺自動識別高頻日志模板,提取異常日志模式,并與告警或變更事件進行關聯(lián)。
八、預測性容量分析
利用歷史時序數(shù)據(jù)預測未來若干時間段的CPU、內存、磁盤使用趨勢,并設置主動預警條件。
九、事件自動診斷腳本與執(zhí)行
配置故障觸發(fā)后的自動診斷Action(如抓堆棧、查連接數(shù)、執(zhí)行自愈腳本),并控制執(zhí)行范圍與熔斷機制。
十、平臺健康度自監(jiān)控與巡檢
學習查看AIOps組件自身的運行狀態(tài)、數(shù)據(jù)延遲、算法執(zhí)行耗時等內部監(jiān)控項,保證平臺穩(wěn)定。
十一、算法模型版本管理與效果評估
介紹如何對比不同算法版本的F1分數(shù)、誤報率、召回率,并完成模型熱更新或回滾。
十二、典型業(yè)務場景實戰(zhàn)演練
結合電商大促、微服務雪崩、數(shù)據(jù)庫連接池泄漏等場景,從接到告警到根因輸出的全流程演練。
如果您想學習本課程,請
預約報名
如果沒找到合適的課程或有特殊培訓需求,請
訂制培訓
除培訓外,同時提供相關技術咨詢與技術支持服務,有需求請發(fā)需求表到郵箱soft@info-soft.cn,或致電4007991916
技術服務需求表點擊在線申請
服務特點:
海量專家資源,精準匹配相關行業(yè),相關項目專家,針對實際需求,顧問式咨詢,互動式授課,案例教學,小班授課,實際項目演示,快捷高效,省時省力省錢。
專家力量:
中國科學院軟件研究所,計算研究所高級研究人員
oracle,微軟,vmware,MSC,Ansys,candence,Altium,達索等大型公司高級工程師,項目經(jīng)理,技術支持專家
中科信軟培訓中心,資深專家或講師
大多名牌大學,碩士以上學歷,相關技術專業(yè),理論素養(yǎng)豐富
多年實際項目經(jīng)歷,大型項目實戰(zhàn)案例,熱情,樂于技術分享
針對客戶實際需求,案例教學,互動式溝通,學有所獲