原文:

       AIOps指多層技術(shù)平臺,這些平臺采用分析和機器學(xué)習(xí)技術(shù)分析從多種IT運營工具和設(shè)備收集的大數(shù)據(jù),智能運維 aiops自動實時確定并應(yīng)對問題,從而實現(xiàn)IT運營的自動化和增強。

       Gartner預(yù)測,我們會看到當(dāng)前的IT應(yīng)用程序會發(fā)生劇變,而且我們管理整個IT生態(tài)系統(tǒng)的方式也會改變。這些變化的關(guān)鍵是Gartner所稱的AIOps平臺。

今天,ServiceHot為大家分享的是什么是AIOps,以及推動其發(fā)展的力量有哪些。
1、數(shù)字化轉(zhuǎn)型

     了解數(shù)字化轉(zhuǎn)型如何引發(fā)Gartner的AIOps平臺出現(xiàn)非常重要。數(shù)字化轉(zhuǎn)型包含云計算的采用、快速變更和新技術(shù)的實施。它還要求將關(guān)注的重心轉(zhuǎn)向應(yīng)用和開發(fā)人員,更快地開展創(chuàng)新和部署,并且贏得新的數(shù)字化用戶–機器代理、物聯(lián)網(wǎng) (IOT) 設(shè)備、應(yīng)用編程接口 (API) 等–而企業(yè)過去無需為這些用戶服務(wù)。所有這些新技術(shù)和用戶將傳統(tǒng)性能和服務(wù)管理戰(zhàn)略與工具推到了其能力極限。

Gartner采用AIOps一詞描述應(yīng)對這些數(shù)字化轉(zhuǎn)型問題所需的IT運營描述變化。

2、什么AIOps?

       AIOps指多層技術(shù)平臺,這些平臺采用分析和機器學(xué)習(xí)技術(shù)分析從多種IT運營工具和設(shè)備收集的大數(shù)據(jù),智能運維 aiops自動實時確定并應(yīng)對問題,從而實現(xiàn)IT運營的自動化和增強。

    簡單的說,AIOps就是指IT運營分析和管理(ITOA/ITOM)體系與大數(shù)據(jù)和人工智能技術(shù)結(jié)合的產(chǎn)物。

       Gartner解釋了AIOps平臺如何采用圖1所示模式而運行。AIOps包含兩個主要組件:大數(shù)據(jù)和機器學(xué)習(xí)。它要求摒棄孤立的IT數(shù)據(jù),以整合觀測數(shù)據(jù)(例如在監(jiān)控系統(tǒng)和工作日志中發(fā)現(xiàn)的數(shù)據(jù))和大數(shù)據(jù)平臺內(nèi)部的交流數(shù)據(jù)(通常存在于工作單、事故和事件記錄中)。

       然后,AIOps自動化運維針對匯總的IT數(shù)據(jù)實施一種綜合的分析和機器學(xué)習(xí) (ML) 戰(zhàn)略。這樣做的預(yù)期成效是獲得持續(xù)的洞察力,進而采用自動化能力實現(xiàn)持續(xù)改進和修復(fù)。AIOps可視為核心IT功能的持續(xù)集成和部署 (CI/CD)。


3、AIOps業(yè)務(wù)價值描述

AIOps工具平臺是AI人工智能與傳統(tǒng)IT運營的融合,當(dāng)AI的強大功能應(yīng)用于IT數(shù)據(jù)中心運營管理時,它將徹底重新定義基礎(chǔ)架構(gòu)管理方式。 比如:

  • >容量管理和規(guī)劃

  • >資源配置管理

  • >異常檢測

  • >風(fēng)險監(jiān)控與報警

  • >數(shù)據(jù)分析與預(yù)測

4、AIOPS發(fā)展趨勢

基于ServiceHot解決方案團隊經(jīng)驗、訪談、觀察、思考和實踐得出的AIOps發(fā)展趨勢,即行業(yè)多樣化、產(chǎn)業(yè)生態(tài)化、數(shù)據(jù)多樣化、場景多樣化、場景精細化、算法服務(wù)化、技術(shù)平臺化、落地加速化、成熟度評估的標(biāo)準(zhǔn)化。


趨勢一:落地的多樣化

多種渠道采集到的信息清楚表明:現(xiàn)在開始落地AIOps的,除了互聯(lián)網(wǎng)公司、銀行以外,證券、保險,電力、運營商、工業(yè)制造、國家機關(guān)、自動駕駛公司也都在嘗試AIOps落地。

趨勢二:產(chǎn)業(yè)生態(tài)化

“產(chǎn)、學(xué)、研、用”各方也都在積極跟進,形成了一個AIOps生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)里,專業(yè)的人負(fù)責(zé)專業(yè)的事,有越來越多的學(xué)術(shù)機構(gòu)從事AIOps原理研究;由機構(gòu)用戶負(fù)責(zé)提出實際需求,由有預(yù)研能力的廠商把AIOps原理上的突破變成實際落地效果;有負(fù)責(zé)數(shù)據(jù)采集、接入、存儲等的廠商,還有負(fù)責(zé)集成、交付、維保等的廠商。也就是說,“學(xué)、研、產(chǎn)、用”幾方專業(yè)分工,通力協(xié)作。AIOps產(chǎn)業(yè)生態(tài)化在AIOps落地過程中是一個重要的里程碑,會大力推動AIOps的更快落地。

趨勢三:數(shù)據(jù)多樣化

數(shù)據(jù)中心的系統(tǒng)物理架構(gòu)和軟件架構(gòu)都非常龐大復(fù)雜。因此我們必須采集、治理、融合多種運維數(shù)據(jù)源、從中提取對運維最有用的信息,幫助我們了解數(shù)據(jù)中心最新最全的運行狀態(tài), 從而為AIOps的眾多場景服務(wù)。因此我們說AIOps數(shù)據(jù)多樣化是必然趨勢。

趨勢四:是AIOps場景多樣化

aiops幾個大場景:即異常發(fā)現(xiàn)、事件發(fā)現(xiàn)、事件分析、系統(tǒng)畫像、圖譜豐富等。每一個大場景會包含很多的具體場景,比如“事件分析”大場景就包括“異常機器定位”、“交易鏈條定位”、“多維度異常定位”等多種類型的事件分析。也就是說,當(dāng)用戶認(rèn)識到AIOps能實際幫助到運維的時候,會自發(fā)與生態(tài)系統(tǒng)中的伙伴共同找到越發(fā)多樣化的AIOps場景。

趨勢五:是AIOps場景精細化

如下圖所示,異常檢測(也就是通過分析監(jiān)控數(shù)據(jù)自動發(fā)現(xiàn)運維故障)就包含單指標(biāo)異常檢測、多指標(biāo)異常檢測、多維度異常檢測、日志異常檢測等等。而單指標(biāo)異常檢測在檢測業(yè)務(wù)、機器、網(wǎng)絡(luò)、數(shù)據(jù)庫、存儲系統(tǒng)、批處理的異常時,其場景和檢測側(cè)重點會有所不同,因此需要針對精細化的具體場景進行AIOps異常檢測算法的適當(dāng)調(diào)整或適配。

第六個趨勢:就是AIOps算法服務(wù)化

為了避免AIOps場景多樣化和精細化導(dǎo)致的落地工作量增加,我們必須把各類場景用到的AIOps算法共性部分抽象提煉出來作為公用模塊,為多個場景服務(wù)。如下圖所示,從日志數(shù)據(jù)測量出的指標(biāo)數(shù)據(jù)的異常檢測,就可以復(fù)用單指標(biāo)異常檢測這一算法模塊,并且這一算法模塊已經(jīng)服務(wù)化,即可以通過API直接調(diào)用。

第七個趨勢:即AIOps自動化運維技術(shù)平臺化

AIOps技術(shù)平臺化打穿多個場景、多個數(shù)據(jù)源、多個算法。如下圖所示,上面輸入的是各種運維監(jiān)控數(shù)據(jù),輸出的就是我們所需要的各種運維智能,中間是各種服務(wù)化的AIOps算法。不管具體的某個運維場景有什么樣的特點,我們都可以通過整體平臺進行自由組合和編排,從而高效落地該運維場景,避免傳統(tǒng)方法的重復(fù)低效落地。

趨勢八:AIOps新算法落地加速化

以往一個新算法研制出來后,需要大量的工程工作配合才能讓新算法產(chǎn)生實際效果。有了平臺化之后,只需要通過編排把該新算法、新算法所需數(shù)據(jù)、已有工程工作“串”在一起,就能夠快速落地。比如做了一個0day攻擊檢測算法ZeroWall,我們在一家具體機構(gòu)進行嘗試的時候,一周內(nèi)捕獲28種0day攻擊,每天捕獲上萬條0day攻擊,每天誤報數(shù)0到6個。如果按照以往方法,我們要花大量的時間去做ZeroWall的落地工作,而有了AIOps平臺化, ZeroWall的落地工作就快了很多。

趨勢九:AIOps和超自動化

超自動化被Gartner引用為2021年的領(lǐng)先技術(shù)趨勢之一,它融合了機器人流程自動化(RPA),人工智能,機器學(xué)習(xí),業(yè)務(wù)流程管理(BPM)和高級分析功能,以使進入的業(yè)務(wù)流程實現(xiàn)自動化。隨著大小企業(yè)加快其數(shù)字化轉(zhuǎn)型計劃,超級自動化已成為使人類智能與AI保持一致的一種手段-一種周期性的伙伴關(guān)系,這種協(xié)作可以看到由數(shù)據(jù)饋送的任務(wù)的自動化,從而幫助人類做出有意義的決策和提高生產(chǎn)力。


5、AIOps 自動化運維 與 ITSM

AIOps工具是運維人員不可缺少的工具,在IT服務(wù)管理體系中,充當(dāng)運維和工程師的眼睛,他可以主動發(fā)現(xiàn)基礎(chǔ)架構(gòu)和系統(tǒng)底層已經(jīng)出現(xiàn)或者即將出現(xiàn)的問題,(避免在客戶投訴時才發(fā)現(xiàn)問題)從而使得運維管理更加主動。

image

在ServiceHot ITSM一體化IT服務(wù)運營管理解決方案中,您可以選購智能監(jiān)控管理模塊,打通設(shè)備、服務(wù)臺、工程師之間的最后一公里,使得發(fā)現(xiàn)的問題都能及時傳到到相關(guān)負(fù)責(zé)人手上,并且確保在服務(wù)級別要求的時間內(nèi)解決處理,確保IT服務(wù)的可用性、連續(xù)性,充分體現(xiàn)IT管理價值。