原文:

據(jù)Gartner研究,在過去幾年內(nèi),IT運營人員 (IT Ops) 發(fā)生了巨大變化。這種變化的推動力來自于企業(yè)IT運營團隊認為傳統(tǒng)IT管理技術(shù)和方法已經(jīng)無法適應(yīng)數(shù)字化業(yè)務(wù)轉(zhuǎn)型。

Gartner預(yù)測,我們會看到當前的IT應(yīng)用程序會發(fā)生劇變,而且我們管理整個IT生態(tài)系統(tǒng)的方式也會改變。這些變化的關(guān)鍵是Gartner所稱的AIOps平臺。

AIOps是什么?

AIOps指多層技術(shù)平臺,這些平臺采用分析和機器學習技術(shù)分析從多種IT運營工具和設(shè)備收集的大數(shù)據(jù),自動實時確定并應(yīng)對問題,從而實現(xiàn)IT運營的自動化和增強。

Gartner解釋了AIOps平臺如何采用下圖所示模式而運行。AIOps包含兩個主要組件:大數(shù)據(jù)和機器學習。它要求摒棄孤立的IT數(shù)據(jù),以整合觀測數(shù)據(jù)(例如在監(jiān)控系統(tǒng)和工作日志中發(fā)現(xiàn)的數(shù)據(jù))和大數(shù)據(jù)平臺內(nèi)部的交流數(shù)據(jù)(通常存在于工作單、事故和事件記錄中)

然后,AIOps針對匯總的IT數(shù)據(jù)實施一種綜合的分析和機器學習 (ML) 戰(zhàn)略。這樣做的預(yù)期成效是獲得持續(xù)的洞察力,進而采用自動化能力實現(xiàn)持續(xù)改進和修復(fù)。AIOps可視為核心IT功能的持續(xù)集成和部署 (CI/CD)。

Gartner的AIOPS平臺示意圖

AIOps將三個不同的IT專業(yè)結(jié)合在一起 — 服務(wù)管理、性能管理和自動化 — 以實現(xiàn)持續(xù)洞察和改進的目標。在我們新的IT加速環(huán)境中,AIOps是一種識別策略,必須采用由大數(shù)據(jù)和機器學習支撐的新理念。

AIOps的來歷

對于傳統(tǒng)企業(yè)來說,AIOps并不是一個全新的理念,而是IT運營分析和管理(ITOA/ITOM)體系與大數(shù)據(jù)和人工智能技術(shù)結(jié)合的產(chǎn)物。

AIOps智能運維以ITOA/ITOM系統(tǒng)所采集的運維大數(shù)據(jù)為基礎(chǔ),利用人工智能和機器學習算法對運維數(shù)據(jù)進行深入分析,涵蓋IT監(jiān)控,應(yīng)用性能管理、外網(wǎng)監(jiān)控、日志分析,系統(tǒng)安全等方面。

市面上流行的傳統(tǒng)運維管理平臺,其核心組件缺少大數(shù)據(jù)采集、分析和本地機器學習的能力,需要業(yè)務(wù)運維和AIOps平臺予以完善。

AIOps智能運維平臺能夠接入不同業(yè)務(wù)系統(tǒng)、監(jiān)控系統(tǒng)、管理系統(tǒng)的海量IT數(shù)據(jù),并運用各種算法進行高速分析、學習甚至預(yù)測。

立足于AIOps,IT部門可以獲得強大的自動化IT決策和運營管理能力,并能對業(yè)務(wù)質(zhì)量和用戶體驗進行準確檢測和持續(xù)優(yōu)化。

AIOps的推動因素有哪些?

AIOps是足夠新的IT平臺,甚至還沒有自己的維基百科頁面。AIOps是Gartner IT運營分析 (ITOA) 的下一步演進。它的產(chǎn)生基于影響IT運營的多個趨勢和需求,包括:

IT運營部門手動管理基礎(chǔ)架構(gòu)的難度。此處使用“基礎(chǔ)架構(gòu)”一詞有些不當,因為現(xiàn)代化IT環(huán)境包括受管理的云、不受管理的云、第三方服務(wù)、SaaS集成、移動等。管理復(fù)雜性的傳統(tǒng)方法在動態(tài)、彈性環(huán)境中行不通。如果通過手動方式跟蹤并管理這種復(fù)雜性,人類的監(jiān)督能力已經(jīng)不再可能。當前的IT Ops技術(shù)已經(jīng)超出手動管理的范圍,而且這種情況以后會越來越差。

IT運營部門需要保留的數(shù)據(jù)量呈指數(shù)增長。性能監(jiān)控產(chǎn)生的事件和告警數(shù)量呈指數(shù)級增長。服務(wù)單數(shù)量隨著IOT設(shè)備、API、移動應(yīng)用和數(shù)字或機器用戶的引入而獲得了跳躍式的增長。同樣,手動報告和分析變得異常復(fù)雜。

基礎(chǔ)架構(gòu)問題必須更快地解決。隨著企業(yè)的業(yè)務(wù)逐步數(shù)字化,IT也變成了業(yè)務(wù)。技術(shù)的“消費化”改變了所有行業(yè)中的用戶期望。對IT事件的響應(yīng)–無論是切實發(fā)生還是認為會發(fā)生的事件–需要立即進行,尤其是在問題影響用戶體驗的情況下。

更多計算能力轉(zhuǎn)移到網(wǎng)絡(luò)邊緣。云基礎(chǔ)架構(gòu)和第三方服務(wù)的輕松采用使業(yè)務(wù)線 (LOB) 職能人員能夠構(gòu)建自己的IT解決方案和應(yīng)用??刂茩?quán)和預(yù)算從IT核心轉(zhuǎn)到邊緣。更多計算能力(可充分利用)來自核心IT外部。

開發(fā)人員擁有更多權(quán)力和影響力,但責任仍由核心IT人員承擔。DevOps和敏捷迫使編程人員在應(yīng)用層面承擔更多監(jiān)控職責,但IT系統(tǒng)的整體健康狀態(tài)以及應(yīng)用、服務(wù)和基礎(chǔ)架構(gòu)間的交互仍由核心IT部門負責。隨著網(wǎng)絡(luò)日益復(fù)雜,IT運營部門要承擔更多職責。

AIOps的要素

對于AIOps理念,舊有的IT運營方式不適合以上需求所定義的新世界。同樣,Gartner將IT運營管理 (ITOM) 和應(yīng)用性能管理 (APM) 定義為魔力象限市場,而且Gartner可能也為AIOps市場創(chuàng)建一個魔力象限。

AIOps平臺由以下要素組成:

構(gòu)成AIOps平臺的技術(shù)

  • 全面且不同的IT數(shù)據(jù)源 - 來自目前孤立的工具和IT領(lǐng)域,例如事件、指標、日志、作業(yè)數(shù)據(jù)、工單、監(jiān)控等。

  • 大數(shù)據(jù)平臺 – 匯總IT數(shù)據(jù),用于進行歷史分析、實時響應(yīng)和洞察。

  • 計算(運算)和分析 – 使系統(tǒng)能夠從現(xiàn)有IT數(shù)據(jù)中生成新數(shù)據(jù)和元數(shù)據(jù)。運算和分析也消除了噪聲,可識別模式或趨勢,隔離可能的問題,發(fā)現(xiàn)底層問題,并且實現(xiàn)其他IT特定目標。

  • 算法 – 利用IT領(lǐng)域?qū)I(yè)知識,根據(jù)企業(yè)數(shù)據(jù)及其預(yù)期成果的要求,以智能化方式適當且高效地運用計算和分析能力。

  • 無人監(jiān)督的機器學習 – 可根據(jù)算法分析輸出結(jié)果和引入系統(tǒng)的新數(shù)據(jù)而自動修改或創(chuàng)建新算法。

  • 可視化 – 以易于使用的方式向IT運營人員呈現(xiàn)洞察和建議,有助于加深理解并采取行動。

  • 自動化 – 采用分析和機器學習成果自動創(chuàng)建并運用響應(yīng)措施,或者針對已發(fā)現(xiàn)的問題進行改進。

如上文所述,AIOps平臺應(yīng)包含性能管理、服務(wù)管理、自動化和流程改進等IT學科, 以及監(jiān)控、服務(wù)臺、容量管理、云計算、SaaS、移動性、IoT等技術(shù)。

AIOps是IT走向運營的點金手

未來幾年,數(shù)字化系統(tǒng)的運行效能對企業(yè)核心競爭力的影響越來越大,CIO所領(lǐng)導(dǎo)的IT部門在運營中所扮演的角色也越來越重要。

然而,隨著系統(tǒng)規(guī)模和復(fù)雜度呈指數(shù)級增長,IT人員解決問題的能力不會有太大的變化。要讓IT擺脫傳統(tǒng)運維工作的束縛,就需要運用AIOps智能運維平臺來有效承擔基礎(chǔ)運維的種種責任。

在AIOps的幫助之下,IT人員可以從繁瑣的常規(guī)工作中得到徹底的釋放,專注于對企業(yè)發(fā)展更有價值的工作 – 業(yè)務(wù)和用戶體驗,讓IT真正走向運營。

 “AIOps正在廣泛應(yīng)用于IT大數(shù)據(jù)和業(yè)務(wù)大數(shù)據(jù)分析領(lǐng)域,為企業(yè)提供極具價值的業(yè)務(wù)洞察能力”。

據(jù)Gartner分析師最新預(yù)測,到了2022年,部署AIOps平臺的大型企業(yè)數(shù)量將從如今的不足5%,迅速提升到40%左右,而這些企業(yè)會把AIOps用于業(yè)務(wù)運營和IT運維,以取代如今的運維監(jiān)控、管理工具和自動化運維產(chǎn)品。

當企業(yè)的數(shù)字化程度越來越高, IT系統(tǒng)的復(fù)雜度和規(guī)模越來越大,擺在CIO面前的這道雙選題:是不斷增加業(yè)務(wù)流程?還是采用AIOps平臺?似乎不難抉擇......