一、傳統(tǒng)運(yùn)維方式簡(jiǎn)介
傳統(tǒng)的IT運(yùn)維仍然是等到IT故障出現(xiàn)后再由運(yùn)維人員采取相應(yīng)的補(bǔ)救措施。這種被動(dòng)、孤立、半自動(dòng)式的IT運(yùn)維管理模式經(jīng)常讓IT部門(mén)疲憊不堪,主要表現(xiàn)在以下三個(gè)方面。
(1)運(yùn)維人員被動(dòng)、效率低。
(2)缺乏一套高效的IT運(yùn)維機(jī)制
(3)缺乏高效的IT運(yùn)維技術(shù)工具。
二、自動(dòng)化運(yùn)維簡(jiǎn)介
IT運(yùn)維已經(jīng)在風(fēng)風(fēng)雨雨中走過(guò)了十幾個(gè)春秋,如今它正以一種全新的姿態(tài)擺在我們面前,運(yùn)維自動(dòng)化是IT技術(shù)發(fā)展的必然結(jié)果,現(xiàn)在IT系統(tǒng)的復(fù)雜性已經(jīng)客觀上要求IT運(yùn)維必須能夠?qū)崿F(xiàn)數(shù)字化、自動(dòng)化維護(hù)。
運(yùn)維自動(dòng)化是指將IT運(yùn)維中日常的、大量的重復(fù)性工作自動(dòng)化,把過(guò)去的手工執(zhí)行轉(zhuǎn)為自動(dòng)化操作。自動(dòng)化是IT運(yùn)維工作的升華,IT運(yùn)維自動(dòng)化不單純是一個(gè)維護(hù)過(guò)程,更是一個(gè)管理的提升過(guò)程,是IT運(yùn)維的最高層次,也是未來(lái)的發(fā)展趨勢(shì)。
三、運(yùn)維自動(dòng)化的具體內(nèi)容
日常IT運(yùn)維中大量的重復(fù)性工作(小到簡(jiǎn)單的日常檢查、配置變更和軟件安裝,大到整個(gè)變更流程的組織調(diào)度)由過(guò)去的手工執(zhí)行轉(zhuǎn)為自動(dòng)化操作,從而減少乃至消除運(yùn)維中的延遲,實(shí)現(xiàn)“零延時(shí)”的IT運(yùn)維。
簡(jiǎn)單地說(shuō),IT運(yùn)維自動(dòng)化是指基于流程化的框架,將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控系統(tǒng)發(fā)現(xiàn)性能超標(biāo)或宕機(jī),會(huì)觸發(fā)相關(guān)事件以及事先定義好的流程,可自動(dòng)啟動(dòng)故障響應(yīng)和恢復(fù)機(jī)制。
3.1、建立高效的IT自動(dòng)化運(yùn)維管理
建立高效的IT自動(dòng)化運(yùn)維管理的步驟主要包括以下幾點(diǎn)。
(1)建立自動(dòng)化運(yùn)維管理平臺(tái)。
IT運(yùn)維自動(dòng)化管理建設(shè)的第一步是要先建立IT運(yùn)維的自動(dòng)化監(jiān)控和管理平臺(tái)。通過(guò)監(jiān)控工具實(shí)現(xiàn)對(duì)用戶操作規(guī)范的約束和對(duì)IT資源進(jìn)行實(shí)時(shí)監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫(kù)、中間件、存儲(chǔ)備份、網(wǎng)絡(luò)、安全、機(jī)房、業(yè)務(wù)應(yīng)用和客戶端等內(nèi)容,通過(guò)自動(dòng)監(jiān)控管理平臺(tái)實(shí)現(xiàn)故障或問(wèn)題綜合處理和集中管理。
(2)建立故障事件自動(dòng)觸發(fā)流程,提高故障處理效率。
所有IT設(shè)備在遇到問(wèn)題時(shí)要會(huì)自動(dòng)報(bào)警,無(wú)論是系統(tǒng)自動(dòng)報(bào)警還是使用人員報(bào)的故障,應(yīng)以紅色標(biāo)識(shí)顯示在運(yùn)維屏幕上。然后IT運(yùn)維人員只需要按照相關(guān)知識(shí)庫(kù)的數(shù)據(jù),一步一步操作就可以。
(3)建立規(guī)范的事件跟蹤流程,強(qiáng)化運(yùn)維執(zhí)行力度。
需要建立故障和事件處理跟蹤流程,利用表格工具等記錄故障及其處理情況,以建立運(yùn)維日志,并定期回顧從中辨識(shí)和發(fā)現(xiàn)問(wèn)題的線索和根源。
(4)設(shè)立IT運(yùn)維關(guān)鍵流程,引入優(yōu)先處理原則。
設(shè)置自動(dòng)化流程時(shí)還需要引入優(yōu)先處理原則,例行的事按常規(guī)處理,特別事件要按優(yōu)先級(jí)次序處理,也就是把事件細(xì)分為例行事件和例外關(guān)鍵事件。
3.2、IT自動(dòng)化運(yùn)維工具
對(duì)于企業(yè)來(lái)說(shuō),要特別關(guān)注兩類(lèi)自動(dòng)化工具:一是IT運(yùn)維監(jiān)控和診斷優(yōu)化工具;二是運(yùn)維流程自動(dòng)化工具。這兩類(lèi)工具主要應(yīng)用于如下場(chǎng)景:
(1)監(jiān)控自動(dòng)化:是指對(duì)重要的IT設(shè)備實(shí)施主動(dòng)式監(jiān)控,如路由器、交換機(jī)、防火墻等。
(2)配置變更檢測(cè)自動(dòng)化:是指IT設(shè)備配置參數(shù)一旦發(fā)生變化,將觸發(fā)變更流程轉(zhuǎn)給相關(guān)技術(shù)人員進(jìn)行確認(rèn),通過(guò)自動(dòng)檢測(cè)協(xié)助IT運(yùn)維人員發(fā)現(xiàn)和維護(hù)配置。
(3)維護(hù)事件提醒自動(dòng)化:是指通過(guò)對(duì)IT設(shè)備和應(yīng)用活動(dòng)的實(shí)時(shí)監(jiān)控,當(dāng)發(fā)生異常事件時(shí)系統(tǒng)自動(dòng)啟動(dòng)報(bào)警和響應(yīng)機(jī)制,第一時(shí)間通知相關(guān)責(zé)任人。
(4)系統(tǒng)健康檢測(cè)自動(dòng)化:是指定期自動(dòng)地對(duì)IT設(shè)備硬件和應(yīng)用系統(tǒng)進(jìn)行健康巡檢,配合IT運(yùn)維團(tuán)隊(duì)實(shí)施對(duì)系統(tǒng)的健康檢查和監(jiān)控。
(5)維護(hù)報(bào)告生成自動(dòng)化:是指定期自動(dòng)地對(duì)系統(tǒng)做日志的收集分析,記錄系統(tǒng)運(yùn)行狀況,并通過(guò)階段性的監(jiān)控、分析和總結(jié),定時(shí)提供IT運(yùn)維的可用性、性能、系統(tǒng)資源利用狀況分析報(bào)告。