原文:

IT運維自動化解析

  (一)、什么是IT運維自動化?

       隨著信息時代的持續(xù)發(fā)展,IT運維已經(jīng)成為IT服務(wù)內(nèi)涵中重要的組成部分。面對越來越復(fù)雜的業(yè)務(wù),面對越來越多樣化的用戶需求,不斷擴展的IT應(yīng)用需要越來越合理的模式來保障IT服務(wù)能靈活便捷、安全穩(wěn)定地持續(xù)保障,這種模式中的保障因素就是IT運維(其他因素是更加優(yōu)越的IT架構(gòu)等)。

       從初期的幾臺服務(wù)器發(fā)展到龐大的數(shù)據(jù)中心,單靠人工已經(jīng)無法滿足在技術(shù)、業(yè)務(wù)、管理等方面的要求,那么標(biāo)準(zhǔn)化、自動化、架構(gòu)優(yōu)化、過程優(yōu)化等降低IT服務(wù)成本的因素越來越被人們所重視。其中,自動化最開始作為代替人工操作為出發(fā)點的訴求被廣泛研究和應(yīng)用。

       IT運維從誕生發(fā)展至今,自動化作為其重要屬性之一已經(jīng)不僅僅只是代替人工操作,更重要的是深層探知和全局分析,關(guān)注的是在當(dāng)前條件下如何實現(xiàn)性能與服務(wù)最優(yōu)化,同時保障投資收益最大化。自動化對IT運維的影響,已經(jīng)不僅僅是人與設(shè)備之間的關(guān)系,已經(jīng)發(fā)展到了面向客戶服務(wù)驅(qū)動IT運維決策的層面,IT運維團隊的構(gòu)成,也從各級技術(shù)人員占大多數(shù)發(fā)展到業(yè)務(wù)人員甚至用戶占大多數(shù)的局面。

       因此,IT運維自動化是一組將靜態(tài)的設(shè)備結(jié)構(gòu)轉(zhuǎn)化為根據(jù)IT服務(wù)需求動態(tài)彈性響應(yīng)的策略,目的就是實現(xiàn)IT運維的質(zhì)量,降低成本。可以說自動化一定是IT運維最高層面的重要屬性之一,并且需要與之配套的一系列軟硬件平臺環(huán)境及體系。

  (二)、傳統(tǒng)運維管理方式存在的問題

       目前許多企業(yè)的IT運維已經(jīng)實現(xiàn)從人工運維到計算機管理,但延展咨詢在同客戶的交流中發(fā)現(xiàn)其中很多企業(yè)的IT運維管理還只是處在“半自動化”的運維狀態(tài)。因為這種IT運維仍然是等到IT故障出現(xiàn)后再由運維人員采取相應(yīng)的補救措施。這些傳統(tǒng)式被動、孤立、半自動式的IT運維管理模式經(jīng)常讓IT部門疲憊不堪,主要表現(xiàn)在以下三個方面:

  1.運維人員被動、效率低

      在IT運維過程中,只有當(dāng)事件已經(jīng)發(fā)生并已造成業(yè)務(wù)影響時才能發(fā)現(xiàn)和著手處理,這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質(zhì)量很難提高,導(dǎo)致IT部門和業(yè)務(wù)部門對IT運維的服務(wù)滿意度都不高。目前絕大多數(shù)的企業(yè)IT運維人員日常大部分時間和精力是處理一些簡單重復(fù)的問題,而且由于故障預(yù)警機制不完善,往往是故障發(fā)生后或報警后才會進行處理,,使到IT運維人員的工作經(jīng)常是處于被動“救火”的狀態(tài),不但事倍功半而且常常會出現(xiàn)惡性連鎖反應(yīng)。

   2.缺乏一套高效的IT運維機制

       目前許多企業(yè)在IT運維管理過程中缺少自動化的運維管理模式,也沒有明確的角色定義和責(zé)任劃分,使到問題出現(xiàn)后很難快速、準(zhǔn)確地找到根本原因,無法及時地找到相應(yīng)的人員進行修復(fù)和處理,或者是在問題找到后缺乏流程化的故障處理機制,而在處理問題時不但欠缺規(guī)范化的解決方案,也缺乏全面的跟蹤記錄。

   3.缺乏高效的IT運維技術(shù)工具

       隨著信息化建設(shè)的深入,企業(yè)IT系統(tǒng)日趨復(fù)雜,林林總總的網(wǎng)絡(luò)設(shè)備、服務(wù)器、中間件、業(yè)務(wù)系統(tǒng)等讓IT運維人員難以從容應(yīng)對,即使加班加點地維護、部署、管理也經(jīng)常會因設(shè)備出現(xiàn)故障而導(dǎo)致業(yè)務(wù)的中斷,嚴(yán)重影響企業(yè)的正常運轉(zhuǎn)。出現(xiàn)這些問題部分原因是企業(yè)缺乏事件監(jiān)控和診斷工具等IT運維技術(shù)工具,因為在沒有高效的技術(shù)工具的支持下故障事件很難得到主動、快速處理。

  (三)、IT運維自動化迫在眉睫

       盡管IT運維管理的技術(shù)在不斷進步,但實際上很多IT運維人員并沒有真正解脫出來,原因在于目前的技術(shù)雖然能夠獲取IT設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫的警告信息,但成千上萬條警告信息堆積在一起更本沒法判斷問題的根源在哪里。另外,目前許多企業(yè)的更新管理絕大多數(shù)工作都是手工操作的。即使一個簡單的系統(tǒng)變更或更新往往都需要運維人員逐一登錄每臺設(shè)備進行手工變更,當(dāng)設(shè)備數(shù)量達至成百上千時,其工作量之大可想而知。而這樣的變更和檢查操作在IT運維中往往每天都在進行,占用了大量的運維資源。因此,實現(xiàn)運維管理工作的自動化對企業(yè)來說已迫在眉睫。

       現(xiàn)在隨著IT運維管理工作的復(fù)雜度和難度的大大增加,僅靠過去幾個“運維英雄”或“技術(shù)大拿”來包打天下已經(jīng)行不通了,企業(yè)開始需要運用專業(yè)化、標(biāo)準(zhǔn)化和流程化的手段來實現(xiàn)運維工作的自動化管理。因為通過自動化監(jiān)控系統(tǒng)能及時發(fā)現(xiàn)故障隱患,主動的告訴用戶需要關(guān)注的資源,以達到防患于未然。

       例如,全天候自動檢測與及時報警能實現(xiàn)IT運維的“全天候無人值守”,大大降低IT運維人員的工作負擔(dān)。而且,通過自動化診斷能最大限度地減少維修時間,提高服務(wù)質(zhì)量。因此, 對于越來越復(fù)雜的IT運維來說,將純粹的人工操作變?yōu)橐欢ǔ潭鹊淖詣踊芾硎且粋€重要發(fā)展趨勢——

       首先,IT運維流程自動化能夠提高流程的可控性,可以基于業(yè)務(wù)需求來制定個性化的流程,使企業(yè)領(lǐng)導(dǎo)有機會看見他們的業(yè)務(wù)流程,對企業(yè)流程有一個深刻的分析和理解,進而改造和優(yōu)化流程。

       其次,IT運維流程的自動化能提高透明度。因為隨著業(yè)務(wù)需求的變化可能會有多個版本出現(xiàn),手工流程的不透明將會給流程定制和優(yōu)化帶來相當(dāng)大的困難,而自動化流程可以使用戶能夠一目了然的看到整個流程的各個節(jié)點運轉(zhuǎn)情況,自動化工具潛移默化地提升業(yè)務(wù)保障能力。

       再者,運維系統(tǒng)實行了自動化監(jiān)控以后,通過工具自動監(jiān)控對人的工作是一種減負,也是一種降低成本的表現(xiàn)。

  (四)、IT運維自動化管理的具體內(nèi)容

       IT運維已經(jīng)在風(fēng)風(fēng)雨雨中走過了十幾個春秋,如今它正以一種全新的姿態(tài)擺在我們面前--自動化,這是IT技術(shù)發(fā)展的必然結(jié)果。現(xiàn)在IT系統(tǒng)的復(fù)雜性已經(jīng)客觀上要求IT運維必須能夠?qū)崿F(xiàn)數(shù)字化、自動化維護。

所謂IT運維管理的自動化是指通過將日常IT運維中大量的重復(fù)性工作(小到簡單的日常檢查、配置變更和軟件安裝,大到整個變更流程的組織調(diào)度)由過去的手工執(zhí)行轉(zhuǎn)為自動化操作,從而減少乃至消除運維中的延遲,實現(xiàn)“零延時”的IT運維。

       簡單的說,IT運維自動化是指基于流程化的框架,將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控系統(tǒng)發(fā)生性能超標(biāo)或宕機,會觸發(fā)相關(guān)事件以及事先定義好的流程,可自動啟動故障響應(yīng)和恢復(fù)機制。

       自動化工作平臺還可幫助IT運維人員完成日常的重復(fù)性工作(如備份、殺毒等),提高IT運維效率。同時,IT運維的自動化還要求能夠預(yù)測故障、在故障發(fā)生前能夠報警,讓IT運維人員把故障消除在發(fā)生前,將所產(chǎn)生損失減到最低。

  (五)、IT運維自動化的工具

       對于企業(yè)來說,要特別關(guān)注兩類自動化工具:一是IT運維監(jiān)控和診斷優(yōu)化工具;二是運維流程自動化工具。這兩類工具主要應(yīng)用于:

  1.監(jiān)控自動化,是指對重要的IT設(shè)備實施主動式監(jiān)控,如路由器、交換機、防火墻、機房環(huán)境監(jiān)測設(shè)備等;

  2.配置變更檢測自動化,是指IT設(shè)備配置參數(shù)一旦發(fā)生變化,將觸發(fā)變更流程轉(zhuǎn)給相關(guān)技術(shù)人員進行確認,通過自動檢測協(xié)助IT運維人員發(fā)現(xiàn)和維護配置。

  3.維護事件提醒自動化,是指通過對IT設(shè)備和應(yīng)用活動的時時監(jiān)控,當(dāng)發(fā)生異常事件時系統(tǒng)自動啟動報警和響應(yīng)機制,第一事件通知相關(guān)責(zé)任人。

  4.系統(tǒng)健康檢測自動化,是指定期自動地對IT設(shè)備硬件和應(yīng)用系統(tǒng)進行健康巡檢,配合IT運維團隊實施對系統(tǒng)的健康檢查和監(jiān)控。

  5.維護報告生成自動化,是指定期自動的對系統(tǒng)做日志的收集分析,記錄系統(tǒng)運行狀況,并通過階段性的監(jiān)控、分析和總結(jié),定時提供IT運維的可用性、性能、系統(tǒng)資源利用狀況分析報告。

  (六)、建立高效IT運維自動化管理的步驟

  1.建立自動化運維管理平臺

       IT運維自動化管理建設(shè)的第一步是要先建立IT運維的自動化監(jiān)控和管理平臺。通過監(jiān)控工具實現(xiàn)對用戶操作規(guī)范的約束和對IT資源進行實時監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫、中間件、存儲備份、網(wǎng)絡(luò)、安全、機房、業(yè)務(wù)應(yīng)用和客戶端等內(nèi)容,通過自動監(jiān)控管理平臺實現(xiàn)故障或問題綜合處理和集中管理。

      例如,在自定義周期內(nèi)進行自動觸發(fā)完成對IT運維的例行巡檢,形成檢查報告。包括自動運行維護,以完成對系統(tǒng)補丁的同步分發(fā)與升級、數(shù)據(jù)備份、病毒查殺等工作。

  2.建立故障事件自動觸發(fā)流程,提高故障處理效率

       所有IT設(shè)備在遇到問題時要會自動報警,無論是系統(tǒng)自動報警還是使用人員報的故障,應(yīng)以紅色標(biāo)識顯示在運維屏幕上。然后IT運維人員只需要按照相關(guān)知識庫的數(shù)據(jù),一步一步操作就可以。

       因此,企業(yè)需要事先建立自動工單式流程管理,當(dāng)設(shè)備或軟件發(fā)生異?;虺鲱A(yù)警指標(biāo)時會觸發(fā)相關(guān)的事件,同時觸發(fā)相關(guān)工單處理流程給相關(guān)IT運維人員。IT運維人員必須在指定時間內(nèi)完成流程所規(guī)定的環(huán)節(jié)與工作,以提高IT運維響應(yīng)問題的效率。

  3.建立規(guī)范的事件跟蹤流程,強化運維執(zhí)行力度

       IT運維自動化管理建設(shè)時,首先需要建立故障和事件處理跟蹤流程,利用表格工具等記錄故障及其處理情況,以建立運維日志,并定期回顧從中辨識和發(fā)現(xiàn)問題的線索和根源。事實上許多實踐也證明,建立每種事件的規(guī)范化處理和跟蹤指南,可以減少IT運維操作的隨意性和強化運維的執(zhí)行力度,在很大程度上可降低故障發(fā)生的概率。同時,用戶還應(yīng)可以通過自助服務(wù)臺、電話服務(wù)臺等隨時追蹤該故障請求的處理狀態(tài)。

  4.設(shè)立IT運維關(guān)鍵流程,引入優(yōu)先處理原則

       設(shè)立IT運維關(guān)鍵流程,引入優(yōu)先處理原則是指要求CIO定義出IT運維的每個關(guān)鍵流程,不僅僅是定義流程是什么,還包括要指出每個關(guān)鍵流程對企業(yè)有什么影響和意義。同時,在設(shè)置自動化流程時還需要引入優(yōu)先處理原則,例行的事按常規(guī)處理,特別事件要按優(yōu)先級次序處理,也就是把事件細分為例行事件和例外關(guān)鍵事件。

       總之,實現(xiàn)IT運維的自動化管理是指通過將IT運維中日常的、大量的重復(fù)性工作自動化,把過去的手工執(zhí)行轉(zhuǎn)為自動化操作。自動化是IT運維工作的升華,IT運維自動化不單純是一個維護過程,更是一個管理的提升過程,是IT運維的最高層次,也是未來的發(fā)展趨勢。

————————————————