運維管理是電信運營商主要的生產和管理活動之一。運維管理系統(tǒng)建設和運營的好壞直接影響到電信運營的整體成本、管理水平和服務水平。因此,近兩年來,各大電信運營商紛紛對現(xiàn)有的運維系統(tǒng)進行改造。
中國在電信領域的增長速度超過了其GDP增長的速度。正是電信快速的增長,推動了運維系統(tǒng)的發(fā)展。如何更有效地利用現(xiàn)有的資源,提高運營維護的工作效率,提高整體服務質量是目前各大運營商面臨的普遍問題。毫無疑問,中國電信在運營維護方面,也面臨相同的問題。建設新一代中國電信運維管理系統(tǒng),成為解決目前運維管理問題的唯一方案。
根據(jù)我們長期在電信領域的實踐,下面的幾點經驗,值得我們在中國電信運維系統(tǒng)的建設中更加關注。
一、采用ITIL作為運維系統(tǒng)的方法論
IT基礎架構庫(ITIL-ITInfrastructureLibrary),被譽為IT服務管理的圣經,其中包含了總結國際大公司在IT服務管理中的經驗并得到證明的IT服務計劃和運營的最佳實踐框架。
ITIL已經為《財富》500強的一些企業(yè)所采用,并取得了預期的效果。加特納(Gartner)和國際數(shù)據(jù)集團(IDC)等世界權威研究機構的調查研究表明,企業(yè)通過在IT部門實施最佳服務管理實踐,將因重復呼叫、不當?shù)淖兏纫鸬难诱`時間減少了79%,每年每個終端用戶平均節(jié)約800美元的成本,同時每項新服務推出的時間也縮短一半。
要成為國際一流的企業(yè),就要吸取國際一流企業(yè)的成功管理經驗,借鑒其管理手段。因此,中國電信在運維管理系統(tǒng)的建設,也應確立ITIL在系統(tǒng)建設過程中的方法論地位,吸取ITIL中的成功經驗。
作為眾多國際大型企業(yè)成功實踐的積累,ITIL使我們找到了解決運維流程規(guī)范的方式和方法??墒?,如何更好地運用ITIL這一經典的方法論呢?我們認為應該注意兩點:
1)ITIL是從實踐中得來的精髓,不是僵化的教條,應該結合實際情況去運用ITIL,建立更加適合中國電信的流程規(guī)范,而不是照抄照搬。
2)由于ITIL理論博大精深,不可能在短期內在企業(yè)中全面實施。應該根據(jù)實際情況,選取實施重點,逐步實施,逐步完善。
在中國電信運維系統(tǒng)建設中,應該深入理解ITIL的核心理念,結合電信運維的現(xiàn)狀,解決核心和關鍵問題,逐步實現(xiàn)對運維的科學管理。
二、ITIL理論與實際情況相結合,注重工作流程細節(jié)的設計和優(yōu)化,是系統(tǒng)建設的關鍵
理順工作流程、提高服務效率是新運維系統(tǒng)建設的主要內容之一。
在工作流程的制定過程中,容易陷入以下兩個極端。
1.盲目照搬流程。作為方法論的ITIL,本身含有大量的成功實踐框架。但是,正如前面所說的,ITIL是從實踐中得來的精髓,不是僵化的教條,盲目照搬,只能使得工作流程不切合實際,并流于形式,對系統(tǒng)的貫徹和執(zhí)行產生不好的影響。
2.完全遵照現(xiàn)有流程,實現(xiàn)其電子化。雖然這樣更符合目前的工作習慣,可能容易為運維人員所接受,但是,仍然解決不了目前運維所存在的一些問題。例如,我們在項目實施中曾遇到“工單在部門之間的重派”的問題。在當前手工作業(yè)的工作模式中,各單位將不屬于本單位處理范圍的工單,或部門需要其他部門配合的工單,均提交給故障處理的負責人,由該負責人向其他單位進行轉派和重派。這種處理方式,主要便于手工作業(yè)條件下負責人及時了解項目處理狀況。在建立運維系統(tǒng)后,負責人可以通過運維系統(tǒng)隨時了解到故障的處理狀況,每次重派和轉派之前,對負責人的回復變成了一種無效的工作,大大降低了事件的處理效率。如果僅僅將目前的手工作業(yè)電子化,那么故障處理的效率仍然沒有得到有效的提高。
因此,將ITIL理論與實際情況相結合,注重工作流程細節(jié)的設計和優(yōu)化,是系統(tǒng)建設的關鍵。
三、樹立主動服務觀念
在現(xiàn)行的運維工作中,我們經常遇到這樣的情況:一方面是運維部門疲于應付各種突發(fā)事件,加班加點處理各種重復事件,工作繁重,身心疲憊;一方面是客戶代表不斷抱怨和投訴“技術人員服務水平太低”。二者不可調和的矛盾,是新運維系統(tǒng)要解決的重要問題。
傳統(tǒng)的運維方式給人的印象是:故障發(fā)生前,維護人員似乎無所事事;故障發(fā)生后,則是手忙腳亂。這就是被動服務給人們留下的印象,運維人員是在被動地等待故障的發(fā)生。在新的運維系統(tǒng)中,我們必須改變原有的運維方式,變被動服務為主動服務。
在主動服務模式下,運維人員主動地監(jiān)控系統(tǒng)的變化,對日常工作及故障處理完成后主動進行問題分析,對系統(tǒng)的變更風險進行評估。在新系統(tǒng)中,可以通過種種技術措施,使得運維工作從被動服務轉移到主動服務,如:增加變更管理流程以防范變更風險。
在日常運維工作中,變更工作是在所難免的。例如,新的系統(tǒng)安全漏洞被公布,為了保證系統(tǒng)安全,就需要安全系統(tǒng)補丁,而這種變更給系統(tǒng)帶來的風險則是難以估計的。例如在安裝補丁后,有時會產生大量莫名其妙的問題。這么一個簡單的例子已經可以說明,如果沒有很好的風險防范手段,系統(tǒng)變更將給我們的日常運維工作帶來大量的問題,后果往往是難以想象的。在新系統(tǒng)中,我們可增加變更管理流程。在變更管理流程中,變更方案需提交變更經理,由變更經理組織由專家組成的變更顧問委員會(CAB)對變更進行風險評估,在評估通過后才能夠進入變更的實施過程。變更管理是防范變更風險的最好辦法。
當然,主動服務是一種理念,在這種理念下,我們可以定義更多的流程,如問題管理流程,對系統(tǒng)中存在的隱患問題進行挖掘,防患于未然??傊?,我們應該樹立這樣一個理念,在各流程的定義中進行運用,主動地提早發(fā)現(xiàn)系統(tǒng)存在的風險和隱患,減少突發(fā)事件的發(fā)生。
四、從平臺到業(yè)務的全面管理
網(wǎng)絡管理是運維系統(tǒng)的組成部分。對系統(tǒng)的監(jiān)控也是運維的主要業(yè)務之一。以往網(wǎng)管系統(tǒng)實現(xiàn)了對平臺的監(jiān)控,可是在實際運維工作中,平臺往往只有少數(shù)的幾個系統(tǒng)管理員負責,大多數(shù)業(yè)務人員更多地是面對業(yè)務系統(tǒng)。對于業(yè)務的監(jiān)控和管理,是業(yè)務人員更加關心的問題。因此,在網(wǎng)管系統(tǒng)中,應加入業(yè)務監(jiān)控的內容。
需要注意的是,業(yè)務是建立在平臺的基礎之上的,而不是孤立存在的。因此,監(jiān)控中,應強調業(yè)務監(jiān)控與平臺監(jiān)控密不可分的聯(lián)系,從業(yè)務的角度出發(fā),建立平臺與業(yè)務的關聯(lián)關系。在故障發(fā)生時,應能夠即時描述對業(yè)務的影響程度,能夠描述故障的影響范圍。
例如:采集源的某臺交換機產生異常,除了可以看到交換機告警外,我們還應該能夠在業(yè)務拓撲圖中直觀看到,采集系統(tǒng)受到影響,同時采集、預處理、分揀等相關業(yè)務也不同程度受到影響。其影響程度,能夠通過不同的顏色直觀地展示出來。
只有這樣才能夠更加直觀而全面地反映系統(tǒng)的運行狀態(tài),反映業(yè)務的運行情況。能夠幫助運維人員在故障發(fā)生時,快速修復關鍵部件,減少故障帶來的損失。
五、建立科學的激勵與監(jiān)督機制
多年來,系統(tǒng)的使用和推廣問題成為系統(tǒng)能否得到良好運用的一個重要問題。
假設:我們制定了變更管理流程,但是,變更管理沒有被很好地執(zhí)行,而只是流于形式,則風險的防范也只能是停留在理論上的空談。
在運維系統(tǒng)建設過程中,建立了一整套科學的考核制度,以激勵運維人員更有效地提高服務質量和服務水平,是至關重要的。
對運維人員的考核,并不能就管理論管理,應該從客戶服務的角度出發(fā),以客戶滿意為前提,進行考核。例如,根據(jù)每個部門的服務水平,制定了服務時限。假設,某個用戶投訴,需要多個部門協(xié)同進行處理。在處理過程中,各部門互相推托,雖然工單在各部門的停留時間沒有超過部門承諾的時限,而整體處理時間已經超過了運營商對該用戶承諾的處理時間。為了杜絕這種現(xiàn)象的出現(xiàn),我們應該從用戶的角度出發(fā),進行各部門處理時間的分段計算。計算結果將反映在每月故障處理情況的統(tǒng)計報告中,而這些報告直接與各部門、各單位的績效考核掛鉤。
通過這樣的考核機制,形成對員工日常工作的科學評價,既調動了員工積極性,又提高了工作效率和服務質量。