原文:

IT運維(IT Ops)人員在組織中扮演著三個關(guān)鍵性角色。

他們可以是建筑師、建設(shè)者以及出現(xiàn)問題時挽救大局的英雄。他們設(shè)想和幫助規(guī)劃數(shù)字環(huán)境,建立這些環(huán)境運行的基礎(chǔ)設(shè)施,并在問題變?yōu)槲C之前(和之后)解決這些問題。

今天,我想把重點放在IT運維工作的突破性/固性上,特別是預(yù)防IT網(wǎng)絡(luò)危機并在發(fā)生危機時應(yīng)對它們的一些瑣碎的事情?;谶^去15年處理IT運維變更的經(jīng)驗,個人覺得IT專業(yè)人員需要注意以下重要事項,以避免網(wǎng)絡(luò)危機,或是在危機已經(jīng)到來時解決危機。

什么發(fā)生了變化?

很多的(甚至是大部分的)危機是由于環(huán)境的變化而產(chǎn)生的。在診斷問題時,了解一下最近發(fā)生的其他環(huán)境變化也許會對你有所幫助。如果你不能找到很明顯的直接原因,請花點時間來詢問: 最近發(fā)生的可能導(dǎo)致該問題的原因是什么?這在解決遠程問題時特別有用,因為你不可能看到發(fā)生的所有事情。

例如,如果服務(wù)器停止響應(yīng),首先要檢查服務(wù)器,確保服務(wù)器沒有掛起或宕機,硬盤空間足夠并已連接到網(wǎng)絡(luò)等。如果你無法在服務(wù)器本身找到原因,那么是時候擴大搜索范圍并查看其他在近期發(fā)生的變化了。

在故障期間,網(wǎng)絡(luò)連接往往會揭露自身問題。檢查你的項目管理系統(tǒng)或更改日志,以查看網(wǎng)絡(luò)上最近發(fā)生了哪些變化??赡苁怯捎谂渲迷阱e誤的路由器、交換機或防火墻后面,導(dǎo)致你無法訪問服務(wù)器。也可能是有人意外地刪除了服務(wù)器的DNS記錄或更改了路由路徑。問題可能發(fā)生在其他地方,你看到的只是癥狀,而不是導(dǎo)致問題發(fā)生的根源。

有計劃地避免附帶損害 

當你在一個地方進行變更時,卻在另一個地方發(fā)生了意想不到的問題,沒有比這更令人沮喪的了。一個附帶損害的例子可能是置換出一臺服務(wù)器,結(jié)果卻發(fā)現(xiàn)它敲出了一個夜間傳輸,因為傳輸?shù)陌踩院蜋C器的硬件認證相關(guān)聯(lián),改變硬件就改變了硬件鍵。避免附帶損害的關(guān)鍵是在作出變更之前做好功課并盡可能多地確定相關(guān)功能。深入了解并識別任一相關(guān)功能,并對你的計劃作出必要調(diào)整。

列一個變更清 

IT 運維人員經(jīng)常會使用記憶、培訓(xùn)和直覺來進行關(guān)鍵性的工作。當他們不按順序執(zhí)行或是跳過某些步驟執(zhí)行時往往會出現(xiàn)問題。在進行網(wǎng)絡(luò)變更時使用清單,以確保成功并能避免危機。一個好的清單可以幫助你在變更過程中計劃并正確實施這些步驟。

  • 預(yù)備步驟 - 在作出更改之前需要做些什么?哪些服務(wù)器或設(shè)備需要被down或調(diào)整?需要通知誰?

  • 進程中的步驟 - 在更改過程中必須執(zhí)行哪些步驟?需要修改哪些配置?

  • 驗證變更是否奏效 - 您如何確定變更是否奏效。你應(yīng)該檢查哪些項目?應(yīng)使用哪些數(shù)據(jù)來進行驗證?

  • 應(yīng)急程序 - 如果形勢轉(zhuǎn)壞,應(yīng)該使用什么策略來緩解?你的應(yīng)急策略是什么?

  • 恢復(fù)步驟 -如何才能撤銷為實施更改所做的預(yù)備步驟?(這一步必須得到重視,因為它往往可以避免引發(fā)另一個危機。)

清單不一定要很長,但是要深入、準確和適用。個人覺得,使用清單是網(wǎng)絡(luò)變更成功的關(guān)鍵。如果你對此有興趣,可以查看我之前寫的文章《IT項目實施時使用清單的8個理由》。

“一次只做好一件事”原則

一次只做一項主要的網(wǎng)絡(luò)更改。如果只做一處變更,那么即便出現(xiàn)問題,你也只面臨一個危機。如果兩個或兩個以上的變更同時出問題,那就是另外一回事了,就造成了多重危機。一次執(zhí)行數(shù)個更改,卻只有一部分網(wǎng)絡(luò)down掉,這聽起來很誘人,但是請不要這么做。這種冒險行為并不值得。

要清楚你所處的位置 

 位置感知(position awareness) - 當IT人員誤以為自己是在測試系統(tǒng)上工作,然后抹去了一個生產(chǎn)系統(tǒng),這絕對是最可怕的自我傷害。一個最好的例子就是IT經(jīng)理在刷新QA數(shù)據(jù)庫的時候,意外地清空了生產(chǎn)數(shù)據(jù)庫,因為他在錯誤的機器上。通常在使用遠程桌面程序時會出現(xiàn)這些錯誤,因為你可能在無意中連接到了錯誤的機器。在工作開始之前,一定要確保你在正確的機器上,即便只是執(zhí)行一個hostname命令那么簡單。在它首次制止你連接到錯誤的機器上的時候,你會感激你自己。

上述都是ServiceHot在實踐中得出的一些在變更管理指南中并未提及或僅是簡單提及的實用性步驟。這些步驟很簡單,但是可以幫助你應(yīng)對意外的IT運維危機或是防止產(chǎn)生危機。


ServiceHot介紹

永服科技有限公司(簡稱“ServiceHot”或“永服科技”),是中國優(yōu)秀的 IT服務(wù)管理解決方案服務(wù)商和產(chǎn)品廠商,注冊資金5000萬,總部坐落于江蘇無錫,在北京、上海、廣州、成都等多地設(shè)立了分支機構(gòu)。

ServiceHot擁有優(yōu)秀的ITSM產(chǎn)品和多年IT服務(wù)管理項目的實施經(jīng)驗,運用ITIL、ISO20000等最佳實踐方法,為客戶提供ITIL咨詢服務(wù)、ITSM產(chǎn)品、定制化開發(fā)服務(wù)、落地實施服務(wù)、ITIL/ITSS認證,為企業(yè)信息化建設(shè),安全、可靠、高效地運行提供有力的保障。三大核心產(chǎn)品分別是ServiceHot  ITSM(IT服務(wù)管理平臺)、ServiceHot  ITSOM(IT服務(wù)運營管理平臺)ServiceHot SOM(服務(wù)運營管理)。產(chǎn)品基于J2EE搭建的架構(gòu)平臺、可以適應(yīng)云計算部署環(huán)境,具有較好的易用性、擴展性以及配置功能,適用于企業(yè)目前IT服務(wù)過程不斷改進、提升,業(yè)務(wù)邏輯及流程復(fù)雜等環(huán)境的要求,產(chǎn)品在大型的國企、制造業(yè)、金融等多行業(yè)完成了實際的應(yīng)用和推廣。

ServiceHot是中國電子工業(yè)標準化ITSS副組長單位,參與國家IT服務(wù)標準的編制和評審。榮獲2018 “中國IT服務(wù)十大優(yōu)秀產(chǎn)品”(ITSM類)、2017-2018年度中國SAAS產(chǎn)業(yè)最佳IT服務(wù)類SAAS服務(wù)商。案例包括:XX省農(nóng)信、國信證券、鄭州商品交易所、深圳證券信息、長虹集團、中航西飛、一汽啟明、中國移動、云天化集團、天原集團、華為、蘋果等。

ServiceHot一直秉承“讓您掌控IT運營服務(wù)的每一個瞬間”理念,以客戶為中心技術(shù)為驅(qū)動,持續(xù)專研從ITSMITSOM再到SOM的升級和創(chuàng)新方案,讓企業(yè)級IT服務(wù)管理擁有“智能、協(xié)同、移動、社交”的體驗。