原文:

IT運(yùn)維(IT Ops)人員在組織中扮演著三個(gè)關(guān)鍵性角色。他們可以是建筑師、建設(shè)者以及出現(xiàn)問題時(shí)為你們挽救大局的英雄。他們?cè)O(shè)想和幫助規(guī)劃數(shù)字環(huán)境,建立這些環(huán)境運(yùn)行的基礎(chǔ)設(shè)施,并在問題變?yōu)槲C(jī)之前(和之后)解決這些問題。

正如他們?cè)贕eico廣告中所說的那樣,這就是他們所做的。

今天,我想把重點(diǎn)放在IT運(yùn)維工作的突破性/固性上,特別是預(yù)防IT網(wǎng)絡(luò)危機(jī)并在發(fā)生危機(jī)時(shí)應(yīng)對(duì)它們的一些瑣碎的事情?;谶^去15年處理IT運(yùn)維變更的經(jīng)驗(yàn),個(gè)人覺得IT專業(yè)人員需要注意以下重要事項(xiàng),以避免網(wǎng)絡(luò)危機(jī),或是在危機(jī)已經(jīng)到來(lái)時(shí)解決危機(jī)。

什么發(fā)生了變化?—— 很多的(甚至是大部分的)危機(jī)是由于環(huán)境的變化而產(chǎn)生的。在診斷問題時(shí),了解一下最近發(fā)生的其他環(huán)境變化也許會(huì)對(duì)你有所幫助。如果你不能找到很明顯的直接原因,請(qǐng)花點(diǎn)時(shí)間來(lái)詢問: 最近發(fā)生的可能導(dǎo)致該問題的原因是什么?這在解決遠(yuǎn)程問題時(shí)特別有用,因?yàn)槟悴豢赡芸吹桨l(fā)生的所有事情。

例如,如果服務(wù)器停止響應(yīng),首先要檢查服務(wù)器,確保服務(wù)器沒有掛起或宕機(jī),硬盤空間足夠并已連接到網(wǎng)絡(luò)等。如果你無(wú)法在服務(wù)器本身找到原因,那么是時(shí)候擴(kuò)大搜索范圍并查看其他在近期發(fā)生的變化了。

在故障期間,網(wǎng)絡(luò)連接往往會(huì)揭露自身問題。檢查你的項(xiàng)目管理系統(tǒng)或更改日志,以查看網(wǎng)絡(luò)上最近發(fā)生了哪些變化。可能是由于配置在錯(cuò)誤的路由器、交換機(jī)或防火墻后面,導(dǎo)致你無(wú)法訪問服務(wù)器。也可能是有人意外地刪除了服務(wù)器的DNS記錄或更改了路由路徑。問題可能發(fā)生在其他地方,你看到的只是癥狀,而不是導(dǎo)致問題發(fā)生的根源。

有計(jì)劃地避免附帶損害 —— 當(dāng)你在一個(gè)地方進(jìn)行變更時(shí),卻在另一個(gè)地方發(fā)生了意想不到的問題,沒有比這更令人沮喪的了。一個(gè)附帶損害的例子可能是置換出一臺(tái)服務(wù)器,結(jié)果卻發(fā)現(xiàn)它敲出了一個(gè)夜間傳輸,因?yàn)閭鬏數(shù)陌踩院蜋C(jī)器的硬件認(rèn)證相關(guān)聯(lián),改變硬件就改變了硬件鍵。避免附帶損害的關(guān)鍵是在作出變更之前做好功課并盡可能多地確定相關(guān)功能。深入了解并識(shí)別任一相關(guān)功能,并對(duì)你的計(jì)劃作出必要調(diào)整。

列一個(gè)變更清單 —— Atul Gawande在他的著作《清單宣言(Checklist Manifesto)》中談到如何運(yùn)用清單來(lái)提高我們正確、安全和可靠地傳遞信息的能力。 IT 運(yùn)維人員經(jīng)常會(huì)使用記憶、培訓(xùn)和直覺來(lái)進(jìn)行關(guān)鍵性的工作。當(dāng)他們不按順序執(zhí)行或是跳過某些步驟執(zhí)行時(shí)往往會(huì)出現(xiàn)問題。我非常支持在進(jìn)行網(wǎng)絡(luò)變更時(shí)使用清單,以確保成功并能避免危機(jī)。一個(gè)好的清單可以幫助你在變更過程中計(jì)劃并正確實(shí)施這些步驟。

預(yù)備步驟 - 在作出更改之前需要做些什么?哪些服務(wù)器或設(shè)備需要被down或調(diào)整?需要通知誰(shuí)?

進(jìn)程中的步驟 - 在更改過程中必須執(zhí)行哪些步驟?需要修改哪些配置?

驗(yàn)證變更是否奏效 - 您如何確定變更是否奏效。你應(yīng)該檢查哪些項(xiàng)目?應(yīng)使用哪些數(shù)據(jù)來(lái)進(jìn)行驗(yàn)證?

應(yīng)急程序 - 如果形勢(shì)轉(zhuǎn)壞,應(yīng)該使用什么策略來(lái)緩解?你的應(yīng)急策略是什么?

恢復(fù)步驟 -如何才能撤銷為實(shí)施更改所做的預(yù)備步驟?(這一步必須得到重視,因?yàn)樗梢员苊庖l(fā)另一個(gè)危機(jī)。)

清單不一定要很長(zhǎng),但是要深入、準(zhǔn)確和適用。個(gè)人覺得,使用清單是網(wǎng)絡(luò)變更成功的關(guān)鍵。如果你對(duì)此有興趣,可以查看我之前寫的文章《IT項(xiàng)目實(shí)施時(shí)使用清單的8個(gè)理由》。

一次只做好一件事”原則 —— 我個(gè)人的原則是:一次只做一項(xiàng)主要的網(wǎng)絡(luò)更改。如果只做一處變更,那么即便出現(xiàn)問題,你也只面臨一個(gè)危機(jī)。如果兩個(gè)或兩個(gè)以上的變更同時(shí)出問題,那就是另外一回事了,就造成了多重危機(jī)。一次執(zhí)行數(shù)個(gè)更改,卻只有一部分網(wǎng)絡(luò)down掉,這聽起來(lái)很誘人,但是請(qǐng)不要這么做。這種冒險(xiǎn)行為并不值得。

要清楚你所處的位置 —— 位置感知(position awareness) - 當(dāng)IT人員誤以為自己是在測(cè)試系統(tǒng)上工作,然后抹去了一個(gè)生產(chǎn)系統(tǒng),這絕對(duì)是最可怕的自我傷害。一個(gè)最好的例子就是IT經(jīng)理在刷新QA數(shù)據(jù)庫(kù)的時(shí)候,意外地清空了生產(chǎn)數(shù)據(jù)庫(kù),因?yàn)樗阱e(cuò)誤的機(jī)器上。通常在使用遠(yuǎn)程桌面程序時(shí)會(huì)出現(xiàn)這些錯(cuò)誤,因?yàn)槟憧赡茉跓o(wú)意中連接到了錯(cuò)誤的機(jī)器。在工作開始之前,一定要確保你在正確的機(jī)器上,即便只是執(zhí)行一個(gè)hostname命令那么簡(jiǎn)單。在它首次制止你連接到錯(cuò)誤的機(jī)器上的時(shí)候,你會(huì)感激你自己。

上述都是一些在變更管理指南中并未提及或僅是簡(jiǎn)單提及的實(shí)用性步驟。這些步驟很簡(jiǎn)單,但是可以幫助你應(yīng)對(duì)意外的IT運(yùn)維危機(jī)或是防止產(chǎn)生危機(jī)。

Servicehot介紹:

永服科技有限公司(簡(jiǎn)稱“Servicehot”或“永服科技”),提供Servicehot IT服務(wù)管理平臺(tái)(Servicehot ITSM)和Servicehot IT服務(wù)運(yùn)營(yíng)管理平臺(tái)(Servicehot ITSOM)產(chǎn)品,基于J2EE搭建的架構(gòu)平臺(tái)、可以適應(yīng)云計(jì)算部署環(huán)境,具有較好的易用性、擴(kuò)展性以及配置功能,適用于公司目前IT服務(wù)過程不斷改進(jìn)、提升,業(yè)務(wù)邏輯及流程復(fù)雜等環(huán)境的要求,并且在大型的國(guó)企、制造業(yè)、金融等企業(yè)完成了實(shí)際的應(yīng)用和推廣。

ServiceHot運(yùn)用ITIL、ISO20000等最佳實(shí)踐方法,結(jié)合ServiceHot在國(guó)內(nèi)外眾多行業(yè)客戶的IT服務(wù)管理、信息安全管理方面的成功實(shí)施經(jīng)驗(yàn)。協(xié)助客戶設(shè)計(jì)并通過ITSS、ITIL、ISO20000等國(guó)際認(rèn)證,幫助客戶提升IT服務(wù)管理水平和競(jìng)爭(zhēng)力,提高IT服務(wù)效率,強(qiáng)化人員考核,加強(qiáng)對(duì)供應(yīng)商考核,提升客戶滿意度。

永服科技是中國(guó)優(yōu)秀的 IT服務(wù)管理解決方案服務(wù)商和產(chǎn)品廠商,注冊(cè)資金5000萬(wàn),是國(guó)家IT服務(wù)標(biāo)準(zhǔn)ITSS工具組副組長(zhǎng)單位,參與國(guó)家IT服務(wù)標(biāo)準(zhǔn)的編制和評(píng)審。其制造業(yè)和金融行業(yè)為主要客群,金融業(yè)案例包括:XX省農(nóng)信、國(guó)信證券、鄭州商品交易所、深圳證券信息、阜新銀行等多家省級(jí)和地市金融企業(yè);制造業(yè)客戶包含:四川長(zhǎng)虹集團(tuán)、中國(guó)移動(dòng)、云天化集團(tuán)、天原集團(tuán)、華為等大型國(guó)企或制造業(yè)企業(yè)。其產(chǎn)品和同行業(yè)內(nèi)IT服務(wù)管理項(xiàng)目的實(shí)施經(jīng)驗(yàn)有利于提升公司IT服務(wù)效力、降低IT運(yùn)營(yíng)風(fēng)險(xiǎn),為信息系統(tǒng)安全、可靠、高效地運(yùn)行提供有力的保障。