原文:

如何運(yùn)行一個(gè)龐雜的機(jī)房,進(jìn)行無(wú)數(shù)的主動(dòng)和被動(dòng)的操作,同時(shí)避免錯(cuò)誤導(dǎo)致的數(shù)據(jù)中心故障?


1、以終為始

以終為始是一種以結(jié)果為導(dǎo)向的思維方式,提示人們?cè)谧鍪虑榍耙让鞔_做事情的最終目的,也就是“不忘初心,方得始終”。數(shù)據(jù)中心的終極目標(biāo)是支持業(yè)務(wù)系統(tǒng)的不間斷運(yùn)行。在接手一個(gè)數(shù)據(jù)中心的運(yùn)維任務(wù)之前,我們首先需要明確業(yè)務(wù)連續(xù)性目標(biāo),然后才能制定相應(yīng)的運(yùn)維策略。

2、以人為本

70%的數(shù)據(jù)中心故障是由人為造成的。與此同時(shí),即使有最先進(jìn)的監(jiān)控系統(tǒng),數(shù)據(jù)中心內(nèi)無(wú)論主動(dòng)保養(yǎng)操作,還是應(yīng)急反應(yīng),都還需要依賴于人員的最終決策和操作。所以,配備足夠的人員、有責(zé)任心、經(jīng)驗(yàn)豐富的人員、對(duì)于數(shù)據(jù)中心的安全運(yùn)行至關(guān)重要。

3、培訓(xùn)與學(xué)習(xí)

學(xué)習(xí)是一種修煉。有一種說(shuō)法“最好的運(yùn)維團(tuán)隊(duì)只不過(guò)是犯了足夠的錯(cuò)誤就修煉出來(lái)的”。數(shù)據(jù)中心基礎(chǔ)設(shè)施牽涉到電力、暖通、弱電、消防、建筑等諸多專業(yè),對(duì)于數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)來(lái)說(shuō),需要學(xué)習(xí)的專業(yè)知識(shí)非常多。同時(shí),每一個(gè)數(shù)據(jù)中心的配置和特定的操作流程都不完全相同。因此,培訓(xùn)與學(xué)習(xí)應(yīng)該成為運(yùn)維團(tuán)隊(duì)管理的一個(gè)重要組成部門。

4、建立管理體系

數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)維管理工作的管理對(duì)象包括整個(gè)龐大的基礎(chǔ)設(shè)施、運(yùn)維團(tuán)隊(duì)、服務(wù)對(duì)象(IT部門或者IDC客戶),是一項(xiàng)系統(tǒng)性很強(qiáng)的工作,需要建立起一個(gè)管理體系。在整個(gè)運(yùn)維管理系統(tǒng)體系中最重要的三個(gè)方面是設(shè)備保養(yǎng)體系、與所有相關(guān)部門的溝通機(jī)制、以及支持整個(gè)數(shù)據(jù)中心生命周期管理的財(cái)務(wù)預(yù)算體系。

5、規(guī)范操作流程

任何規(guī)范化的企業(yè)管理,都不可避免地需要引入流程,數(shù)據(jù)中心運(yùn)維管理也不例外。完全基于個(gè)人經(jīng)驗(yàn)和判斷的操作,往往隱藏著重大的故障風(fēng)險(xiǎn)。數(shù)據(jù)中心就是要強(qiáng)化流程管理。任何重要的操作,必須嚴(yán)格按照流程執(zhí)行。建立流程文化是數(shù)據(jù)中心規(guī)范化管理的一個(gè)重要環(huán)節(jié)。數(shù)據(jù)中心最重要的三類流程是標(biāo)準(zhǔn)操作流程(SOP),維護(hù)保養(yǎng)操作流程(MOP),和應(yīng)急相應(yīng)流程(EOP)。

6、動(dòng)態(tài)管控

除了之前提到的管理體系和操作流程這些相對(duì)靜態(tài)的工作以外,數(shù)據(jù)中心還需要進(jìn)行動(dòng)態(tài)的管控。近幾年,IT負(fù)載的動(dòng)態(tài)性表現(xiàn)得越來(lái)越明顯。一方面,IT設(shè)備的增加速度比較快。新的業(yè)務(wù)系統(tǒng)上線可能導(dǎo)致IT負(fù)載在短期內(nèi)有較大的增加。另一方面,企業(yè)大量采用虛擬化技術(shù)以后,可能會(huì)出現(xiàn)機(jī)房?jī)?nèi)各機(jī)柜的IT負(fù)載在一天范圍內(nèi)有較大變化的情況?;A(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)需要針對(duì)這種IT負(fù)載的動(dòng)態(tài)性作出相應(yīng)的對(duì)策。

7、持續(xù)改善

大型數(shù)據(jù)中心的出現(xiàn)只是近幾年的事情。當(dāng)數(shù)據(jù)中心超過(guò)一定規(guī)模的時(shí)候,管理變得復(fù)雜,已經(jīng)超越原來(lái)簡(jiǎn)單的依賴于少數(shù)運(yùn)維人員的責(zé)任心的時(shí)代,需要的是完整的管理思想和方法論。國(guó)內(nèi)數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維體系的成熟度大致處于三個(gè)等級(jí)的狀態(tài):基礎(chǔ)級(jí)、成長(zhǎng)級(jí)、文化級(jí)。

8、用運(yùn)維管理工具

實(shí)踐已經(jīng)證明,用一個(gè)優(yōu)秀的運(yùn)維管理系統(tǒng)可以大幅度的提升運(yùn)維管理效率??梢宰远x不同的運(yùn)維流程和頁(yè)面字段,每一個(gè)流程可進(jìn)行服務(wù)級(jí)別sal的設(shè)置。督促運(yùn)維工程師解決故障。另外,運(yùn)維經(jīng)理可以從PC或者移動(dòng)端隨時(shí)關(guān)注運(yùn)維流程的進(jìn)程。一套運(yùn)維管理工具包含有事件管理、問(wèn)題管理、變更管理、發(fā)布管理、知識(shí)庫(kù)、配置管理、拓?fù)鋱D、巡檢、等功能,可以實(shí)現(xiàn)運(yùn)維整體的安全、可控、高效的管理。