原文:

應(yīng)急管理,是對(duì)數(shù)據(jù)中心運(yùn)維過(guò)程中所發(fā)生的緊急的非常態(tài)運(yùn)行狀況的措施部署與管理,數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行可能會(huì)遇到緊急狀況的發(fā)生,而緊急狀況是數(shù)據(jù)中心基礎(chǔ)設(shè)可靠性和業(yè)務(wù)連續(xù)性的最大挑戰(zhàn),辨識(shí)和處理緊急狀況是衡量運(yùn)維能力的重要指標(biāo)。運(yùn)維要時(shí)刻準(zhǔn)備好面對(duì)緊急狀況的發(fā)生,實(shí)際中,由于緊急狀況難以提前判斷,所以對(duì)于應(yīng)急工作的管理,更多體現(xiàn)在各類應(yīng)急場(chǎng)景的應(yīng)急預(yù)案準(zhǔn)備和演練的機(jī)制及措施上。

一、應(yīng)急管理的定義

  1.應(yīng)急的定義

    應(yīng)急是對(duì)超出一般運(yùn)行狀態(tài)的工況立即采取必要的應(yīng)對(duì)措施,以降低突發(fā)狀況給系統(tǒng)可用性和連續(xù)性帶來(lái)的威脅和影響。

  2.應(yīng)急管理的定義

    應(yīng)急管理是根據(jù)數(shù)據(jù)中心實(shí)際運(yùn)行情況為緊急和突發(fā)的非正常運(yùn)行工況而設(shè)定的一系列流程、制度、預(yù)案等應(yīng)對(duì)措施的管理工作。

二、應(yīng)急管理的目的

    應(yīng)急管理的目的是能夠及時(shí)和正確地處理突發(fā)緊急狀況,達(dá)到預(yù)期處理效果,降低或消除影響,恢復(fù)數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)的可用性。具體表現(xiàn)在:

    1)使運(yùn)維人員有采取應(yīng)急措施的依據(jù),且能正確高效處理應(yīng)急狀況。

    2)對(duì)應(yīng)急狀況控制和監(jiān)控,降低損失,保障運(yùn)行現(xiàn)場(chǎng)的人員安全和設(shè)施安全。

    3)盡快恢復(fù)系統(tǒng)運(yùn)行和盡可能恢復(fù)服務(wù)等級(jí)。

三、應(yīng)急管理的范圍

    應(yīng)急管理的范圍包括基礎(chǔ)設(shè)施運(yùn)維過(guò)程中產(chǎn)生的所有應(yīng)急狀況。應(yīng)急狀況一般分為兩類:一類是常規(guī)的緊急事件,不可預(yù)估,需設(shè)置一般性應(yīng)急處理流程,另一類是可預(yù)估應(yīng)急狀況,需要制定完善的應(yīng)急預(yù)案,定期實(shí)施應(yīng)急演練。

四、應(yīng)急管理的流程

  1.主要流程

    應(yīng)急管理的流程應(yīng)當(dāng)是針對(duì)數(shù)據(jù)中心實(shí)際運(yùn)行情況,從風(fēng)險(xiǎn)分析開(kāi)始到正確處理應(yīng)急事件的全過(guò)程,主要包括:

    1) 風(fēng)險(xiǎn)分析。

    2)場(chǎng)景梳理。

    3)體系建立。

    4)應(yīng)急演練。

    5)優(yōu)化配置。

    6) 循環(huán)改進(jìn)。

  2.應(yīng)急響應(yīng)

    突發(fā)或緊急事件發(fā)生時(shí),應(yīng)按照分級(jí)負(fù)責(zé)、快速反應(yīng)的原則響應(yīng),數(shù)據(jù)中心應(yīng)急預(yù)案及響應(yīng)等級(jí)劃分可參照國(guó)家應(yīng)急預(yù)案標(biāo)準(zhǔn),結(jié)合數(shù)據(jù)中心的屬性和等級(jí)制定。應(yīng)急預(yù)案應(yīng)按照風(fēng)險(xiǎn)發(fā)生的可能性以及發(fā)生后果的嚴(yán)重性制定,并應(yīng)確保對(duì)應(yīng)應(yīng)急場(chǎng)景下的可接受的服務(wù)目標(biāo)的實(shí)現(xiàn),應(yīng)急預(yù)案不僅包括 EOP,還應(yīng)包括以下內(nèi)容:

    1) 應(yīng)急預(yù)案的使用原則和適用場(chǎng)景。

    2) 應(yīng)急人員的組織架構(gòu)及職責(zé)。

    3) 警報(bào)等級(jí)的劃分及啟動(dòng)應(yīng)急響應(yīng)的策略.

    4) 應(yīng)急狀況下的通報(bào)制度。

    5) 應(yīng)急狀況下的關(guān)鍵可用資源。

    6) 應(yīng)急狀況所造成直接后果的詳細(xì)說(shuō)明。

    7)在預(yù)定的時(shí)間里繼續(xù)或恢復(fù)數(shù)據(jù)中心運(yùn)行的具體措施。

    8) 應(yīng)急結(jié)束后的退出過(guò)程及善后工作。

    9) 應(yīng)急處理信息的存檔。

  3.與其他流程的關(guān)系

    應(yīng)急狀況發(fā)生時(shí),可能會(huì)觸發(fā)其他流程,此時(shí)就要與其他流程共同完成應(yīng)急處理。例如,事件管理流程、問(wèn)題管理流程、變更管理流程等。

  4.管理策略

    應(yīng)急管理應(yīng)遵循以下策略:

    1) 應(yīng)急處理有章可循,有法可依。

    2) 遵守國(guó)家相關(guān)法律法規(guī),遵守?cái)?shù)據(jù)中心所在地區(qū)的行政法律法規(guī)。

    3) 在保障運(yùn)維人員生命安全的前提下,最大限度保障生產(chǎn),降低損失和減小影響。

    4) 應(yīng)急處理要做到統(tǒng)一領(lǐng)導(dǎo),分級(jí)指揮,充分利用已備資源,突出保障重點(diǎn)。

    5) 應(yīng)急處理的信息發(fā)布應(yīng)當(dāng)及時(shí)、準(zhǔn)確、客觀、全面。

    6) 對(duì)應(yīng)急處理工作進(jìn)行復(fù)盤(pán)和總結(jié)。