原文:

ITIL4之 IT服務(wù)連續(xù)性管理

服務(wù)連續(xù)性管理實(shí)踐的目的是確保災(zāi)難發(fā)生時(shí),服務(wù)的可用性和性能能夠保持在足夠的水平。本實(shí)踐提供了一個(gè)框架機(jī)制,利用產(chǎn)生有效[url=]響應(yīng)[/url]的能力來構(gòu)建組織的彈性,以保障關(guān)鍵利益相關(guān)者的利益,還有組織的聲譽(yù)、品牌和創(chuàng)造價(jià)值的活動。

image

定義:災(zāi)難

一個(gè)突發(fā)的意外事態(tài),會對組織造成巨大損壞或嚴(yán)重?fù)p失。要被歸類為災(zāi)難,這一事態(tài)必須與組織預(yù)定義的特定業(yè)務(wù)影響準(zhǔn)則相匹配。服務(wù)連續(xù)性管理實(shí)踐有助于確保服務(wù)提供者做好應(yīng)對高影響事件的準(zhǔn)備,這些事件會破壞組織的核心活動和/或信譽(yù)。確保服務(wù)的連續(xù)性變得越來越重要和困難。在數(shù)字化轉(zhuǎn)型的背景下,服務(wù)連續(xù)性管理實(shí)踐變得越來越重要,因?yàn)樵诟鱾€(gè)行業(yè),數(shù)字化服務(wù)的作用越來越大。對于在過去專注于非技術(shù)災(zāi)難的組織而言,重大服務(wù)中斷可能產(chǎn)生災(zāi)難性的影響。

云解決方案的廣泛使用,以及與合作伙伴和服務(wù)消費(fèi)者的數(shù)字化服務(wù)的廣泛整合,正在產(chǎn)生更加難以控制的新的關(guān)鍵依賴關(guān)系。合作伙伴和服務(wù)消費(fèi)者通常會投資于高可用性和高連續(xù)性解決方案上,但是組織之間缺乏整合和一致性會產(chǎn)生新的脆弱性,這一點(diǎn)需要被了解并解決。

服務(wù)連續(xù)性管理實(shí)踐與其他實(shí)踐(包括可用性管理,容量和性能管理,信息安全管理,風(fēng)險(xiǎn)管理,服務(wù)設(shè)計(jì),關(guān)系管理,架構(gòu)管理和供應(yīng)商管理實(shí)踐)相結(jié)合,可以確保組織的服務(wù)具有彈性并為災(zāi)難性事件做好準(zhǔn)備。

風(fēng)險(xiǎn)的概念是服務(wù)連續(xù)性管理實(shí)踐的核心。該實(shí)踐通??梢詼p輕無法被完全避免的高影響、低概率風(fēng)險(xiǎn)(因?yàn)槟承╋L(fēng)險(xiǎn)因素不在組織的控制之下,例如自然災(zāi)害)。


簡單來說,此實(shí)踐與事件管理實(shí)踐非常相似,不同之處在于其潛在的損害要大得多,并且它可能威脅到服務(wù)提供者創(chuàng)造價(jià)值的能力。


服務(wù)連續(xù)性管理實(shí)踐與服務(wù)價(jià)值系統(tǒng)(SVS)中的可用性管理實(shí)踐密切相關(guān),并且在某些情況下可以合二為一。它也與公司背景下的業(yè)務(wù)連續(xù)性管理實(shí)踐緊密相關(guān),并可以納入其中。



IT服務(wù)連續(xù)性的術(shù)語


定義:服務(wù)連續(xù)性

在發(fā)生災(zāi)難事件或中斷性事件后,服務(wù)提供商在可接受的預(yù)定義級別上繼續(xù)服務(wù)運(yùn)行的能力。


在這個(gè)定義中,我們需要界定連續(xù)性管理的范疇是災(zāi)難,連續(xù)性管理是針對災(zāi)難性事件而制定的計(jì)劃和響應(yīng)措施。非災(zāi)難性事件的管理,一般不包括在IT服務(wù)連續(xù)性管理實(shí)踐中,如

●小故障。根據(jù)業(yè)務(wù)影響,應(yīng)將故障視為輕微或重大故障。重要的是要考慮諸如受影響的維修行動、故障規(guī)模、故障時(shí)間等因素。

●戰(zhàn)略、政治、市場或行業(yè)事件


定義:服務(wù)連續(xù)性計(jì)劃

服務(wù)連續(xù)性計(jì)劃指導(dǎo)服務(wù)提供商在服務(wù)中斷后響應(yīng)、恢復(fù)和恢復(fù)到正常水平.


服務(wù)連續(xù)性計(jì)劃通常包括:

●響應(yīng)計(jì)劃:服務(wù)提供商最初如何應(yīng)對破壞性事件,以防止損壞,例如在火災(zāi)或網(wǎng)絡(luò)攻擊情況下。

●恢復(fù)計(jì)劃:服務(wù)提供者如何恢復(fù)服務(wù)以實(shí)現(xiàn)RTO和RPO。

●恢復(fù)正常的操作計(jì)劃:服務(wù)提供商在恢復(fù)后如何恢復(fù)正常操作。

指標(biāo):RTO和RPO


定義:RTO 恢復(fù)時(shí)間目標(biāo)

在服務(wù)中斷后,業(yè)務(wù)功能的缺乏嚴(yán)重影響組織之前,可以經(jīng)過的最長時(shí)間。這表示必須恢復(fù)產(chǎn)品或活動或必須恢復(fù)資源的最長商定時(shí)間。

定義:RPO 恢復(fù)點(diǎn)目標(biāo)

為了使活動在恢復(fù)時(shí)能夠有效地運(yùn)行,必須將活動使用的信息恢復(fù)到該點(diǎn)。

RTO 規(guī)定了業(yè)務(wù)可以中斷的時(shí)間。RPO規(guī)定了可接受數(shù)據(jù)丟失的時(shí)間段。通常,RTO和RPO都是作為連續(xù)性管理的衡量指標(biāo),寫入SLA中。



服務(wù)連續(xù)性管理的流程

服務(wù)連續(xù)性管理活動分為以下五個(gè)過程:

●服務(wù)連續(xù)性管理的治理

●業(yè)務(wù)影響分析

●制定和維護(hù)服務(wù)連續(xù)性計(jì)劃

●測試服務(wù)連續(xù)性計(jì)劃

●響應(yīng)和恢復(fù)。


1. 服務(wù)連續(xù)性管理的治理

服務(wù)連續(xù)性治理主要包括三個(gè)活動,定義范圍、策略選擇和意識與演練計(jì)劃的開發(fā)。一般做連續(xù)性的企業(yè),主營業(yè)務(wù)都非龐大,IT系統(tǒng)更是錯(cuò)綜復(fù)雜,交互繁多。出于經(jīng)濟(jì)效益的考慮,企業(yè)不可能保證所有的應(yīng)用和基礎(chǔ)設(shè)施組件都有備份,所以首先根據(jù)BIA(業(yè)務(wù)需求分析),確定關(guān)鍵業(yè)務(wù)和組件。然后根據(jù)不同的級別,選擇不同的災(zāi)備方式和演練計(jì)劃。


2. 業(yè)務(wù)影響分析 BIA

業(yè)務(wù)影響分析包括以下活動:

●VBF識別

●中斷后果分析

●VBF相互依賴性識別

●確定服務(wù)連續(xù)性要求

ITIL 4中對于這些活動并未給出具體的實(shí)施方法。后面我會專門寫一篇,如何開展BIA。BIA的難點(diǎn)在于技術(shù)實(shí)施層面,必須有系統(tǒng)架構(gòu)師參與,進(jìn)行風(fēng)險(xiǎn)評估也需要技術(shù)人員。


3. 制定和維護(hù)服務(wù)連續(xù)性計(jì)劃

這個(gè)過程包括的步驟是:

●服務(wù)連續(xù)性策略制定

●服務(wù)連續(xù)性計(jì)劃制定

●服務(wù)連續(xù)性計(jì)劃初步測試

服務(wù)連續(xù)性策略可以包括連續(xù)性的等級,對應(yīng)的RTO和RPO的目標(biāo),可用性目標(biāo),演練的等級。如:

金融領(lǐng)域的云計(jì)算平臺容災(zāi)能力等級要求

影響范圍

危害程度

較小影響

一般影響

嚴(yán)重影響

內(nèi)部輔助管理

1級

2級

3級

內(nèi)部運(yùn)營管理

2級

3級

4級

公民、法人和其他組織的金融權(quán)益

3級

4級

5級

國家金融穩(wěn)定、金融秩序

4級

5級

6級


關(guān)鍵指標(biāo):

容災(zāi)等級

RTO

RPO

可用性

3級

<=24小時(shí)

<=24小時(shí)


4級

<=4小時(shí)

<=1小時(shí)


5級

<=30分鐘

約等于0


6級

<=2分鐘

0


演練等級在《保險(xiǎn)業(yè)信息系統(tǒng)災(zāi)難恢復(fù)管理指引(保監(jiān)發(fā)[2008]20號)》規(guī)定為:桌面演練、模擬演練、實(shí)戰(zhàn)演練、部分演練和全面演練。


4. 測試連續(xù)性計(jì)劃

這個(gè)過程包括執(zhí)行演練和連續(xù)性評審兩個(gè)活動。


5. 響應(yīng)和恢復(fù)

響應(yīng)包括對應(yīng)供應(yīng)商服務(wù)連續(xù)性計(jì)劃的調(diào)用。


若需要ITIL4 服務(wù)連續(xù)性管理實(shí)踐完整實(shí)踐資料,請點(diǎn)擊右上角注冊賬號后向客服索?。?/span>