ITIL4之 IT服務(wù)連續(xù)性管理
服務(wù)連續(xù)性管理實(shí)踐的目的是確保災(zāi)難發(fā)生時(shí),服務(wù)的可用性和性能能夠保持在足夠的水平。本實(shí)踐提供了一個(gè)框架機(jī)制,利用產(chǎn)生有效[url=]響應(yīng)[/url]的能力來構(gòu)建組織的彈性,以保障關(guān)鍵利益相關(guān)者的利益,還有組織的聲譽(yù)、品牌和創(chuàng)造價(jià)值的活動。
定義:災(zāi)難
一個(gè)突發(fā)的意外事態(tài),會對組織造成巨大損壞或嚴(yán)重?fù)p失。要被歸類為災(zāi)難,這一事態(tài)必須與組織預(yù)定義的特定業(yè)務(wù)影響準(zhǔn)則相匹配。服務(wù)連續(xù)性管理實(shí)踐有助于確保服務(wù)提供者做好應(yīng)對高影響事件的準(zhǔn)備,這些事件會破壞組織的核心活動和/或信譽(yù)。確保服務(wù)的連續(xù)性變得越來越重要和困難。在數(shù)字化轉(zhuǎn)型的背景下,服務(wù)連續(xù)性管理實(shí)踐變得越來越重要,因?yàn)樵诟鱾€(gè)行業(yè),數(shù)字化服務(wù)的作用越來越大。對于在過去專注于非技術(shù)災(zāi)難的組織而言,重大服務(wù)中斷可能產(chǎn)生災(zāi)難性的影響。
云解決方案的廣泛使用,以及與合作伙伴和服務(wù)消費(fèi)者的數(shù)字化服務(wù)的廣泛整合,正在產(chǎn)生更加難以控制的新的關(guān)鍵依賴關(guān)系。合作伙伴和服務(wù)消費(fèi)者通常會投資于高可用性和高連續(xù)性解決方案上,但是組織之間缺乏整合和一致性會產(chǎn)生新的脆弱性,這一點(diǎn)需要被了解并解決。
服務(wù)連續(xù)性管理實(shí)踐與其他實(shí)踐(包括可用性管理,容量和性能管理,信息安全管理,風(fēng)險(xiǎn)管理,服務(wù)設(shè)計(jì),關(guān)系管理,架構(gòu)管理和供應(yīng)商管理實(shí)踐)相結(jié)合,可以確保組織的服務(wù)具有彈性并為災(zāi)難性事件做好準(zhǔn)備。
風(fēng)險(xiǎn)的概念是服務(wù)連續(xù)性管理實(shí)踐的核心。該實(shí)踐通??梢詼p輕無法被完全避免的高影響、低概率風(fēng)險(xiǎn)(因?yàn)槟承╋L(fēng)險(xiǎn)因素不在組織的控制之下,例如自然災(zāi)害)。
簡單來說,此實(shí)踐與事件管理實(shí)踐非常相似,不同之處在于其潛在的損害要大得多,并且它可能威脅到服務(wù)提供者創(chuàng)造價(jià)值的能力。
服務(wù)連續(xù)性管理實(shí)踐與服務(wù)價(jià)值系統(tǒng)(SVS)中的可用性管理實(shí)踐密切相關(guān),并且在某些情況下可以合二為一。它也與公司背景下的業(yè)務(wù)連續(xù)性管理實(shí)踐緊密相關(guān),并可以納入其中。
IT服務(wù)連續(xù)性的術(shù)語
定義:服務(wù)連續(xù)性
在發(fā)生災(zāi)難事件或中斷性事件后,服務(wù)提供商在可接受的預(yù)定義級別上繼續(xù)服務(wù)運(yùn)行的能力。
在這個(gè)定義中,我們需要界定連續(xù)性管理的范疇是災(zāi)難,連續(xù)性管理是針對災(zāi)難性事件而制定的計(jì)劃和響應(yīng)措施。非災(zāi)難性事件的管理,一般不包括在IT服務(wù)連續(xù)性管理實(shí)踐中,如
●小故障。根據(jù)業(yè)務(wù)影響,應(yīng)將故障視為輕微或重大故障。重要的是要考慮諸如受影響的維修行動、故障規(guī)模、故障時(shí)間等因素。
●戰(zhàn)略、政治、市場或行業(yè)事件
定義:服務(wù)連續(xù)性計(jì)劃
服務(wù)連續(xù)性計(jì)劃指導(dǎo)服務(wù)提供商在服務(wù)中斷后響應(yīng)、恢復(fù)和恢復(fù)到正常水平.
服務(wù)連續(xù)性計(jì)劃通常包括:
●響應(yīng)計(jì)劃:服務(wù)提供商最初如何應(yīng)對破壞性事件,以防止損壞,例如在火災(zāi)或網(wǎng)絡(luò)攻擊情況下。
●恢復(fù)計(jì)劃:服務(wù)提供者如何恢復(fù)服務(wù)以實(shí)現(xiàn)RTO和RPO。
●恢復(fù)正常的操作計(jì)劃:服務(wù)提供商在恢復(fù)后如何恢復(fù)正常操作。
指標(biāo):RTO和RPO
定義:RTO 恢復(fù)時(shí)間目標(biāo)
在服務(wù)中斷后,業(yè)務(wù)功能的缺乏嚴(yán)重影響組織之前,可以經(jīng)過的最長時(shí)間。這表示必須恢復(fù)產(chǎn)品或活動或必須恢復(fù)資源的最長商定時(shí)間。
定義:RPO 恢復(fù)點(diǎn)目標(biāo)
為了使活動在恢復(fù)時(shí)能夠有效地運(yùn)行,必須將活動使用的信息恢復(fù)到該點(diǎn)。
RTO 規(guī)定了業(yè)務(wù)可以中斷的時(shí)間。RPO規(guī)定了可接受數(shù)據(jù)丟失的時(shí)間段。通常,RTO和RPO都是作為連續(xù)性管理的衡量指標(biāo),寫入SLA中。
服務(wù)連續(xù)性管理的流程
服務(wù)連續(xù)性管理活動分為以下五個(gè)過程:
●服務(wù)連續(xù)性管理的治理
●業(yè)務(wù)影響分析
●制定和維護(hù)服務(wù)連續(xù)性計(jì)劃
●測試服務(wù)連續(xù)性計(jì)劃
●響應(yīng)和恢復(fù)。
1. 服務(wù)連續(xù)性管理的治理
服務(wù)連續(xù)性治理主要包括三個(gè)活動,定義范圍、策略選擇和意識與演練計(jì)劃的開發(fā)。一般做連續(xù)性的企業(yè),主營業(yè)務(wù)都非龐大,IT系統(tǒng)更是錯(cuò)綜復(fù)雜,交互繁多。出于經(jīng)濟(jì)效益的考慮,企業(yè)不可能保證所有的應(yīng)用和基礎(chǔ)設(shè)施組件都有備份,所以首先根據(jù)BIA(業(yè)務(wù)需求分析),確定關(guān)鍵業(yè)務(wù)和組件。然后根據(jù)不同的級別,選擇不同的災(zāi)備方式和演練計(jì)劃。
2. 業(yè)務(wù)影響分析 BIA
業(yè)務(wù)影響分析包括以下活動:
●VBF識別
●中斷后果分析
●VBF相互依賴性識別
●確定服務(wù)連續(xù)性要求
ITIL 4中對于這些活動并未給出具體的實(shí)施方法。后面我會專門寫一篇,如何開展BIA。BIA的難點(diǎn)在于技術(shù)實(shí)施層面,必須有系統(tǒng)架構(gòu)師參與,進(jìn)行風(fēng)險(xiǎn)評估也需要技術(shù)人員。
3. 制定和維護(hù)服務(wù)連續(xù)性計(jì)劃
這個(gè)過程包括的步驟是:
●服務(wù)連續(xù)性策略制定
●服務(wù)連續(xù)性計(jì)劃制定
●服務(wù)連續(xù)性計(jì)劃初步測試
服務(wù)連續(xù)性策略可以包括連續(xù)性的等級,對應(yīng)的RTO和RPO的目標(biāo),可用性目標(biāo),演練的等級。如:
金融領(lǐng)域的云計(jì)算平臺容災(zāi)能力等級要求
影響范圍 | 危害程度 | ||
較小影響 | 一般影響 | 嚴(yán)重影響 | |
內(nèi)部輔助管理 | 1級 | 2級 | 3級 |
內(nèi)部運(yùn)營管理 | 2級 | 3級 | 4級 |
公民、法人和其他組織的金融權(quán)益 | 3級 | 4級 | 5級 |
國家金融穩(wěn)定、金融秩序 | 4級 | 5級 | 6級 |
關(guān)鍵指標(biāo):
容災(zāi)等級 | RTO | RPO | 可用性 |
3級 | <=24小時(shí) | <=24小時(shí) | |
4級 | <=4小時(shí) | <=1小時(shí) | |
5級 | <=30分鐘 | 約等于0 | |
6級 | <=2分鐘 | 0 |
演練等級在《保險(xiǎn)業(yè)信息系統(tǒng)災(zāi)難恢復(fù)管理指引(保監(jiān)發(fā)[2008]20號)》規(guī)定為:桌面演練、模擬演練、實(shí)戰(zhàn)演練、部分演練和全面演練。
4. 測試連續(xù)性計(jì)劃
這個(gè)過程包括執(zhí)行演練和連續(xù)性評審兩個(gè)活動。
5. 響應(yīng)和恢復(fù)
響應(yīng)包括對應(yīng)供應(yīng)商服務(wù)連續(xù)性計(jì)劃的調(diào)用。
若需要ITIL4 服務(wù)連續(xù)性管理實(shí)踐完整實(shí)踐資料,請點(diǎn)擊右上角注冊賬號后向客服索?。?/span>