容錯 (Fault Tolerance):指在計算機(jī)系統(tǒng)的軟件、硬件發(fā)生故障時,保證計算機(jī)系統(tǒng)中仍能工作的能力。
區(qū)別 :容錯可以通過硬件冗余、錯誤檢查和熱交換 再加上特殊的軟件來實現(xiàn),而容災(zāi)必須通過系統(tǒng)冗余、災(zāi)難檢測和系統(tǒng)遷移等技術(shù)來實現(xiàn)。當(dāng)設(shè)備故障不能通過容錯機(jī)制解決而導(dǎo)致系統(tǒng)宕機(jī)時,這種故障的解決就屬于容災(zāi)的范疇。
什么是災(zāi)難恢復(fù) (Disaster Recovery):指的是在災(zāi)難發(fā)生后,將系統(tǒng)恢復(fù)到正常運(yùn)作的能力。
區(qū)別 :容災(zāi)強(qiáng)調(diào)的是在災(zāi)難發(fā)生時,保證系統(tǒng)業(yè)務(wù)持續(xù)不 間斷地運(yùn)行的能力,而災(zāi)難恢復(fù)強(qiáng)調(diào)的災(zāi)難之后,系統(tǒng)的恢復(fù)能力?,F(xiàn)在的容災(zāi)系統(tǒng)都包含著災(zāi)難恢復(fù)的功能,所以本文的討論除了包括容災(zāi)方面的內(nèi)容,還包括了 災(zāi)難恢復(fù)的部分內(nèi)容。
容災(zāi)系統(tǒng)在企業(yè)中給與數(shù)據(jù)安全系數(shù)相當(dāng)高的保障,但是容災(zāi)系統(tǒng)倒是是什么,他們是什么意思?恐怕連正在使用容災(zāi)備份的網(wǎng)絡(luò)管理人員都不能解釋。本文用最淺顯的語言給大家解釋容災(zāi)備份到底是什么。
2.容災(zāi)和備份的目的不同
容災(zāi)系統(tǒng)的目的在于保證系統(tǒng)數(shù)據(jù)和服務(wù)的“在線性”,即當(dāng)系統(tǒng)發(fā)生故障時,仍然能夠正常地向網(wǎng)絡(luò)系統(tǒng)提供數(shù)據(jù)和服務(wù),以使系統(tǒng)不致停頓。
而容災(zāi)備份技術(shù)的目的與此并不相同,備份是“將在線數(shù)據(jù)轉(zhuǎn)移成離線數(shù)據(jù)的過程”,其目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯誤和歷史數(shù)據(jù)保存。
所以,在各種容錯技術(shù)非常豐富的今天,備份系統(tǒng)仍然是不可替代的。
3.備份是基石
備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全系統(tǒng)或部分?jǐn)?shù)據(jù)集合從應(yīng)用主機(jī)的硬盤或陣列復(fù)制到其它的存儲介質(zhì)的過程。
備份是數(shù)據(jù)高可用的最后一道防線,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時能夠恢復(fù)數(shù)據(jù)。
4.容災(zāi)不可少
那么建設(shè)了備份系統(tǒng),是否就不需要容災(zāi)備份系統(tǒng)?這還要看業(yè)務(wù)部門對RTO(恢復(fù)所需的時間指標(biāo))/RPO(能夠恢復(fù)到的最新狀態(tài))指標(biāo)的 期望值,如果允許1TB的數(shù)據(jù)庫RTO=8小時,RPO=1天,那備份系統(tǒng)就能滿足要求。同時,備份的目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯誤和歷史數(shù)據(jù)保存。只能夠滿足數(shù)據(jù)丟失、數(shù)據(jù)破壞時的數(shù)據(jù)恢復(fù)目的,而不能提供實時的業(yè)務(wù)接管功能。
因此容災(zāi)系統(tǒng)對于某些關(guān)鍵業(yè)務(wù)而言也是必不可少的。人們談及容災(zāi)備份往往是針對當(dāng)生產(chǎn)系統(tǒng),不能正常工作時,其業(yè)務(wù)可由容災(zāi)系統(tǒng)接替這些業(yè)務(wù),繼續(xù)進(jìn)行正常的工作。
能夠提供很好的RTO和RPO指標(biāo)。同時遠(yuǎn)程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難,特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護(hù)與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將損失降到最小。
5.容災(zāi)不能替換備份
容災(zāi)系統(tǒng)會完整地把生產(chǎn)系統(tǒng)的任何變化復(fù)制到容災(zāi)端去,包括不想讓它復(fù)制的工作,比如不小心把計費系統(tǒng)內(nèi)的用戶信息表刪除了,同時容災(zāi)端的 用戶信息表也會被完整地刪除。如果是同步容災(zāi),那容災(zāi)端同時就刪除了;如果是異步容災(zāi),那容災(zāi)端在數(shù)據(jù)異步復(fù)制的間隔內(nèi)就會被刪除。這時就需要從備份系統(tǒng) 中取出最新備份,來恢復(fù)被錯誤刪除的信息。因此容災(zāi)系統(tǒng)的建設(shè)不能替代備份系統(tǒng)的建設(shè)。
6.規(guī)劃企業(yè)安全保障體系考慮的因素
對于企業(yè)而言到底應(yīng)該如何建設(shè)自己的災(zāi)備系統(tǒng),是只建設(shè)備份系統(tǒng)、還是只建設(shè)容災(zāi)系統(tǒng)、還是需要二者同時建設(shè)、或者是分步驟的建設(shè),誰先誰后等問題,主要根據(jù)業(yè)務(wù)的需求而定:
(1)需要防范的災(zāi)難類型:
企業(yè)信息系統(tǒng)可能遇到的災(zāi)難類型及其發(fā)生的比例如下:
對于“人為錯誤”、“軟件損壞和程序錯誤”加上“病毒”等這些都稱為邏輯錯誤,占總故障的 56%,這些錯誤只能通過備份系統(tǒng)才能防范;
對于“硬件和系統(tǒng)故障”以及“自然災(zāi)難”等故障可以通過在容災(zāi)系統(tǒng)(或者異地備份)來防范,占總故障率的44%。
(2)允許的RTO和RPO指標(biāo)
從技術(shù)上看,衡量容災(zāi)系統(tǒng)有兩個主要指標(biāo):RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當(dāng)災(zāi)難發(fā)生時允許丟失的數(shù)據(jù)量;而RTO則代表了系統(tǒng)恢復(fù)的時間。
一般而言:容災(zāi)系統(tǒng)能夠提供較好的RTO和RPO指標(biāo)。
(3)系統(tǒng)投資
總的說來,建設(shè)備份系統(tǒng)的投資遠(yuǎn)比建設(shè)標(biāo)準(zhǔn)意義的容災(zāi)系統(tǒng)的投資小得多:
備份系統(tǒng)的投資規(guī)模一般在幾百萬;
而最節(jié)省的一套容災(zāi)系統(tǒng)投資都將上千萬;
災(zāi)難恢復(fù)與投資關(guān)系:
7.常用的災(zāi)備組合方式
基于以上原因,業(yè)界在災(zāi)備系統(tǒng)的建設(shè)上一般按照以下幾種方式:
建設(shè)機(jī)房內(nèi)的本地備份系統(tǒng)
建設(shè)異地的備份系統(tǒng)
該方式可以備份系統(tǒng)的價格滿足備份和異地容災(zāi)功能,能夠避免主生產(chǎn)中心由于地震、火災(zāi)或其他災(zāi)害造成的數(shù)據(jù)丟失。
備份系統(tǒng)+異地容災(zāi)系統(tǒng)
這是一個較為理想化的容災(zāi)系統(tǒng)一體化解決方案,能夠在很大程度上避免各種可能的錯誤。