?? 穩(wěn)定運(yùn)行:即資產(chǎn)上線后,確保其持續(xù)穩(wěn)定運(yùn)行,盡可能少的出現(xiàn)故障。
美創(chuàng)結(jié)合浴盆曲線模型,將資產(chǎn)的生命周期劃分為:剛上線時(shí)不穩(wěn)定且故障率較高的磨合期、相對平穩(wěn)運(yùn)行的使用期,以及故障率快速增加的劣化期。
?? 極限生存:即一旦資產(chǎn)出現(xiàn)不可修復(fù)、短期內(nèi)無法修復(fù)的故障時(shí),通過數(shù)據(jù)備份、業(yè)務(wù)容災(zāi)、應(yīng)急切換和運(yùn)行恢復(fù)等機(jī)制,讓業(yè)務(wù)在故障時(shí)以最短時(shí)間快速感知、干預(yù)和恢復(fù)運(yùn)行。
?? MTBF/MTTD/MTTR/MTTF:用于衡量可用性和故障恢復(fù),韌性運(yùn)行安全體系旨在不斷提高M(jìn)TBF和MTTF,并不斷降低MTTD/MTTR,以確保系統(tǒng)的穩(wěn)定運(yùn)行。
?? RPO/RTO:用于衡量業(yè)務(wù)連續(xù)性和數(shù)據(jù)完整性,韌性運(yùn)行安全體系建設(shè)和運(yùn)營旨在不斷降低和優(yōu)化RPO和RTO。
韌性運(yùn)行安全體系框架
美創(chuàng)聚焦持續(xù)運(yùn)行、極限生存,基于數(shù)據(jù)庫運(yùn)行安全管理平臺OSM、“云端”架構(gòu)災(zāi)備一體化平臺DRCC、數(shù)據(jù)庫防水壩、諾亞防勒索等產(chǎn)品體系,統(tǒng)一納管云端和本地的各類資產(chǎn),并通過體系化流程化管理和運(yùn)營策略,簡化復(fù)雜性。
在韌性運(yùn)行安全體系建設(shè)中,美創(chuàng)通過三個(gè)具體行動實(shí)現(xiàn)落地,包括:資產(chǎn)上線前的運(yùn)維左移、資產(chǎn)運(yùn)行中的運(yùn)行保障、極限生存。
通過數(shù)據(jù)庫運(yùn)行安全管理平臺(OSM)、數(shù)據(jù)庫防水壩的提前介入,將日常上線后才進(jìn)行的運(yùn)維工作提前到業(yè)務(wù)的設(shè)計(jì)、開發(fā)、測試等階段進(jìn)行,實(shí)現(xiàn)標(biāo)準(zhǔn)化配置、合規(guī)性檢查、SQL審核、授權(quán)審批,智能分析和故障快速定位,減少業(yè)務(wù)上線后的故障和風(fēng)險(xiǎn),提高業(yè)務(wù)穩(wěn)定性和可靠性。
基于數(shù)據(jù)庫運(yùn)行安全管理平臺(OSM)、數(shù)據(jù)庫防水壩進(jìn)行主動預(yù)防性維護(hù),提供實(shí)時(shí)監(jiān)控資產(chǎn)運(yùn)行狀態(tài)和健康巡檢、快速感知風(fēng)險(xiǎn)減少非預(yù)期的數(shù)據(jù)變更,從源頭降低對系統(tǒng)運(yùn)行安全造成根本性破壞;當(dāng)故障發(fā)生時(shí)OSM提供運(yùn)維編排能力,及時(shí)自動修復(fù)。
在業(yè)務(wù)正式上線后,發(fā)生了局部或者全部的不可修復(fù)性故障時(shí),通過基于災(zāi)備一體化平臺搭建的可靠性備用系統(tǒng)或數(shù)據(jù),快速接管業(yè)務(wù),并提供災(zāi)難后的數(shù)據(jù)重建恢復(fù)能力,確保數(shù)據(jù)和業(yè)務(wù)在漫長的生命周期中能夠持續(xù)穩(wěn)定運(yùn)行。
同時(shí),為了保障備用業(yè)務(wù)和數(shù)據(jù)的可靠性,引入基于零信任的諾亞防勒索系統(tǒng),實(shí)時(shí)監(jiān)控各類進(jìn)程對數(shù)據(jù)文件的讀寫操作,快速識別、阻斷非法入侵行為,保護(hù)底線數(shù)據(jù)安全性。