混合云應(yīng)用雙活容災(zāi)最佳實(shí)踐
作者:遠(yuǎn)跖
前言
Cloud Native
越來越多的企業(yè)在數(shù)字化轉(zhuǎn)型和上云進(jìn)程中選擇混合云的形態(tài)(云+自建 IDC 或云+其他廠商云)來進(jìn)行容災(zāi)建設(shè),一方面不會過度依賴單一云廠商,另一方面還能充分利用已有的線下 IDC 資源。
02
業(yè)務(wù)混合云容災(zāi)實(shí)踐
Cloud Native
1 業(yè)務(wù)背景信息A 企業(yè)是一個零售行業(yè)電商交易平臺,業(yè)務(wù)系統(tǒng)部署在自建 IDC 機(jī)房,存在以下痛點(diǎn):
- 業(yè)務(wù)僅在 IDC 單機(jī)房部署,缺少容災(zāi)能力。
- IDC 容量不足,物理機(jī)器升級替換周期長,不足以支撐業(yè)務(wù)的快速發(fā)展。
業(yè)務(wù)在快速發(fā)展過程中,多次遇到的容量不足以及故障問題引起了公司高層的重視,決心進(jìn)行容災(zāi)能力建設(shè)。由于自建 IDC 是公司已有資產(chǎn)且穩(wěn)定使用多年,同時不希望過度依賴于云,因此期望建立 IDC+云 的混合云形態(tài)容災(zāi)架構(gòu)。
當(dāng)前應(yīng)用部署架構(gòu)
電商交易平臺包含的應(yīng)用:
- frontend:Web 應(yīng)用,負(fù)責(zé)和用戶交互。
- cartservice:購物車應(yīng)用,提供購物車添加、存儲和查詢服務(wù)。
- productservice:商品應(yīng)用,提供商品、庫存服務(wù)。
技術(shù)棧:
- SpringBoot。
- RPC 框架:SpringCloud、Dubbo,注冊中心使用自建的 Nacos、Zookeeper。
-
數(shù)據(jù)庫 Redis 和 MySQL。
業(yè)務(wù)容災(zāi)需求歸納如下:
- 云上云下互容災(zāi),切換 RTO 為分鐘級。期望云上云下相互容災(zāi),繼續(xù)發(fā)揮 IDC 的價值,且不 100% 依賴于云。面對 IDC 或云故障場景,關(guān)鍵時刻要敢切換、能切換,且切換 RTO 要求小于 10 分鐘。
- 無數(shù)據(jù)一致性風(fēng)險。云上云下的兩個數(shù)據(jù)中心數(shù)據(jù)強(qiáng)一致,日常態(tài)和容災(zāi)切換過程中都要避免存在臟寫等數(shù)據(jù)一致性風(fēng)險。
- 一站式管控。業(yè)務(wù)容災(zāi)涉及的技術(shù)棧框架和云產(chǎn)品,需要統(tǒng)一管控、統(tǒng)一運(yùn)維、統(tǒng)一切換,操作收斂在一站式管控平臺,方便故障場景快速白屏化操作,自動化執(zhí)行。
- 實(shí)施周期短,改造成本低。業(yè)務(wù)存在多個產(chǎn)品線,依賴關(guān)系復(fù)雜、調(diào)用鏈路長,且處于高速發(fā)展頻繁迭代時期,期望容災(zāi)建設(shè)不會給業(yè)務(wù)研發(fā)團(tuán)隊(duì)帶來改造負(fù)擔(dān)。
3 建設(shè)難點(diǎn)
- 流量管理難度高
- 若采用 DNS 將流量按權(quán)重解析到云上和云下,存在修改 DNS 解析生效時間長的問題(通常為十分鐘或小時級,參見 DNS 解析生效時間 FAQ[2]),不能滿足容災(zāi)切換小于 10 分鐘的要求。
-
- 業(yè)務(wù)應(yīng)用所依賴的 Redis 和 MySQL,IDC內(nèi)采用開源自建而云上直接使用云產(chǎn)品,要實(shí)現(xiàn)開源自建+云產(chǎn)品的容災(zāi)切換能力難。
-
- 容災(zāi)切換數(shù)據(jù)質(zhì)量保障難
- 容災(zāi)切換過程中,可能因數(shù)據(jù)同步延遲導(dǎo)致讀到舊數(shù)據(jù),以及切換規(guī)則推送到分布式應(yīng)用節(jié)點(diǎn)時間不一致等原因可能造成云上云下數(shù)據(jù)庫同時讀寫而出現(xiàn)臟寫的問題,整個切換過程數(shù)據(jù)質(zhì)量保障是個關(guān)鍵點(diǎn),同時也是難點(diǎn)。
-
- 無業(yè)務(wù)代碼侵入難
- 要實(shí)現(xiàn) Redis、MySQL 容災(zāi)切換能力,通常需要業(yè)務(wù)應(yīng)用配合改造,對業(yè)務(wù)代碼侵入大。
4 解決方案
應(yīng)用雙活架構(gòu)
架構(gòu)簡圖:
- 選擇離 IDC 物理距離<=200km 的云上 Region,網(wǎng)絡(luò)延遲較低(約 5~7ms)。
- 應(yīng)用、中間件云上云下冗余對稱部署,同時對外提供服務(wù)(應(yīng)用雙活)。
- 數(shù)據(jù)庫異地主備,異步復(fù)制備份。應(yīng)用讀寫同一數(shù)據(jù)中心的數(shù)據(jù)庫,避免考慮一致性問題。
詳細(xì)方案
- RPO:<=1min(依賴于 DTS 同步性能)
- RTO:<=1min(依賴于 DTS 同步延遲,MSHA 組件實(shí)現(xiàn)秒級切換。整體 RTO<=1min)
7 容災(zāi)能力驗(yàn)證
基于 MSHA 完成應(yīng)用雙活架構(gòu)建設(shè)后,還需驗(yàn)證業(yè)務(wù)容災(zāi)能力是否符合預(yù)期。接下來將制造真實(shí)的故障,來驗(yàn)證容災(zāi)恢復(fù)能力。
7.1 演練準(zhǔn)備
-
進(jìn)入 MSHA 控制臺,在左側(cè)菜單欄選擇監(jiān)控大盤。頁面頂部,下拉選擇切換到實(shí)際使用的命名空間。
-
查看頁面中的各項(xiàng)監(jiān)控指標(biāo)。
說明:演練前,基于 MSHA 流量監(jiān)控或其他監(jiān)控產(chǎn)品,確定業(yè)務(wù)穩(wěn)態(tài)的監(jiān)控指標(biāo)(如日常情況 RT<=200ms,錯誤率<1%),以便在故障發(fā)生時判斷故障影響面以及在故障恢復(fù)后判斷業(yè)務(wù)的實(shí)際恢復(fù)情況。 -
7.2 應(yīng)用故障注入
這里我們使用阿里云故障演練產(chǎn)品,對阿里云-北京的商品應(yīng)用注入故障。
-
進(jìn)入 Chaos 故障演練產(chǎn)品控制臺[9],頂部選擇切換到相應(yīng)地域,左側(cè)導(dǎo)航欄選擇我的空間。
-
在我的空間選擇配置好的演練(50% 概率網(wǎng)絡(luò)丟包),然后單擊執(zhí)行演練。
-
-
故障注入成功后,打開電商首頁或進(jìn)行下單,有概率出現(xiàn)訪問異常,符合預(yù)期。
-
7.3 切流恢復(fù)
預(yù)期
-
切流操作
-
3. 單擊執(zhí)行預(yù)檢查,在切流檢查區(qū)域,單擊確認(rèn),開始切流。
4. 在切流任務(wù)頁面的當(dāng)前狀態(tài)顯示切流完成,表示切流已成功。
5. 刷新電商 Demo 首頁,多次訪問均能正常展示,符合預(yù)期。
查看實(shí)際流量調(diào)用鏈:流量始終訪問到杭州單元,讀寫北京單元內(nèi)的數(shù)據(jù)庫。
7.4 數(shù)據(jù)庫故障注入
7.5 切換數(shù)據(jù)庫進(jìn)行恢復(fù)
預(yù)期
應(yīng)用連接的數(shù)據(jù)庫切換到杭州后,業(yè)務(wù)完全恢復(fù),不受北京單元的故障影響。
切流操作
1. 進(jìn)入 MSHA 控制臺,在左側(cè)導(dǎo)航欄選擇異地應(yīng)用雙活>數(shù)據(jù)層配置。
2.在數(shù)據(jù)保護(hù)規(guī)則列表中,找到商品、訂單、購物車數(shù)據(jù)庫,逐個點(diǎn)擊主備切換。
-
3. 點(diǎn)擊主備切換后,會進(jìn)入預(yù)檢查頁面,確認(rèn)各檢查項(xiàng)狀態(tài)正常后,點(diǎn)擊在確認(rèn)執(zhí)行,則進(jìn)入切換詳情頁,并自動執(zhí)行切換流程。
4. 主備切換詳情頁,可以看到切換進(jìn)度和切換結(jié)果,任務(wù)進(jìn)度 100% 后,表示切換完成。
-
5. 商品、訂單、購物車數(shù)據(jù)庫都主備切換完成后。多次訪問電商 Demo 首頁或進(jìn)行下單,發(fā)現(xiàn)均已正常,主備切換后業(yè)務(wù)功能完全恢復(fù),符合預(yù)期。03
總結(jié)
Cloud Native
在本篇文章中,我們介紹了 MSHA 多活容災(zāi)助力企業(yè)進(jìn)行混合云應(yīng)用雙活容災(zāi)建設(shè)的實(shí)踐案例,給出了容災(zāi)架構(gòu)建設(shè)實(shí)踐方法,同時利用 Chaos 故障演練產(chǎn)品注入真實(shí)故障,來驗(yàn)證故障場景業(yè)務(wù)容災(zāi)能力是否符合預(yù)期。