互聯網技術的飛速發展,企業對于云上業務系統的穩定性、可靠性和可擴展性要求越來越高。云上往往都是重要的業務系統,一旦發生故障,如何快速恢復和降低影響面是企業最為關心的。因此,越來越多的企業開始關注云上多活高可用架構,以實現業務的無縫切換和持續穩定運行。2023年云棲大會現場阿里云高級專家丁杰現場分享了《云上多活高可用架構的趨勢和實踐》的主題演講,詳細介紹了阿里云在多活高可用架構的實踐現狀與未來趨勢的分析展示。
多活高可用,發揮云的核心價值
隨著企業業務的不斷拓展,對于云的連續性的要求也越來越高。而云計算的核心價值在于其彈性和穩定性。彈性意味著云計算資源可以根據業務需求進行快速伸縮,以滿足業務的高峰期需求。穩定性則確保了云服務在面對各種挑戰時,如硬件故障或網絡中斷,仍能提供持續的服務。多活高可用是云的核心彈性和穩定性的重要體現。
例如,大家所熟悉的“熱搜崩了”就是指某些高流量的社交媒體或新聞網站由于訪問壓力過大而導致服務暫時無法正常提供。這種情況可能會因為各種原因發生,比如流量瞬間增大、服務器故障、網絡問題或者惡意攻擊等。為了解決此類問題,提高服務背后的應用彈性,能快速實現業務單元的快速擴容,這是一種常見的解決方案也是云上的彈性架構的最佳實踐之一。
另外比如一個在線購物網站為了保證用戶可以隨時下單購買商品,需要確保網站始終處于可用狀態。為了實現這一點,我們可以將下單鏈路部署到多個地域/機房/可用區上,通過應用多活或者徹底單元化進行流量管控、應用部署和數據的同步策略。當一個地域出現故障時,其他地域可以立即接管用戶的請求,確保網站的正常運行。可以把這種地域宏觀層面的容錯場景看作一種多活高可用。
云的“彈性”,首先是資源層面的彈性,阿里云通過大規模服務器并池、智能調配和資源規劃,通過橫向的快速生產和縱向的升降配能力,實現了強大的供給側彈性能力。也主要是面向單Region維度的。
跨Region,除了公共云上的地域概念,還包括物理的數據中心和自建IDC,也是把包含了公共云的混合云類架構囊括進來了,做到云上云下互相備份和利用公共云的彈性。
在跨Region的用法上,業務的彈性是通過快速建立異地云站點(作業中心),突破單云單地域的資源限制,提升業務抗風險能力和業務容量吞吐,充分利用混合云、多地域的云資源優勢。一些企業案例的共同點都是結合業務把相應的單元通過公共云實現彈性,云的可用區和客戶的可用區也進行深度的融合。
在跨Region+業務彈性兩個前提下,通過多活容災服務構建跨Region級的流量調度能力、業務容量體系和故障應對體系,突破單地域基礎設施穩定性強依賴,在不顯著降低資源利用率的情況下(核心鏈路對等雙活同時最好容量管理和流量防護),極大增強業務整體穩定性和連續性。
如何在云上構建業務的彈性和多活
多活高可用是當前云計算和IT領域中的一個重要趨勢。丁杰在演講中提到“資源彈性不等于業務彈性,云平臺穩定性不等于業務穩定性,應用多活將成為云原生容災領域的重要趨勢。”
阿里云作為全球領先的云計算服務提供商,致力于為企業提供穩定、可靠、高效的云服務,提供了一系列產品和服務來支持多活高可用架構的部署和運行。
首先,阿里云提供了應用高可用服務AHAS,該產品基于阿里云內部高可用架構最佳實踐而打造,主要提供多活容災、容災演練等能力,基于該產品的多活容災MSHA(Multi-Site High Availability)能力,結合服務能幫助用戶體系化、標準化低侵入地建設云上高可用架構,全面提升業務穩定性。
它是通過三層抽象的適配+管控+切換+演練來支持的,MSHA提供接入層、服務層、數據層的自研組件,適配客戶側的技術棧,集成到客戶應用架構之中。MSHA本身也是支持容災多活架構的演進的,從同城雙活、異地應用雙活到單元化等。管控方面,MSHA管控面提供給用戶對多活‘架構’的構建和維護,故障場景的整體協同。切換方面,結合流量和數據規則定義、容災場景下的快速切流等能力,下發管控規則到MSHA組件執行流量管控動作。
容災多活最重要的是關鍵時刻的切換能力,切換很多時候業務需要的是能更快速甚至是自動化,縮減RTO,減少損失。所以類似于機房故障自動切零、集群故障自動切換是最為緊要的兩個場景,整體來說我們會基于可觀測->事件中心->決策&執行的大體邏輯來實現,可觀測聚合后形成事件,然后在問題定界上判斷半徑,專家經驗更多的在切流成功與否、禁寫和一致性風險上提供經驗庫,最終系統完成主備/流量的切換或者擴容。
多活模式與架構產品
完全在公有云上建設跨可用區或Region的應用雙活方式與公共云+線下專有云/IDC的混合云多活模式均是多活架構設計中的常見實踐策略。
云多活模式均是多活架構設計中的常見實踐策略。
左邊是基于公共云的兩地三活(同城跨可用區+異地跨Region),其業務多活單元不等同于單元化,是指根據業務特點在邏輯上分成?個邏輯數據中?(LDC),命名為單元,核?業務在各數據中?(LDC)實現?流轉。業務單元之間,應用多活數據主備。關于單元間的流量,同城一般是對稱的,異地會按照特定規則的區分調度業務流量,比如某些延時不敏感的調度到異地的單元,或者是特定條件的用戶群調度到異地,異地一般流量很小來保持單元的“熱度”,然后在故障場景再通過切流和快速擴容應對。這種架構相對單元化來說改造成本低,兼顧成本和穩定性。
右邊是第二種架構模式實踐,是阿里公共云+阿里專有云/自建IDC的模式。其本質是希望通過混合云架構解決穩定性和成本問題+通過公共云的部分享受彈性的綜合優勢,充分利用混合異構的優勢。一般簡稱為往云上彈和往云上逃(故障逃逸)。
這種模式的優勢是充分利用了線下資源和即有資產,通過云上來逃逸和彈性擴容,業務上細分云上和云下的流量,這也是我們今天分享的業務彈性和混合云的典型思路。
關于建站工具
除了上文提及的多活產品,業務維度的單元快速建站和拉起也很關鍵。通過云遷移中心CMH,可以通過架構感知、自動編排、資源創建和全站還原4大能力,在業務架構篩選、自定義建站模版、一站式資源創建和復制配置、快速數據準備等具體的方案能力上提供支撐。
多活高可用整體架構的建設和保鮮提升的能力體系。
對于多活架構的持續演練使其保鮮極為關鍵,這樣當故障真的來臨時才敢切換也知道切換的效果和影響面。
結合我們方案交付和工具建設的經驗,整理了多活架構管理模型,以指導我們進行多活架構的度量、交付、提升的全周期管理。我們在多活架構上按照架構、能力、保鮮和規范4大維度,進而繼續拆分2-3層,通過上百個因子來進行業務應用架構的多活能力度量和建設指導。比如高可用架構中的流量防護架構、業務容量規劃架構,這些架構是確保規劃后的單元能力在承載故障切換之后過大的流量而不被沖垮,相應規劃的容量是確保預設的核心鏈路的吞吐的,故障場景下通過較低的冗余成本來支撐住核心業務的容災,整體是ROI比較高的做法。同樣的,類似故障隔離能力中的服務內聚、資源隔離和依賴解耦能力,這些能力是在設計階段的,我們更多的是通過合適的演練方式去檢驗驗收。
整體的多活架構體系能力,在理論模型三個維度基礎架構能力、架構健康度和管理規范度的牽引之下,在CMH云遷移中心納管的應用上云、云化之后的架構量化支撐之上,基于AHAS產品的多活能力MSHA,在多活的建設場景圍繞多活容災標準交付動作進行多活架構的建設,然后演練保鮮期圍繞高可用演練標準交付和演練驗證方案庫進行驗證演練提升,整體構成了多活高可用整體架構的建設和保鮮提升的能力體系。
多活高可用架構助力企業創新發展
從冷備到同城雙活,再到異地雙活和異地多活,多活高可用整體架構的建設和保鮮,技術的發展反映了對業務連續性和穩定性的不斷追求。對于提升企業的服務質量和用戶體驗具有重大的意義,是構建現代數據中心、云計算等高科技設施不可或缺的一部分。
阿里云應用高可用服務AHAS提供了豐富的多活工具,可以成為企業實現業務無縫切換和持續穩定運行的重要手段。在未來的發展中,完整的多活高可用架構交付體系將繼續為企業提供穩定、可靠、高效的產品和服務,助力企業實現業務的持續發展和創新。
審核編輯 黃宇
-
架構
+關注
關注
1文章
514瀏覽量
25486
發布評論請先 登錄
相關推薦
評論