業(yè)務(wù)100%云化,中間件全面升級到公共云架構(gòu)
作者:中間件支持集團(tuán)上云技術(shù)小組
校對&審核:望宸
2019年,阿里巴巴100%的核心系統(tǒng)運(yùn)行在阿里云上;
2021年,阿里巴巴100%的業(yè)務(wù)都運(yùn)行在阿里云上。
阿里巴巴,已經(jīng)成為全球首家,將所有業(yè)務(wù)都放在自家公共云上的大型科技公司。
舉全集團(tuán)之力,將業(yè)務(wù)全部遷移至公共云,不僅是對云和科技的篤定,也證明了阿里云有能力應(yīng)對高難度、超復(fù)雜環(huán)境下的技術(shù)挑戰(zhàn),為客戶享受云上技術(shù)紅利提供了更堅(jiān)實(shí)的實(shí)踐保障。
架構(gòu)一致性,開源、自研、商業(yè)化三位可一體
在今年的天貓雙十一中,中間件支撐了5403億的交易量,并全面升級到了公共云架構(gòu)。
此次的架構(gòu)升級,是以開源為內(nèi)核、以公共云為基礎(chǔ)、以 OpenAPI 進(jìn)行解偶擴(kuò)展,在架構(gòu)上,對開源、自研、商業(yè)化進(jìn)行統(tǒng)一。通過采用和反哺開源、推動社區(qū)建設(shè),通過阿里巴巴豐富的業(yè)務(wù)場景、打磨技術(shù)的性能和可用性,通過云上商業(yè)化服務(wù)更多企業(yè)、打造更好的用戶體驗(yàn),全方位錘煉云上產(chǎn)品的競爭力。這個(gè)過程中,阿里巴巴業(yè)務(wù)的研發(fā)效率提升了20%,CPU資源利用率提升了30%,應(yīng)用100%云原生化,在線業(yè)務(wù)容器可達(dá)百萬規(guī)模,計(jì)算效率大幅提升,雙11計(jì)算成本下降30%。
接下去,我們將全方位揭秘業(yè)務(wù)100%云化過程中,后端 BaaS 化,運(yùn)行時(shí) Mesh 化,業(yè)務(wù)側(cè) Serverless 化的全過程。
中間件后端 BaaS 化,有狀態(tài)應(yīng)用也可分鐘級交付
以往的雙十一建站交付都是線性的。先交付 IaaS 資源,然后再交付中間件,最后在交付業(yè)務(wù)。
今年,中間件升級到公共云架構(gòu)后,IaaS 資源和中間件同步交付,節(jié)省了兩者串行交付的時(shí)間。中間件公共云架構(gòu)運(yùn)維底座全部切到 K8s 上,讓有狀態(tài)的中間件也能做到極致彈性,使得中間件的交付效率從天級別,降低到了分鐘級,極大地提升了交付效率,降低了資源保有時(shí)間和資源成本。
后端的支撐系統(tǒng)也全面升級,如通過對接阿里云賬號權(quán)限體系,來解決安全問題;通過對接計(jì)量計(jì)費(fèi)體系,來解決 IT 資產(chǎn)數(shù)字化問題,為集團(tuán)各個(gè)技術(shù)團(tuán)隊(duì)的經(jīng)營者可以通過賬單形式,可視化的進(jìn)行成本優(yōu)化。
在用戶界面上,也升級支持了 IPv6,為阿里巴巴生產(chǎn)網(wǎng)全面向 IPv6 架構(gòu)演進(jìn),做好了準(zhǔn)備。
海外業(yè)務(wù) Mesh 化,異地多活可下沉 Sidecar
阿里巴巴海外有 AE&Lazada 等多種業(yè)務(wù)形態(tài),異地多活體系侵入性大,技術(shù)架構(gòu)不統(tǒng)一,從而影響了全局高可用和研發(fā)協(xié)同效率。
隨著服務(wù)網(wǎng)格架構(gòu)的演進(jìn)和成熟,我們逐步將服務(wù)路由標(biāo)準(zhǔn)化,路由功能層次化,通過插件模式讓業(yè)務(wù)進(jìn)行擴(kuò)展,讓異地多活體系下沉到 Sidecar,和業(yè)務(wù)邏輯解偶,探索異地多活通用、無侵入、低成本的解決方案。今年,這套體系在海外業(yè)務(wù)得到了充分驗(yàn)證,為未來商業(yè)化積累了實(shí)踐經(jīng)驗(yàn)。
隨著 Mesh 化服務(wù)架構(gòu)的深度應(yīng)用,除了異地多活功能下沉 Sidecar,阿里巴巴還基于 Mesh 化架構(gòu),統(tǒng)一了流量調(diào)度技術(shù)與產(chǎn)品架構(gòu),降低了流量調(diào)度實(shí)施和治理成本,提升服務(wù)容災(zāi)能力和線上服務(wù)治理效率,實(shí)現(xiàn)了更加靈活和穩(wěn)定的調(diào)度規(guī)則下發(fā),及單元間切流。
業(yè)務(wù)側(cè) Serverless 化,實(shí)現(xiàn)研發(fā)提效 38%,彈性提升 200%
Serverless 是集團(tuán)降本提效的首選技術(shù)方案。
今年雙11,Serverless 不僅成功承載了3 倍的峰值流量 ,應(yīng)用場景上也拓寬了 2 倍,整體研發(fā)運(yùn)維體系提升 38%,主要表現(xiàn)在以下兩個(gè)關(guān)鍵點(diǎn)上。
1. 夯實(shí)三位一體技術(shù)體系,使用阿里云函數(shù)計(jì)算 FC 支撐大促全面 Serverless 化
函數(shù)計(jì)算 FC 與阿里內(nèi)部的運(yùn)維體系,實(shí)現(xiàn)全面標(biāo)準(zhǔn)化對接,打通研發(fā)的最后一公里。首次實(shí)現(xiàn)了業(yè)務(wù)全鏈路“ FaaS + BaaS ”的 Serverless 全流程研發(fā)體系。
在函數(shù)計(jì)算進(jìn)入集團(tuán)之前,云上的 Serverless 技術(shù)體系一直無法融入到開發(fā)者生態(tài),雖然功能豐富、強(qiáng)大,但是無法被業(yè)務(wù)使用,甚至出現(xiàn)了使用 Serverless 技術(shù)后,研發(fā)成本反而增高的情況。所以,我們在 2021 年,發(fā)力 Serverless-Devs 工具鏈,基于標(biāo)準(zhǔn)的接口與集團(tuán)內(nèi)部的技術(shù)社區(qū),共同打造了專屬于 Serverless 的研發(fā)體系,把云上的技術(shù)巧妙的融入到了集團(tuán)。
我們通過雙 11 大促場景作為“磨刀石”,把關(guān)鍵的核心技術(shù)進(jìn)行進(jìn)一步打磨,然后反哺給云上的商業(yè)化產(chǎn)品和工具鏈,夯實(shí)三位一體的技術(shù)體系,今年交出了滿意的答卷,全面支撐 2021 天貓 雙 11 各類業(yè)務(wù)場景,覆蓋淘特、淘系、阿里媽媽、1688、高德和飛豬等多類業(yè)務(wù)場景,數(shù)量提升 2 倍,峰值流量總數(shù)同比增加 3 倍,實(shí)現(xiàn)了 百萬 QPS 的突破,整體研發(fā)提效達(dá)到 38%。
2. 加大 Serverless 硬核技術(shù)投入,集團(tuán)內(nèi)部通過天貓雙 11 場景打磨,外部通過公共云輸出、服務(wù)千萬家企業(yè)
在 Serverless 的場景下,冷啟動的速度是客戶選型的關(guān)鍵,也是云上產(chǎn)品的核心競爭力,。
今年,我們加大了硬核技術(shù)研發(fā)的投入,從“彈性策略”、“鏡像分發(fā)”、“容器啟動” 等全方位對冷啟動進(jìn)行了性能提升,冷啟動時(shí)間進(jìn)一步縮減 60%,剛性交付能力提升 200%。在年初,函數(shù)計(jì)算剛應(yīng)用于集團(tuán)內(nèi)部時(shí),Runtime 層的冷啟動時(shí)間在秒級別,并且需要初始化中間件,整體的冷啟動時(shí)間要大于 2s,這嚴(yán)重制約了 Serverless 的使用場景。
所以,我們在鏡像分發(fā)上,創(chuàng)新性發(fā)明了 Serverless Caching 。根據(jù)不同的存儲服務(wù)特點(diǎn),構(gòu)建數(shù)據(jù)驅(qū)動、智能高效的緩存體系,實(shí)現(xiàn)軟硬件協(xié)同優(yōu)化;即便在 GB 級別鏡像冷啟動的場景下,函數(shù)計(jì)算也能提秒級別的交付能力。在調(diào)度上,相比去年,增加了定時(shí)/CPU 等更多指標(biāo)的彈性策略,并且基于集團(tuán)內(nèi)資源統(tǒng)一調(diào)度的能力,支撐了天貓雙 11 業(yè)務(wù)的 10w 級別的實(shí)例彈性。在容器層,使用了自研的安全容器池化技術(shù),在容器啟動上,時(shí)間進(jìn)一步縮小到 50ms 以內(nèi)。這些技術(shù),都已經(jīng)在雙 11 場景下得到驗(yàn)證,也在公共云上全面輸出,已經(jīng)幫助我們的合作伙伴輕松應(yīng)對業(yè)務(wù)高峰。
從 Ops 到 Dev,云原生的技術(shù)改造正進(jìn)入下半場
第一時(shí)間讓客戶,使用跟阿里巴巴一模一樣的技術(shù),是中間件開源、自研、商業(yè)化三位一體的初衷。這些源自三位一體的產(chǎn)品正幫助云上客戶更好的提升 Ops 的效率。
三位一體的商業(yè)化輸出包括:
-
MSE:注冊&配置中心全(原生支持 Nacos/ZooKeeper/Eureka)、網(wǎng)關(guān)(原生支持 Ingress/Envoy)和無侵入的開源增強(qiáng)服務(wù)治理(原生支持 Spring Cloud/Dubbo)
-
MQ:消息中間件,原生支持Apache RocketMQ、Apache Kafka
-
ARMS:應(yīng)用實(shí)時(shí)監(jiān)控服務(wù),原生支持 Prometheus,提供基于開源的 Tracing 能力
-
AHAS:應(yīng)用高可用服務(wù),原生支持 Sentinel、ChaosBlade
-
FC:函數(shù)計(jì)算,開發(fā)者工具開源 Serverless Devs、支持開源可觀測工具等
...
如果說,云計(jì)算和云原生技術(shù)上半場更多的是解決 Ops 的問題,我們相信,下半場更多會關(guān)注 Dev 的問題。
圍繞著開發(fā)者效率的提升,中間件已經(jīng)完成了 Serverless、應(yīng)用運(yùn)行時(shí)、低代碼、云邊一體,在線 IDE 等關(guān)鍵領(lǐng)域的技術(shù)布局,通過服務(wù)網(wǎng)格和應(yīng)用運(yùn)行時(shí)等技術(shù),將非業(yè)務(wù)邏輯下沉,并且通過插件模式,形成新的研發(fā)分工,讓中間件研發(fā)屏蔽底層復(fù)雜技術(shù),讓安全研發(fā)在應(yīng)用運(yùn)行時(shí)這層建立可信的安全防線,讓高可用研發(fā)在底層通用的構(gòu)建熔斷、限流、降級、異地多活等能力,讓業(yè)務(wù)更輕量,更聚焦業(yè)務(wù)本身開發(fā),更高效的構(gòu)建業(yè)務(wù)競爭力。
版權(quán)聲明:本文內(nèi)容轉(zhuǎn)發(fā)自阿里云社區(qū),由阿里云實(shí)名注冊用戶自發(fā)貢獻(xiàn)!版權(quán)歸原作者所有。本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本文中有涉嫌抄襲的內(nèi)容,請聯(lián)系站內(nèi)客服,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。