国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            Article / 文章中心

            阿里巴巴高級(jí)技術(shù)專(zhuān)家姜文鋒:云服務(wù)器可觀測(cè)能力的探索與實(shí)踐

            發(fā)布時(shí)間:2022-01-06 點(diǎn)擊數(shù):951
            簡(jiǎn)介: 本篇內(nèi)容分享了云服務(wù)器可觀測(cè)能力的探索與實(shí)踐。

            封面-姜文鋒.jpg

            圖:阿里巴巴高級(jí)技術(shù)專(zhuān)家姜文鋒


            2021年10月22日,在云棲大會(huì)的《云上運(yùn)維最佳實(shí)踐》分論壇,阿里巴巴高級(jí)技術(shù)專(zhuān)家姜文鋒發(fā)表了主題為“云服務(wù)器可觀測(cè)能力的探索與實(shí)踐”的演講。本篇內(nèi)容根據(jù)他的演講整理成的文章,通過(guò)以下三個(gè)部分來(lái)介紹云服務(wù)器可觀測(cè)能力的探索與實(shí)踐。

            1. 可觀測(cè)的價(jià)值
            2. 云服務(wù)器可觀測(cè)解決方案
            3. 總結(jié)

            一、可觀測(cè)的價(jià)值

            image001.png
            什么是可觀測(cè)能力,它為什么對(duì)云服務(wù)器這么重要?通俗地講,可觀測(cè)能力就是了解云服務(wù)器內(nèi)部運(yùn)行情況的能力。它對(duì)于云服務(wù)器的重要性,在我看來(lái)主要有三點(diǎn):
            提升確定性,簡(jiǎn)化運(yùn)維,提升信息透明性。


            無(wú)論是物理機(jī)還是云服務(wù)器都做不到百分之百可靠。云服務(wù)器具備完善的可觀測(cè)能力,可以非常全面的掃描云服務(wù)器的各種運(yùn)行指標(biāo)和內(nèi)部狀態(tài),得到一個(gè)豐富的信息全圖,來(lái)提升信息的透明性,避免黑盒。在異常的場(chǎng)景,通過(guò)這個(gè)掃描的結(jié)果,也可以快速定位問(wèn)題的原因,簡(jiǎn)化運(yùn)維。


            二、云服務(wù)器可觀測(cè)解決方案

            image003.png
            云服務(wù)器可觀測(cè)整體解決方案,先來(lái)看看阿里云是怎么做的。


            一切皆數(shù)據(jù)。阿里云依托強(qiáng)大的數(shù)據(jù)中臺(tái),每天從將近1億的采集單元采集近100TB的數(shù)據(jù),這些數(shù)據(jù)體現(xiàn)了云服務(wù)器內(nèi)部各種運(yùn)行狀態(tài)、指標(biāo)、參數(shù)。這些數(shù)據(jù)采集上來(lái)后經(jīng)過(guò)數(shù)據(jù)清洗去除噪音,關(guān)聯(lián)分析與定義的各種指標(biāo)進(jìn)行關(guān)聯(lián)匹配,最后經(jīng)過(guò)特征計(jì)算得出云服務(wù)器運(yùn)行的真實(shí)畫(huà)像。然后再把處理過(guò)的數(shù)據(jù)輸出到兩類(lèi)產(chǎn)品。第一類(lèi)產(chǎn)品就是我們的內(nèi)部運(yùn)維保障平臺(tái),它是阿里云主動(dòng)維護(hù)云平臺(tái)穩(wěn)定性的一個(gè)主要的解決方案。


            另一類(lèi),它會(huì)輸入到用戶(hù)端的可觀測(cè)產(chǎn)品,即為了滿(mǎn)足3個(gè)目標(biāo):確定性運(yùn)行、簡(jiǎn)化運(yùn)維和信息透明而提供的運(yùn)維產(chǎn)品,包括4個(gè)產(chǎn)品:
            云監(jiān)控、ECS系統(tǒng)事件、健康診斷、健康狀態(tài)。下面我們分別介紹這4個(gè)產(chǎn)品。


            1、云監(jiān)控

            image005.png

            提到監(jiān)控系統(tǒng),相信大家都不會(huì)感到陌生,云監(jiān)控就是阿里云針對(duì)云上的資源和互聯(lián)網(wǎng)應(yīng)用的一個(gè)監(jiān)控、報(bào)警服務(wù)。云監(jiān)控相對(duì)于傳統(tǒng)的監(jiān)控服務(wù)。它有什么樣的優(yōu)勢(shì)?我會(huì)重點(diǎn)說(shuō)前面兩點(diǎn):


            1. 天然集成。不需要購(gòu)買(mǎi)和開(kāi)通,只需要有阿里云賬號(hào)就可以使用,即查即用。
            2. 報(bào)警靈活。有靈活的報(bào)警規(guī)則設(shè)置,還有靈活豐富的報(bào)警推送渠道。報(bào)警推送渠道主要分為兩類(lèi):一是消息觸達(dá)類(lèi)的渠道,比如我們常見(jiàn)的釘釘、短信。更重要的,它可以有一個(gè)渠道是自動(dòng)處理渠道,這是為接下來(lái)自動(dòng)化運(yùn)維打下一個(gè)基礎(chǔ)。自動(dòng)處理渠道包括函數(shù)計(jì)算、運(yùn)維編排、消息服務(wù)、日志服務(wù)。


            關(guān)于云監(jiān)控,下面再重點(diǎn)分享一下它強(qiáng)大的主機(jī)監(jiān)控項(xiàng)。云監(jiān)控除了支持常見(jiàn)的CPU、內(nèi)存、LOAD、磁盤(pán)、網(wǎng)卡之外,它還能對(duì)進(jìn)程做監(jiān)控。通過(guò)進(jìn)程監(jiān)控,你可以知道你的進(jìn)程是不是存活,以及當(dāng)前進(jìn)程資源消耗的情況。所以云監(jiān)控是最基本、最常用的手段。


            2、ECS系統(tǒng)事件

            image007.png

            阿里云會(huì)主動(dòng)上報(bào)影響ECS實(shí)例運(yùn)行的底層運(yùn)維事件或者非預(yù)期的維修事件,并且給用戶(hù)提供維修建議。ECS系統(tǒng)事件怎樣改善和提高云服務(wù)器可觀測(cè)能力呢?

            1. 主動(dòng)上報(bào)底層問(wèn)題,提升服務(wù)器運(yùn)行的確定性。
            2. 能簡(jiǎn)化運(yùn)維。系統(tǒng)事件上報(bào)上來(lái)之后,我們訂閱這個(gè)事件,實(shí)現(xiàn)事件自動(dòng)化處理,提升事件處理效率、簡(jiǎn)化運(yùn)維。
            3. Event-Driven 能夠帶來(lái)系統(tǒng)效率的提升。大家都知道,異步場(chǎng)景,PUSH模式PULL模式有明顯的效率優(yōu)勢(shì)。舉個(gè)非常熟悉的例子:創(chuàng)建ECS實(shí)例,一般我們會(huì)先調(diào)用RunInstances API,得到一個(gè)實(shí)例ID,然后不斷地調(diào)用DescribeInstances接口查詢(xún)實(shí)例狀態(tài)直到變成Running,客戶(hù)測(cè)編程復(fù)雜不說(shuō),效率還低,改成事件驅(qū)動(dòng)模式則只需訂閱實(shí)例狀態(tài)變化事件,等變成Running自動(dòng)觸發(fā)后續(xù)的業(yè)務(wù)邏輯,簡(jiǎn)單高效。上圖的右側(cè)是ECS事件服務(wù)流程圖,事件推送會(huì)直接復(fù)用云監(jiān)控異常推送渠道,為我們接下來(lái)實(shí)現(xiàn)自動(dòng)化處理事件打下基礎(chǔ)。

            image009.png

            我們對(duì)ECS系統(tǒng)容量有一個(gè)基本了解之后,重點(diǎn)看一下它怎么實(shí)現(xiàn)事件的自動(dòng)化處理?上圖左側(cè)是目前事件分類(lèi),重點(diǎn)看一下右邊,這里推薦了兩種實(shí)現(xiàn)事件自動(dòng)化處理的方案:

            • 第一是把系統(tǒng)事件通過(guò)云監(jiān)控推送到函數(shù)計(jì)算服務(wù),特定的事件觸發(fā)特定的函數(shù)計(jì)算能力,從而實(shí)現(xiàn)事件的自動(dòng)化處理。
            • 第二是可以把事件推送給運(yùn)維編排服務(wù),特定的事件觸發(fā)我們預(yù)先設(shè)置好的特定運(yùn)維編排模板,從而實(shí)現(xiàn)事件的自動(dòng)化處理,這里要提醒函數(shù)計(jì)算是付費(fèi)的服務(wù),但運(yùn)維編排是免費(fèi)的。


            ECS系統(tǒng)事件能夠主動(dòng)上報(bào)影響實(shí)例運(yùn)行的底層事件,是云服務(wù)器可觀測(cè)能力的重要一環(huán),能夠較好解決確定性運(yùn)行的問(wèn)題。但這還不夠。因?yàn)閷?shí)際情況是云平臺(tái)出現(xiàn)嚴(yán)重問(wèn)題的概率還是很小的,總的來(lái)看,云平臺(tái)是很穩(wěn)定的。大部分運(yùn)維問(wèn)題都是跟用戶(hù)的操作和使用有關(guān),也就是說(shuō)問(wèn)題往往發(fā)生在客戶(hù)OS和客戶(hù)應(yīng)用內(nèi)部。而系統(tǒng)事件對(duì)客戶(hù)OS內(nèi)的異常覆蓋是比較有限的。所以為了進(jìn)一步完善云服務(wù)器的觀測(cè)能力,我們又推出了診斷服務(wù)。診斷服務(wù)具體分為三個(gè)產(chǎn)品:實(shí)例健康診斷、實(shí)例健康狀態(tài)和網(wǎng)絡(luò)連通診斷。

            image011.png

            3、健康診斷

            image013.png

            先看一下實(shí)例健康診斷,即針對(duì)客戶(hù)OS內(nèi)的問(wèn)題,以及云服務(wù)器所依賴(lài)的云平臺(tái)軟硬件問(wèn)題做全面檢測(cè)的服務(wù)。我們的診斷項(xiàng)目前分為兩大類(lèi):客戶(hù)OS診斷項(xiàng)和云平臺(tái)診斷項(xiàng)。


            今天重點(diǎn)會(huì)和大家說(shuō)一下客戶(hù)OS診斷項(xiàng),基于健康診斷,目前能夠檢測(cè)到客戶(hù)OS內(nèi)的哪些問(wèn)題?

            1. 首先基于健康診斷,能夠發(fā)現(xiàn)常見(jiàn)的CPU打滿(mǎn)、內(nèi)存不足、磁盤(pán)空間不足,占用資源最高的top5進(jìn)程等資源使用率的問(wèn)題。
            2. 其次通過(guò)健康診斷還能發(fā)現(xiàn)常見(jiàn)的網(wǎng)絡(luò)設(shè)置、磁盤(pán)設(shè)計(jì)、文件系統(tǒng)設(shè)置的問(wèn)題。以網(wǎng)絡(luò)設(shè)置為例,網(wǎng)卡是否up,網(wǎng)絡(luò)服務(wù)是否在運(yùn)行,網(wǎng)卡多隊(duì)列是否開(kāi)啟從而保障網(wǎng)絡(luò)性能,網(wǎng)卡ip配置方式是否正確(比如我們經(jīng)常遇到用戶(hù)的實(shí)例理應(yīng)使用dhcp方式動(dòng)態(tài)分配ip,卻因?yàn)槭褂昧俗远x鏡像配置了靜態(tài)ip導(dǎo)致網(wǎng)絡(luò)不可訪(fǎng)問(wèn)的問(wèn)題)等常見(jiàn)的網(wǎng)絡(luò)問(wèn)題。
            3. 通過(guò)健康診斷,我們還能看到影響實(shí)例正常運(yùn)行的服務(wù)是否正常進(jìn)行,如常見(jiàn)端口是否在監(jiān)聽(tīng)(比如linux 22端口,windows 3389端口),動(dòng)態(tài)分配ip的dhcp進(jìn)程是否存在,負(fù)責(zé)系統(tǒng)初始化的systemd是否正常運(yùn)行等。
            4. 通過(guò)健康診斷還能看客戶(hù)OS內(nèi)有沒(méi)有設(shè)置自定義防火墻,自定義路由表。這往往會(huì)造成網(wǎng)絡(luò)連通方面的問(wèn)題。云服務(wù)器,我們建議使用安全組作為唯一的防火墻解決方案,因?yàn)榘踩M是處于虛擬網(wǎng)絡(luò)層面,用戶(hù)無(wú)法篡改的,所以它既簡(jiǎn)單又安全。

            以上這些能力是截止到目前我們具備的診斷能力,但這遠(yuǎn)不是終點(diǎn)。還有很多新的診斷能力在研發(fā)中。我還想分享下我們做診斷的一些體會(huì),坦白地說(shuō)把診斷做好很難,因?yàn)榭蛻?hù)的問(wèn)題千差萬(wàn)別,很難通過(guò)事先的設(shè)計(jì)把診斷能力做強(qiáng)做準(zhǔn)。我們的經(jīng)驗(yàn)是要問(wèn)題驅(qū)動(dòng),即發(fā)現(xiàn)問(wèn)題解決問(wèn)題快速迭代不斷豐富診斷能力。


            接下來(lái)我們看一下健康診斷典型的用法。這里我列了兩個(gè)典型的場(chǎng)景:

            image015.png
            首先,
            做異常實(shí)例的原因檢測(cè)。比如上圖能夠看到服務(wù)器load突然飆高,你當(dāng)然可以通過(guò)更細(xì)粒度的監(jiān)控指標(biāo)來(lái)定位原因,但還有一個(gè)更方便的做法,即運(yùn)行一下實(shí)例的健康診斷。以這個(gè)case為例,我們會(huì)清晰告訴你占用CPU資源最高的進(jìn)程是誰(shuí)?它的ID是什么?接下來(lái)能夠幫助你快速定位問(wèn)題??梢钥匆幌逻@個(gè)進(jìn)程是不是業(yè)務(wù)自身的問(wèn)題造成的?是正常的業(yè)務(wù)流量增長(zhǎng)還是代碼的實(shí)現(xiàn)有問(wèn)題?是不是有最近的發(fā)布等。


            第二,建議基于健康診斷和運(yùn)維編排來(lái)實(shí)現(xiàn)對(duì)實(shí)例
            周期性的健康巡檢。我們的運(yùn)維編排服務(wù)是支持定期周期執(zhí)行的能力,你只要針對(duì)需要巡檢的實(shí)例,定期周期的調(diào)用實(shí)例健康診斷接口,就可以產(chǎn)生診斷報(bào)告。然后根據(jù)診斷報(bào)告的提示來(lái)做人工或者自動(dòng)的處理。如果說(shuō)實(shí)例規(guī)模比較大,可以針對(duì)提示非常嚴(yán)重的問(wèn)題,實(shí)現(xiàn)自動(dòng)化的異常響應(yīng),自動(dòng)化運(yùn)維。


            4、健康狀態(tài)

            image017.png

            接下來(lái)看一下實(shí)例的健康狀態(tài)。健康狀態(tài)和健康診斷的原理是一致的,但是健康狀態(tài)有三個(gè)明顯的區(qū)別。


            一是診斷項(xiàng)的范圍。實(shí)例的健康狀態(tài)診斷項(xiàng)更加精練,我們選擇的是保證實(shí)例健康運(yùn)行的、基本的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的診斷項(xiàng)。從現(xiàn)在開(kāi)始ECS是有兩種狀態(tài),一種是管控狀態(tài),還有一種就是運(yùn)行時(shí)狀態(tài),也就是健康狀態(tài)。而實(shí)例的健康診斷呈現(xiàn)給用戶(hù)的是一份診斷報(bào)告,除了有問(wèn)題,還會(huì)告知你這個(gè)問(wèn)題的原因是什么?所以說(shuō)通過(guò)這三項(xiàng)對(duì)比,我們發(fā)現(xiàn)實(shí)例健康狀態(tài)其實(shí)是有自己特殊的適用場(chǎng)景。上圖是我們精選的實(shí)例健康狀態(tài)支持的診斷項(xiàng),大家可以簡(jiǎn)單了解一下。

            image019.png

            實(shí)例健康狀態(tài)的典型用法。如果你的實(shí)例很少,可以通過(guò)控制臺(tái)及時(shí)感知到當(dāng)前實(shí)例運(yùn)行狀態(tài)是什么?是不是健康的?

            • 如果不是健康,一定是底層或者用戶(hù)設(shè)置出現(xiàn)了什么問(wèn)題,可以采取相應(yīng)的運(yùn)維手段,或者尋求技術(shù)支持。
            • 如果集群規(guī)模比較大,而且對(duì)基礎(chǔ)設(shè)施的可靠性要求非常高。我們建議采用右圖,通過(guò)彈性伸縮的自動(dòng)汰換異常實(shí)例功能,保障整個(gè)集群的基礎(chǔ)設(shè)施高可用。具體就是通過(guò)彈性伸縮的控制臺(tái),來(lái)開(kāi)啟實(shí)例健康狀態(tài)檢測(cè)功能。接下來(lái)彈性伸縮服務(wù)就會(huì)代替客戶(hù)周期檢查實(shí)例健康狀態(tài)。發(fā)現(xiàn)異常則立刻用相同規(guī)格的健康實(shí)例汰換異常實(shí)例,確保整個(gè)基礎(chǔ)設(shè)施層面保持高可用。

            image021.png

            最后,介紹一個(gè)我們正在處于公測(cè)的產(chǎn)品,網(wǎng)絡(luò)連通診斷。大家都知道網(wǎng)絡(luò)不通問(wèn)題的原因可以非常復(fù)雜,我們的客戶(hù)經(jīng)常受網(wǎng)絡(luò)不通問(wèn)題的困擾,而根據(jù)長(zhǎng)期幫用戶(hù)排查問(wèn)題的經(jīng)驗(yàn),發(fā)現(xiàn)三類(lèi)問(wèn)題高頻出現(xiàn):

            1. 目標(biāo)進(jìn)程監(jiān)聽(tīng)不正確;
            2. 防火墻設(shè)置的問(wèn)題。包括客戶(hù)OS內(nèi)自定義的防火墻和安全組;
            3. 實(shí)例自身的網(wǎng)絡(luò)設(shè)置問(wèn)題。


            所以針對(duì)高頻這三種問(wèn)題,我們研發(fā)了網(wǎng)絡(luò)的端到端診斷。它能夠比較準(zhǔn)確地發(fā)現(xiàn)通信的源和目的節(jié)點(diǎn)的:

            • 安全組以及客戶(hù)OS防火墻設(shè)置問(wèn)題
            • 子網(wǎng)ACL設(shè)置問(wèn)題
            • 實(shí)例自身網(wǎng)絡(luò)狀態(tài)/設(shè)置問(wèn)題
            • 端口是否在正常監(jiān)聽(tīng)


            三、總結(jié)

            1、幾個(gè)產(chǎn)品對(duì)比

            image023.png

            好的,以上我們針對(duì)云服務(wù)器可觀測(cè)能力的3個(gè)目標(biāo):確定性運(yùn)行、簡(jiǎn)化運(yùn)維和信息透明向大家介紹了5個(gè)產(chǎn)品:云監(jiān)控,ECS系統(tǒng)事件,實(shí)例健康診斷、實(shí)例健康狀態(tài)和網(wǎng)絡(luò)端到端診斷。最后,做一個(gè)總結(jié)和回顧。 首先看下幾個(gè)產(chǎn)品的特點(diǎn)對(duì)比:


            • 云監(jiān)控:特別適合客戶(hù)OS和客戶(hù)進(jìn)程的指標(biāo)監(jiān)控和報(bào)警
            • 系統(tǒng)事件:覆蓋的問(wèn)題域比較廣,但主要還是上報(bào)因?yàn)樵破脚_(tái)系統(tǒng)維護(hù)或系統(tǒng)錯(cuò)誤導(dǎo)致影響實(shí)例運(yùn)行的問(wèn)題??蛻?hù)OS和客戶(hù)進(jìn)程的問(wèn)題涉及的比較少。
            • 健康診斷:覆蓋的問(wèn)題域很廣,診斷項(xiàng)比事件更豐富,尤其是客戶(hù)OS相關(guān)的診斷項(xiàng)很豐富,而且仍然在不斷豐富。
            • 健康狀態(tài):原理與健康診斷類(lèi)似,但診斷項(xiàng)更精煉,適合特定的場(chǎng)景。


            2、不同場(chǎng)景下的產(chǎn)品選擇

            image025.png

            最后從場(chǎng)景角度,看一下不同的場(chǎng)景適合使用什么樣的產(chǎn)品和工具,來(lái)解決我們的問(wèn)題。

            • 如果我們想做業(yè)務(wù)或者主機(jī)監(jiān)控/度量和報(bào)警,優(yōu)先使用云監(jiān)控。
            • 如果我們的實(shí)例出現(xiàn)了異常,我們想周期性對(duì)實(shí)例做一個(gè)健康的巡檢,我們建議使用ECS系統(tǒng)事件和ECS健康診斷。
            • 如果你的場(chǎng)景是容器或二次虛擬化的場(chǎng)景,對(duì)基礎(chǔ)設(shè)施的高可用要求非常高。那么我們建議彈性伸縮+實(shí)例健康狀態(tài)的異常實(shí)例自動(dòng)探算能力,保證整個(gè)集群的高可用。
            • 如果遇到網(wǎng)絡(luò)不通問(wèn)題,優(yōu)先使用網(wǎng)絡(luò)端到端診斷??匆幌鲁R?jiàn)的安全組,客戶(hù)安全防火墻,進(jìn)程監(jiān)聽(tīng)以及自身實(shí)例網(wǎng)絡(luò)設(shè)置有沒(méi)有問(wèn)題。


            點(diǎn)擊大會(huì)官網(wǎng),觀看姜文鋒的精彩演講視頻。