国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            Article / 文章中心

            使用ML預(yù)測磁盤故障、智能診斷部署,MSRA在云端將AIOps玩出高度

            發(fā)布時(shí)間:2022-01-24 點(diǎn)擊數(shù):905

             運(yùn)維是一家公司正常運(yùn)行的重要組成部分。為了保證在線體系的服務(wù)質(zhì)量和用戶體會(huì),公司運(yùn)維部分需求實(shí)時(shí)監(jiān)控體系運(yùn)行狀況,以便對反常及時(shí)進(jìn)行分析和處理。傳統(tǒng)的人工運(yùn)維辦法耗時(shí)耗力,之后呈現(xiàn)了使用很多自動(dòng)化腳本的自動(dòng)化運(yùn)維辦法,但跟著體系規(guī)模日益增長,海量用戶、大規(guī)模集群、雜亂的體系架構(gòu)自動(dòng)化運(yùn)維漸漸無能為力。

            如何實(shí)時(shí)檢測反常、快速響應(yīng)毛病、猜測毛病、合理規(guī)劃容量等成為了重要研討課題。大數(shù)據(jù)和 AI 時(shí)代的到來使公司運(yùn)維邁入了智能化階段,智能運(yùn)維(AIOps)應(yīng)運(yùn)而生。

            AIOps  是「Artifical Intelligence for IT Operations」的縮寫,由 Gartner 在 2016  年提出。據(jù)其解說,AIOps 有兩個(gè)主要組成部分,別離是大數(shù)據(jù)和機(jī)器學(xué)習(xí)。AIOps  需求遠(yuǎn)離數(shù)據(jù)孤島,在大數(shù)據(jù)渠道中將觀測數(shù)據(jù)(如在監(jiān)控體系和作業(yè)日志中發(fā)現(xiàn)的數(shù)據(jù))和互動(dòng)數(shù)據(jù)(如在突發(fā)事件和記載中發(fā)現(xiàn)的數(shù)據(jù))聚合起來。然后,對組合  IT 數(shù)據(jù)履行全面分析和機(jī)器學(xué)習(xí)戰(zhàn)略。終究取得自動(dòng)化驅(qū)動(dòng)的洞察力,這些洞察力能夠完成運(yùn)維渠道持續(xù)的修復(fù)和改進(jìn)。

            image.png

            圖源:Gartner

            伴跟著各行業(yè)數(shù)字化轉(zhuǎn)型的趨勢以及近年來新冠疫情帶來的長途作業(yè)、協(xié)同協(xié)作需求,云核算進(jìn)一步蓬勃發(fā)展。Gartner  研討副總裁 Sid Nag 以為云現(xiàn)已成為干流戰(zhàn)略,「下一代的產(chǎn)品方案,幾乎都是搭建于云渠道上的。」越來越多的使用服務(wù)轉(zhuǎn)向了云端,5G  也為云核算的發(fā)展注入了新的生機(jī)??墒?,跟著越來越多的用戶上云,體系辦理正面對著前所未有的應(yīng)戰(zhàn)。

            AIOps 與云服務(wù)的交融

            在 1 月 13 日的微軟亞洲研討院「智能運(yùn)維」媒體交流會(huì),微軟亞洲研討院副院長、微軟杰出首席科學(xué)家張冬梅以為,AIOps 應(yīng)經(jīng)過立異的 AI 或 ML 技能,有用且高效地規(guī)劃、構(gòu)建并運(yùn)營大規(guī)模的雜亂云服務(wù)。

            image.png

            張冬梅。圖源:msra

            其間,AIOps 又可分為不同的服務(wù)對象以及不同的服務(wù)方針:

            AI for System(服務(wù) / 體系):規(guī)劃和構(gòu)建更可靠、更高功能和更高功率的高質(zhì)量服務(wù);

            AI for DevOps(開發(fā) / 運(yùn)維):使用智能工具為工程人員賦能,在 DevOps 中完成高生產(chǎn)力;

            AI for Customer(客戶):經(jīng)過智能化和更好的用戶體會(huì),改進(jìn)客戶滿意度。

            下圖為 AIOps 別離針對服務(wù) / 體系、開發(fā) / 運(yùn)維和客戶的使用場景:

            image.png

            從使用場景能夠看出,AIOps 的研討主要聚焦于檢測、確診、猜測和優(yōu)化四個(gè)范疇,每個(gè)范疇包括的運(yùn)維使命不同,又各自面對不同的應(yīng)戰(zhàn)。咱們以檢測為例,包含了時(shí)刻序列的反常檢測、根據(jù)日志的反常檢測以及多維度變化檢測等使命,但檢測過程中面對著差異化需求、噪音數(shù)據(jù)、高緯度以及標(biāo)示數(shù)據(jù)缺少等應(yīng)戰(zhàn)。

            image.png

            一直以來,微軟亞洲研討院致力于探索  AIOps 范疇的研討邊界。10 年前,率先開發(fā)云智能以及 AIOps  相關(guān)范疇的研討,在該范疇提出了全新的辦法與規(guī)劃,如自動(dòng)體系規(guī)劃(Proactive System  Design)、數(shù)據(jù)驅(qū)動(dòng)型安全布置(Data-driven Safe Deployment),并在  ICSE/FSE(軟件工程范疇)、OSDI/NSDI(核算機(jī)網(wǎng)絡(luò)體系范疇)以及  AAAI/IJCAI(人工智能范疇)等全球高影響力學(xué)術(shù)會(huì)議上發(fā)表論文 50 多篇。

            其間,與天津大學(xué)智能與核算學(xué)部軟件工程團(tuán)隊(duì)、紐斯卡爾大學(xué)等協(xié)作完成的論文《  How Long Will it Take to Mitigate this Incident for Online Service  Systems? 》更是取得了 ISSRE 2021 唯一最佳論文獎(jiǎng)。


            實(shí)踐中的 AIOps 技能

            利用大規(guī)模數(shù)據(jù)發(fā)掘、機(jī)器學(xué)習(xí)和人工智能技能,微軟亞洲研討院開發(fā)了一系列 AIOps 立異技能,并現(xiàn)已在云體系的毛病猜測、反常檢測、智能確診、容量規(guī)劃、事端辦理等許多實(shí)際使用場景中落地,極大地提升了工業(yè)生產(chǎn)力、服務(wù)質(zhì)量和用戶體會(huì)和。研討成果現(xiàn)已使用到了微軟 Skype、OneDrive、Office 365、Azure 等許多在線服務(wù)中。

            微軟亞洲研討院首席研討員林慶維以磁盤毛病猜測、安全布置確診和智能虛擬機(jī)預(yù)裝備(PPS)為例展示了 AIOps 在軟硬件毛病猜測、智能確診和智能化建議 / 提示等三個(gè)使用場景中的落地及完成作用。

            首先,硬盤毛病猜測。在毛病產(chǎn)生之前,提前猜測以防止可能的損失是智能服務(wù)的殺手锏。咱們知道,硬件毛病是形成虛擬機(jī)(VM)宕機(jī)和重啟的最主要原因之一,而磁盤毛病又是形成硬件毛病的主要原因。在磁盤完全失效前,虛擬機(jī)就會(huì)遭到影響,并且磁盤數(shù)據(jù)存儲(chǔ)散布極點(diǎn)失衡,磁盤健康狀態(tài)也會(huì)遭到鄰近磁盤的影響,

            針對這些特征,微軟亞研在論文《NTAM:  Neighborhood-Temporal Attention Model for Disk Failure Prediction in  Cloud Platforms》中提出了鄰域 - 時(shí)刻注意力模型(Neighborhood-Temporal Attention Model,  NTAM),這是一種根據(jù)深度學(xué)習(xí)的全新磁盤毛病猜測辦法。此外,本文還提出了時(shí)刻漸進(jìn)采樣法(Temporal Progressive  Sampling, TPS),一種用于處理極點(diǎn)數(shù)據(jù)失衡的數(shù)據(jù)增強(qiáng)辦法。

            論文地址:https://dl.acm.org/doi/10.1145/3442381.3449867

            下圖為  NTAM 模型概覽。微軟亞研在公共數(shù)據(jù)集以及從微軟 Azure 中收集數(shù)百萬個(gè)磁盤創(chuàng)立的兩個(gè)工業(yè)數(shù)據(jù)集上對該模型進(jìn)行了評估。結(jié)果表明,NTAM  顯著優(yōu)于其他 SOTA 模型。更值得重視的是,NTAM 和 TPS 辦法現(xiàn)已使用到了微軟 Azure 和微軟 365  等云渠道中,并在工業(yè)實(shí)踐中取得收益。

            image.png

            其次,安全布置確診。不規(guī)范、不安全布置會(huì)可能會(huì)引發(fā)災(zāi)難事端,因而針對布置的反常檢測(Anomaly Detection)非常重要。微軟亞研采用的辦法如下圖所示:

            image.png

            其間,在檢測反常過程中,微軟亞研在論文《Cross-dataset  Time Series Anomaly Detection for Cloud Systems》中提出了自動(dòng)遷移學(xué)習(xí)反常檢測(Active  Transfer Anomaly Detection,  ATAD),它集成了遷移學(xué)習(xí)和自動(dòng)學(xué)習(xí)技能。遷移學(xué)習(xí)用于將知識從源數(shù)據(jù)集遷移至方針數(shù)據(jù)集,自動(dòng)學(xué)習(xí)用于確認(rèn)未標(biāo)示數(shù)據(jù)集中一小部分樣本的信息標(biāo)簽。

            論文地址:https://www.usenix.org/conference/atc19/presentation/zhang-xu

            ATAD 概覽如下。微軟亞研經(jīng)過實(shí)驗(yàn)證明了 ATAD 在跨數(shù)據(jù)集時(shí)刻序列反常檢測中的有用性,只需求少于 0.1% 的人工標(biāo)示即可完成杰出的準(zhǔn)確率。

            image.png

            最后,智能虛擬機(jī)預(yù)裝備。作為最常見的核心操作,虛擬機(jī)裝備對用戶體會(huì)產(chǎn)生直接影響。裝備功能不良會(huì)形成長時(shí)刻等候?qū)е驴蛻舨粷M意,并且難以處理大客戶的批量懇求,形成巨大經(jīng)濟(jì)損失。微軟  Azure 中的預(yù)裝備服務(wù)(Pre-Provisioning Service, PPS)經(jīng)過創(chuàng)立預(yù)裝備的虛擬機(jī)提升了 VM  布置的功能,帶來了可靠性和延遲收益。

            image.png

            不過,仍然面對一些應(yīng)戰(zhàn),比如可猜測的  VM 需求量少,存在很多的 VM 類型和差異化 VM  需求形式。此外,猜測不確認(rèn)不可防止,難以歸入優(yōu)化體系中。決議計(jì)劃變量和約束條件是離散,且離散域的優(yōu)化是 NP -  難問題。對此,微軟亞研提出了全新的辦法結(jié)構(gòu),將不確認(rèn)性感知結(jié)構(gòu)用于猜測與優(yōu)化。結(jié)果表明,微軟亞研提出的辦法完成了相較于其他競品更優(yōu)的體現(xiàn)。

            image.png

            未來,微軟亞洲研討院將致力于「更自動(dòng)化、更自動(dòng)化和更通用化」的智能運(yùn)維,更高效地賦能于運(yùn)維人員、開發(fā)者和客戶。