了解最新公司動(dòng)態(tài)及行業(yè)資訊
云原生時(shí)代,企業(yè)IT運(yùn)維面臨架構(gòu)復(fù)雜、業(yè)務(wù)需求多樣化、運(yùn)維數(shù)據(jù)海量等挑戰(zhàn)。已成為企業(yè)數(shù)字化轉(zhuǎn)型的迫切需求。
9月26日,阿里巴巴高級(jí)技術(shù)專家滕勝波在“GOPS全球運(yùn)維大會(huì)”上發(fā)表了題為“云服務(wù)器無人值守與自助服務(wù)”的主題演講,分享了阿里云彈性計(jì)算團(tuán)隊(duì)如何利用人工智能。智能技術(shù)實(shí)現(xiàn)自動(dòng)化運(yùn)維,實(shí)現(xiàn)云端服務(wù)器無人值守,幫助用戶降低云服務(wù)器實(shí)例管理復(fù)雜度,保障實(shí)例服務(wù)穩(wěn)定高效運(yùn)行。本文是根據(jù)滕勝波的講話改編的。
本文內(nèi)容結(jié)構(gòu):
1、為什么云服務(wù)器需要無人值守?
2、阿里巴巴云無人值守自助實(shí)戰(zhàn)
3、無人值守背后的數(shù)據(jù)和AI
1、為什么云服務(wù)器需要無人值守?
運(yùn)維是一種服務(wù),既包括基礎(chǔ)設(shè)施軟件服務(wù),也包括人工服務(wù)。服務(wù)的對(duì)象是企業(yè)中使用基礎(chǔ)設(shè)施的業(yè)務(wù)團(tuán)隊(duì),而云計(jì)算IaaS是一種運(yùn)維服務(wù),而服務(wù)的對(duì)象已經(jīng)開發(fā)為使用云服務(wù)的開發(fā)人員和運(yùn)營(yíng)團(tuán)隊(duì)。隨著云計(jì)算的廣泛實(shí)施,大多數(shù)企業(yè)已經(jīng)遷移到云端。目前,有超過100萬用戶的業(yè)務(wù)在阿里云平臺(tái)上運(yùn)行,阿里云平臺(tái)服務(wù)的用戶也越來越多。
隨著平臺(tái)用戶的擴(kuò)大,我們發(fā)現(xiàn)平臺(tái)用戶在運(yùn)維ECS實(shí)例時(shí)普遍面臨三個(gè)痛點(diǎn):
(1)后臺(tái)通信成本高,為什么我的實(shí)例有問題?
(2)手工處理時(shí)間長(zhǎng),為什么這個(gè)問題這么久沒有解決?
(3)客戶端操作不透明,問題好像解決了,但是你剛剛做了什么?
為此,我們需要在客服人員上投入巨資,讓用戶的問題得到高效的解決。為了避免用戶規(guī)模擴(kuò)大帶來的客戶端運(yùn)維成本線性增加,我們開始使用人工智能技術(shù)賦能用戶運(yùn)維管理。當(dāng)無人零售、無人駕駛成為趨勢(shì)時(shí),我們相信未來云端服務(wù)器也將無人值守。
事實(shí)上,阿里云彈性計(jì)算產(chǎn)品推出十年,積累了很多ECS實(shí)例運(yùn)維管理經(jīng)驗(yàn)和異?!靶袨椤币?guī)則。因此,依托機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)特性,我們通過對(duì)異?!靶袨椤睌?shù)據(jù)的分析,為云端服務(wù)器搭建無人值守架構(gòu),推出一系列自助服務(wù),實(shí)現(xiàn)自診斷、自愈合、自優(yōu)化和自運(yùn)維幫助用戶降低ECS實(shí)例管理的復(fù)雜度,從而保證實(shí)例服務(wù)的穩(wěn)定高效運(yùn)行。
2、無人值守自助實(shí)戰(zhàn)
云計(jì)算IaaS的運(yùn)維可以分為服務(wù)端運(yùn)維和客戶端運(yùn)維。服務(wù)端運(yùn)維是云平臺(tái)的運(yùn)維工作,通常用戶看不到,主要涉及基礎(chǔ)設(shè)施、基礎(chǔ)產(chǎn)品和上層管控。三個(gè)層次,包括機(jī)房和物理設(shè)備的運(yùn)維、資源虛擬化、資源調(diào)度、熱遷移。隨著用戶規(guī)模的擴(kuò)大,這些運(yùn)維任務(wù)會(huì)越來越復(fù)雜。用戶側(cè)運(yùn)維工作對(duì)用戶是可見的,主要是用戶對(duì)ECS實(shí)例的修改和自動(dòng)化,包括擴(kuò)容、重啟、監(jiān)控、客服、
我們搭建的云服務(wù)器無人值守架構(gòu),為阿里云平臺(tái)用戶提供了一系列的自助服務(wù)。從廣義上講,阿里云的自助服務(wù)包括四個(gè)維度:ECS實(shí)例本身、實(shí)例生命周期管理、系統(tǒng)管理與自動(dòng)化、市場(chǎng)與生態(tài),如下圖所示。
圖:廣義的自助服務(wù)
狹義的阿里云自助服務(wù)是為用戶實(shí)現(xiàn)ECS實(shí)例的診斷、修復(fù)、推薦等功能。當(dāng)天,阿里云自助提供了實(shí)例診斷工具、實(shí)例優(yōu)化推薦、自動(dòng)修復(fù)工具、最佳模板推薦、ECS事件自動(dòng)化等一系列自助工具服務(wù)器運(yùn)維技術(shù),覆蓋了80%的常見ECS問題,將平均問題解決時(shí)間從幾小時(shí)縮短到幾分鐘。全程無需客服人員人工參與,不存在隱私泄露風(fēng)險(xiǎn)。云上的服務(wù)器是無人值守的。未來服務(wù)器運(yùn)維技術(shù),隨著AI+數(shù)據(jù)的不斷驅(qū)動(dòng),ECS實(shí)例的診斷和修復(fù)會(huì)越來越精準(zhǔn)。
ECS實(shí)例智能診斷
根據(jù)平臺(tái)統(tǒng)計(jì),用戶在使用ECS實(shí)例時(shí)主要面臨四類問題:
(1)無法遠(yuǎn)程訪問實(shí)例
(2)實(shí)例無法啟動(dòng)/停止
(3)實(shí)例性能異常
(4)擴(kuò)盤不生效
因此,在智能診斷能力方面,我們涵蓋了ECS系統(tǒng)服務(wù)、磁盤健康服務(wù)、網(wǎng)絡(luò)健康服務(wù)、Guest OS系統(tǒng)配置等維度。用戶可以一鍵完成實(shí)例的智能健康診斷。
ECS實(shí)例自動(dòng)修復(fù)
智能診斷完成后,我們還將為用戶提供ECS實(shí)例的自動(dòng)修復(fù)解決方案。前者定位問題后,自動(dòng)修復(fù)可在1-3分鐘內(nèi)解決問題,主要完成ECS系統(tǒng)服務(wù)修復(fù)、網(wǎng)絡(luò)問題修復(fù)和磁盤修復(fù)。.
僅僅實(shí)施自動(dòng)化修復(fù)是不夠的,我們認(rèn)為自動(dòng)化修復(fù)還應(yīng)該是透明和合規(guī)的。我們通過運(yùn)維編排服務(wù)OOS提供自動(dòng)化引擎,通過云助手命令提供內(nèi)部執(zhí)行能力。運(yùn)維編排服務(wù)OOS+云助手命令共同幫助用戶完成自動(dòng)修復(fù);同時(shí)開源運(yùn)維編排服務(wù)OOS+云助手命令。代碼,使所有修復(fù)邏輯對(duì)用戶可見;所有修復(fù)操作也可以通過ECS實(shí)例鏡像、快照、數(shù)據(jù)備份進(jìn)行回滾;所有權(quán)限都可以通過阿里云RAM角色控制來控制,
3、無人值守背后的AI和數(shù)據(jù)能力
使我們能夠?qū)崿F(xiàn)智能診斷和自動(dòng)修復(fù)的,是冰山下的強(qiáng)大技術(shù)支撐——AI+數(shù)據(jù)。依托底層數(shù)據(jù)中心,完成了物理機(jī)數(shù)據(jù)、虛擬化數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、控制面數(shù)據(jù)、內(nèi)部數(shù)據(jù)等數(shù)據(jù)的采集、清洗、分析和模型構(gòu)建;再加上AI算法的不斷優(yōu)化,我們構(gòu)建了用戶畫像、決策樹、預(yù)測(cè)推薦模型等,確保異常診斷和自動(dòng)修復(fù)更加精準(zhǔn)高效。
目前,在整個(gè)ECS自助服務(wù)架構(gòu)中,控制監(jiān)控中心主要依靠日志服務(wù)的實(shí)時(shí)監(jiān)控、中間件監(jiān)控、API請(qǐng)求監(jiān)控、控制臺(tái)監(jiān)控和自診斷數(shù)據(jù),實(shí)現(xiàn)問題預(yù)警和通過機(jī)器學(xué)習(xí)引擎進(jìn)行處理,進(jìn)而驅(qū)動(dòng)運(yùn)維編排服務(wù)OOS,實(shí)現(xiàn)問題的自動(dòng)修復(fù)。
通過這種AI驅(qū)動(dòng)的自助服務(wù)架構(gòu),目前阿里云ECS實(shí)時(shí)內(nèi)存異常感知準(zhǔn)確率超過70%,實(shí)現(xiàn)預(yù)測(cè)鏈路延遲控制在100s以內(nèi);此外,整合專家經(jīng)驗(yàn)、案例庫(kù)和知識(shí)庫(kù),構(gòu)建強(qiáng)大的診斷決策樹,為加快問題定位和修復(fù)提供有力依據(jù)。
近兩年,阿里云彈性計(jì)算團(tuán)隊(duì)不斷投入異常行為數(shù)據(jù)集的建設(shè)。未來計(jì)劃將其演化為阿里巴巴集團(tuán)異常預(yù)測(cè)的“數(shù)據(jù)集”并開源,希望對(duì)行業(yè)異常預(yù)測(cè)的發(fā)展有所幫助。貢獻(xiàn)更大的價(jià)值。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)