了解最新公司動(dòng)態(tài)及行業(yè)資訊
在數(shù)字化浪潮下,運(yùn)維能力逐漸成為現(xiàn)代企業(yè)的競(jìng)爭(zhēng)力之一。
在過(guò)去的幾十年里,運(yùn)維經(jīng)歷了幾個(gè)階段。從早期的人工運(yùn)維到標(biāo)準(zhǔn)化運(yùn)維、自動(dòng)化運(yùn)維、AIOps,全過(guò)程追溯不難發(fā)現(xiàn),隨著技術(shù)的不斷發(fā)展,運(yùn)維方式正在逐漸智能化。
2016年,為運(yùn)維提供了一個(gè)新概念——“AIOps”,中文意思是智能運(yùn)維。即以AI等手段為核心,為運(yùn)維提供更加智能化、數(shù)字化的支持。也就是說(shuō),運(yùn)維應(yīng)該從“人”元素中分離出來(lái)it運(yùn)維技術(shù),更多地放在“數(shù)據(jù)”端。包含更多場(chǎng)景,包括異常告警、告警收斂、故障分析、趨勢(shì)預(yù)測(cè)、故障畫像等。
所謂AIOps,簡(jiǎn)單理解,就是基于自動(dòng)化運(yùn)維,將AI和運(yùn)維很好的結(jié)合起來(lái)。
AIOps 的實(shí)施直接擊中了傳統(tǒng)運(yùn)維多方面的痛點(diǎn)。 AI算法承擔(dān)著分析海量運(yùn)維數(shù)據(jù)的重任,能夠自動(dòng)準(zhǔn)確地發(fā)現(xiàn)和定位問(wèn)題,從決策層面提升運(yùn)營(yíng)效率,助力企業(yè)運(yùn)營(yíng)運(yùn)營(yíng)。維護(hù)工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。
在市場(chǎng)方面,全球IT研究機(jī)構(gòu)預(yù)測(cè):“到2022年,40%的大型企業(yè)將部署AIOps(智能運(yùn)維)平臺(tái)。”
可見,AIOps在企業(yè)中的作用進(jìn)一步放大。但實(shí)際上,很多企業(yè)并不清楚AIOps能解決什么問(wèn)題。今天我們就從華晨數(shù)據(jù)的AIOps的三種場(chǎng)景和算法入手。
Brill Data 的 AIOps 實(shí)踐
作為領(lǐng)先的APM應(yīng)用性能管理廠商,在AIOps實(shí)踐方面,華晨數(shù)據(jù)多年來(lái)積極擁抱人工智能、機(jī)器學(xué)習(xí)等新技術(shù)浪潮,并以AI和機(jī)器學(xué)習(xí)技術(shù)為基礎(chǔ),自主研發(fā)了“數(shù)據(jù)接口”。 “傳入、處理、存儲(chǔ)、分析技術(shù)”核心技術(shù)體系,全面部署智能基線、異常檢測(cè)、智能告警、關(guān)聯(lián)分析、根因分析等豐富廣泛的智能運(yùn)維功能,集成AIOps能力融入端到端全棧監(jiān)控產(chǎn)品線可為傳統(tǒng)企業(yè)提供強(qiáng)大的數(shù)據(jù)處理、存儲(chǔ)和分析軟件工具,幫助客戶整合各種IT運(yùn)維監(jiān)控?cái)?shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一存儲(chǔ)和關(guān)聯(lián)分析,打破數(shù)據(jù)孤島,構(gòu)建統(tǒng)一的IT運(yùn)維。運(yùn)維管理平臺(tái)讓企業(yè)的IT運(yùn)維更加智能化、自動(dòng)化。
在此基礎(chǔ)上,華晨數(shù)據(jù)還依托完善的IT運(yùn)維監(jiān)控能力,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù),不斷打造先進(jìn)的智能運(yùn)維監(jiān)控產(chǎn)品。 2021年,將推出新一代AI能力。 APM產(chǎn)品.0和新版統(tǒng)一智能運(yùn)維平臺(tái)繼續(xù)實(shí)現(xiàn)智能異常檢測(cè)、根因分析、故障預(yù)測(cè)等場(chǎng)景?;贏I的能力在運(yùn)維監(jiān)控場(chǎng)景中實(shí)現(xiàn)信息整合、特征關(guān)聯(lián)和業(yè)務(wù)洞察,幫助企業(yè)保障數(shù)字化業(yè)務(wù)的順利運(yùn)營(yíng)和良好的數(shù)字化體驗(yàn)。
博瑞數(shù)據(jù)AIOps場(chǎng)景與算法
目前,華晨數(shù)據(jù)在AIOps技術(shù)上主要實(shí)現(xiàn)了三個(gè)場(chǎng)景。即智能基線預(yù)測(cè)、異常檢測(cè)和告警收斂。
首先看看智能基線預(yù)測(cè)。
智能基線預(yù)測(cè)是指基于歷史數(shù)據(jù),利用智能算法進(jìn)行深度學(xué)習(xí),準(zhǔn)確預(yù)測(cè)未來(lái)每個(gè)時(shí)間點(diǎn)的值,并將預(yù)測(cè)值作為基線進(jìn)行監(jiān)控和告警。
如上圖所示,未來(lái)24小時(shí)的數(shù)據(jù)預(yù)測(cè)結(jié)果用虛線表示,灰色區(qū)域表示正常數(shù)據(jù)的波動(dòng)范圍。如果實(shí)際值超出灰色區(qū)域,則會(huì)出現(xiàn)異常。
當(dāng)IT運(yùn)維人員發(fā)現(xiàn)業(yè)務(wù)服務(wù)數(shù)據(jù)出現(xiàn)問(wèn)題時(shí),通常會(huì)使用動(dòng)態(tài)基線來(lái)測(cè)試和測(cè)量實(shí)時(shí)數(shù)據(jù)。如果實(shí)時(shí)數(shù)據(jù)和動(dòng)態(tài)基線數(shù)據(jù)兩條曲線擬合度相近,則服務(wù)相對(duì)健康;如果動(dòng)態(tài)基線與實(shí)時(shí)數(shù)據(jù)的離散程度較大,則說(shuō)明當(dāng)前服務(wù)存在問(wèn)題。
目前華晨數(shù)據(jù)在智能基線預(yù)測(cè)中使用的算法包括實(shí)時(shí)預(yù)測(cè)算法、離線算法預(yù)測(cè)和流式算法預(yù)測(cè)三種。
讓我們?cè)倏纯串惓z測(cè)。
異常檢測(cè)是指通過(guò)對(duì)歷史數(shù)據(jù)的機(jī)器學(xué)習(xí)來(lái)動(dòng)態(tài)預(yù)測(cè)數(shù)據(jù)的趨勢(shì)。無(wú)需手動(dòng)設(shè)置閾值,可根據(jù)指標(biāo)數(shù)據(jù)特征自動(dòng)識(shí)別異常。
如圖,灰色區(qū)域代表正常數(shù)據(jù)的波動(dòng)范圍,紅色數(shù)據(jù)點(diǎn)為異常數(shù)據(jù)點(diǎn)。
在檢測(cè)應(yīng)用服務(wù)運(yùn)行狀態(tài)的過(guò)程中,IT運(yùn)維人員可以通過(guò)AIOps異常檢測(cè)算法判斷圖中紅色區(qū)域的數(shù)據(jù)為異常數(shù)據(jù),深灰色條形區(qū)域?yàn)闃I(yè)務(wù)波動(dòng)的可容忍范圍。同時(shí),運(yùn)維人員還可以通過(guò)數(shù)據(jù)集的特征數(shù)據(jù)對(duì)當(dāng)前事件周期內(nèi)的數(shù)據(jù)進(jìn)行聚合,綜合分析當(dāng)前事件對(duì)應(yīng)用的整體影響和波動(dòng)范圍。
目前華晨數(shù)據(jù)在異常檢測(cè)中應(yīng)用的算法有靜態(tài)基線(絕對(duì)靜態(tài)基線+差分靜態(tài)基線)、智能基線+判別等。
最后,我們來(lái)看看警報(bào)收斂。
所謂告警收斂,是指基于多個(gè)相關(guān)告警信息,組合成一個(gè)故障,可以預(yù)測(cè)判斷當(dāng)前處于故障狀態(tài)的告警可能產(chǎn)生的影響,從而實(shí)現(xiàn)預(yù)警故障并減少冗余報(bào)警事件。干擾運(yùn)維工作。
目前華晨數(shù)據(jù)在告警收斂中使用和規(guī)劃的算法包括事件熵、頂點(diǎn)熵、時(shí)域相關(guān)、文本相似相關(guān)、拓?fù)湎嚓P(guān)、NMF+等。
為AIOps行業(yè)的發(fā)展做出貢獻(xiàn)
進(jìn)一步擴(kuò)展和豐富華晨數(shù)據(jù)現(xiàn)有的AIOps場(chǎng)景、算法和能力,打磨日志異常檢測(cè)、根因分析、影響分析、自然語(yǔ)言處理、DIY算法等能力,用AI算法賦能日志業(yè)務(wù)場(chǎng)景管理、一體化運(yùn)維、應(yīng)急自愈快速恢復(fù)等,算法實(shí)驗(yàn)室助力企業(yè)加速數(shù)字化轉(zhuǎn)型進(jìn)程。
隨著企業(yè)業(yè)務(wù)規(guī)模的擴(kuò)大以及云原生和微服務(wù)的興起,企業(yè)IT架構(gòu)的復(fù)雜性呈指數(shù)級(jí)增長(zhǎng)。但是,傳統(tǒng)的IT運(yùn)維方式在故障發(fā)生后很難找到故障原因,且故障平均修復(fù)時(shí)間長(zhǎng),已經(jīng)不能滿足新的運(yùn)維需求。因此,不可避免地要用人工智能賦能運(yùn)維,替代緩慢易出錯(cuò)的人為決策,快速給出運(yùn)維決策建議,減少問(wèn)題影響,提前預(yù)警問(wèn)題. AIOps作為當(dāng)前運(yùn)維發(fā)展的最高目標(biāo),未來(lái)將賦能運(yùn)維,為用戶帶來(lái)全新體驗(yàn)。
但需要注意的是,目前智能運(yùn)維的很多產(chǎn)品和項(xiàng)目在企業(yè)端并不理想。原因可以歸結(jié)為三點(diǎn):一是數(shù)據(jù)采集與AI平臺(tái)分離,多源數(shù)據(jù)之間缺乏關(guān)聯(lián),導(dǎo)致AI平臺(tái)缺乏優(yōu)質(zhì)數(shù)據(jù),從而導(dǎo)致模型訓(xùn)練結(jié)果不佳;二是數(shù)據(jù)采集主要基于和日志,導(dǎo)致應(yīng)用場(chǎng)景狹窄和數(shù)據(jù)孤島問(wèn)題;第三it運(yùn)維技術(shù),AI平臺(tái)能力仍存在提升空間。目前落地場(chǎng)景多以異常檢測(cè)和智能告警為主。未來(lái)需要進(jìn)一步提高根本原因分析和故障預(yù)測(cè)能力。
因此,未來(lái)企業(yè)首先要搭建一體化的監(jiān)控運(yùn)維平臺(tái),而一體化是智能化的基礎(chǔ)?;诰C合監(jiān)控運(yùn)維平臺(tái)采集的優(yōu)質(zhì)可觀測(cè)數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián)性,將AIOps能力進(jìn)一步落實(shí)到綜合監(jiān)控運(yùn)維平臺(tái)中,實(shí)現(xiàn)精準(zhǔn)問(wèn)題定位和洞察能力。
另外,在實(shí)際應(yīng)用中,根據(jù)中國(guó)信息通信研究院的相關(guān)調(diào)查,被調(diào)查企業(yè)中具備智能監(jiān)控和運(yùn)維決策能力的企業(yè)不到20%,超過(guò)70%的企業(yè)是應(yīng)用系統(tǒng)故障的第10起。在幾分鐘內(nèi)什么都不做。
各行業(yè)的數(shù)字化轉(zhuǎn)型正在改變這一現(xiàn)狀。不僅是互聯(lián)網(wǎng)企業(yè),更多傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型,為智能運(yùn)維開辟了更廣闊的市場(chǎng)。智能運(yùn)維有著巨大的發(fā)展空間?,F(xiàn)在是等待行業(yè)領(lǐng)先公司努力的好時(shí)機(jī)。
提升創(chuàng)新能力,推進(jìn)智能運(yùn)維,既是相關(guān)服務(wù)商自身發(fā)展的要求,也是提升中國(guó)企業(yè)應(yīng)用管理和運(yùn)維水平的使命。
中國(guó)企業(yè)數(shù)字化轉(zhuǎn)型的加速,無(wú)論是前端應(yīng)用服務(wù)的迭代更新,還是后端IT運(yùn)維架構(gòu)復(fù)雜度的提升,都在加速智能運(yùn)維的成長(zhǎng).
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)