了解最新公司動態(tài)及行業(yè)資訊
隨著互聯(lián)網(wǎng)、5G、IoT等技術(shù)的快速發(fā)展,全球大型數(shù)據(jù)中心的數(shù)量將以3.6%的年復(fù)合增長率增長,數(shù)據(jù)中心規(guī)模將持續(xù)增長擴容,數(shù)據(jù)中心服務(wù)器規(guī)模達到10萬臺級別,這不僅需要更多的運維工程師,增加了企業(yè)的運維成本,也給運維帶來了很大的困難和挑戰(zhàn)工程師:如何及時發(fā)現(xiàn)異常設(shè)備?異常的根本原因是什么?故障能自愈嗎?可以預(yù)測失敗嗎?性能趨勢是什么?如何決定?
運維發(fā)展歷程:人工運維、自動化運維、智能化運維
早期的運維工作大部分是由運維工程師手動完成的,稱為人肉運維。服務(wù)器的運行狀態(tài)取決于運維工程師日常的目視檢查來定位和解決問題。自動化運維的出現(xiàn),大大提高了檢測異常設(shè)備的效率,降低了運維成本。然而,面對故障根源、故障預(yù)測、性能趨勢、控制決策等方面,自動化運維顯得力不從心。
2016年提出智能運維(針對IT)的概念,預(yù)計到2020年,智能運維的采用率將高達??50%。從服務(wù)器運維角度分析服務(wù)器智能運維,目標是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息),機器學(xué)習(xí)用于解決運維問題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運維成本服務(wù)器運維,提高運維效率。
異??焖贆z測,問題準確預(yù)警
在服務(wù)器運維中,異常檢測是基礎(chǔ)。常見的監(jiān)控數(shù)據(jù)有三種:狀態(tài)指標、性能指標和日志數(shù)據(jù)。狀態(tài)指標一般誤報率較低,而傳統(tǒng)性能指標的設(shè)置閾值往往是某個時刻產(chǎn)生的噪聲數(shù)據(jù),導(dǎo)致誤報;無法對周期性變化的數(shù)據(jù)進行動態(tài)調(diào)整,經(jīng)常會產(chǎn)生誤報,大大降低了報警的準確性。日志一般是半結(jié)構(gòu)化數(shù)據(jù),根據(jù)日志級別生成告警,非常不準確服務(wù)器運維,只能檢測到已知且確定性模式的異常。
云助手通過閾值實時告警,達到監(jiān)控的性能指標,自動、實時、準確識別異常數(shù)據(jù)。對于日志處理,通過單條日志的語義識別和日志文件的時間序列識別,訓(xùn)練或維護自然語言、專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等算法,不斷改進和準確檢測日志異常.
智能故障處理,操作簡單,維護如此簡單
智能故障診斷基于異常檢測。具有準確的異常檢測,通過綜合各種異常指標進行數(shù)據(jù)融合、過濾、加權(quán)等處理,并利用神經(jīng)網(wǎng)絡(luò)、SVM、隨機森林等智能算法找出問題的根本原因,并給出問題的根源。給出問題的解決方案,讓運維工程師分分鐘解決問題。
智能故障預(yù)測是對設(shè)備某一部分的性能數(shù)據(jù)和狀態(tài)進行動態(tài)檢測,對原始數(shù)據(jù)進行數(shù)據(jù)挖掘,尋找特征數(shù)據(jù)建立數(shù)學(xué)模型,利用神經(jīng)網(wǎng)絡(luò)、SVM等智能算法進行在線/離線訓(xùn)練形成預(yù)測模型。在組件發(fā)生故障之前感知故障,從而避免業(yè)務(wù)停機并提高系統(tǒng)穩(wěn)定性。
智能故障自愈是指在故障被確認或預(yù)測后,無需人工干預(yù)即可通過重啟、配置或某些流程使系統(tǒng)恢復(fù)正常。對于故障自愈,需要維護一定的規(guī)則或標記故障。經(jīng)過神經(jīng)網(wǎng)絡(luò)、SVM等算法訓(xùn)練,形成自愈模型,實現(xiàn)系統(tǒng)的自愈。
智能決策,感知未來發(fā)展
云助手自動化運維工具可以預(yù)測服務(wù)器的性能數(shù)據(jù),不僅為人工預(yù)測或智能決策提供基礎(chǔ)數(shù)據(jù),還為業(yè)務(wù)系統(tǒng)提供優(yōu)化建議。
云幫手基于異常檢測、故障診斷、故障預(yù)測、性能預(yù)測等,通過數(shù)據(jù)模型的建立,通過神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、專家系統(tǒng)等智能算法的不斷學(xué)習(xí),決策模型是在沒有人為干預(yù)的情況下形成的。干預(yù),智能調(diào)整服務(wù)器配置參數(shù),進行版本基線升級/回滾等決策,實現(xiàn)系統(tǒng)性能最優(yōu)、異常最少、功耗最低。
例如監(jiān)控服務(wù)器運行的性能,可以在業(yè)務(wù)低時降低服務(wù)器的功耗。在集群模式下,甚至可以關(guān)閉服務(wù)器。當(dāng)業(yè)務(wù)量較大時,可以將服務(wù)器性能調(diào)整到最優(yōu)智能。決策。整機房/機房,功耗管理,服務(wù)器滿載時,服務(wù)器功耗是否超過整機房或機柜最大功耗,超過后如何智能決策。
智能推薦,發(fā)現(xiàn)無限價值
智能推薦是在平臺上對大量數(shù)據(jù)進行統(tǒng)計、計算、分析和挖掘,建立數(shù)據(jù)模型,通過神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、最小、SVM等進行分析預(yù)測,指導(dǎo)客戶在服務(wù)器下架、備件量、擴容、減容、廠商采購等方面做出決策。比如某類服務(wù)器故障率太高,維護成本相應(yīng)增加。建議將其從貨架上移除。此外,由于業(yè)務(wù)增長,需要購買新的服務(wù)器。智能算法評估購買金額并提出建議。
目前,云幫手依托自身的技術(shù)優(yōu)勢,自主研發(fā)了一系列自動化、智能化的服務(wù)器管理軟件套裝,實現(xiàn)了從服務(wù)器巡檢、配置、部署、監(jiān)控、到服務(wù)器的全生命周期運維管理。故障分析。它還突破了大型基礎(chǔ)設(shè)施智能管理平臺的分布式網(wǎng)格架構(gòu)、高性能數(shù)據(jù)采集框架、智能分析系統(tǒng)、無狀態(tài)管理技術(shù),實現(xiàn)了大型服務(wù)器全生命周期的智能管理。 ????