了解最新公司動(dòng)態(tài)及行業(yè)資訊
隨著互聯(lián)網(wǎng)、5G、IoT等的快速發(fā)展,數(shù)字化、智能化建設(shè)對(duì)算力提出了更高的要求,數(shù)據(jù)中心正朝著規(guī)?;?、集約化、綠色化發(fā)展方向發(fā)展。根據(jù)《全球數(shù)據(jù)中心托管服務(wù)市場(chǎng)機(jī)遇》報(bào)告顯示,超大規(guī)模數(shù)據(jù)中心預(yù)計(jì)將從 2019 年的 509 個(gè)下降到 2025 年的 890 個(gè),這將改變數(shù)據(jù)中心的建設(shè)和使用方式。規(guī)模不斷擴(kuò)大,小型數(shù)據(jù)中心的服務(wù)器數(shù)量已經(jīng)達(dá)到10臺(tái),超過(guò)10000臺(tái)的數(shù)量級(jí),這意味著對(duì)運(yùn)維的難度、人力、成本、專(zhuān)業(yè)性提出了更高的要求。企業(yè)數(shù)據(jù)中心的運(yùn)維壓力面臨著前所未有的挑戰(zhàn)。“監(jiān)督、管理、控制、預(yù)防”智能運(yùn)維是解決問(wèn)題的關(guān)鍵。
什么是智能運(yùn)維?
首先,我們需要了解數(shù)據(jù)中心運(yùn)維的發(fā)展歷程,主要包括三個(gè)階段:人工運(yùn)維、自動(dòng)化運(yùn)維、智能化運(yùn)維。
所謂人肉運(yùn)維,是指在早期,數(shù)據(jù)中心的大部分運(yùn)維工作都是由運(yùn)維工程師手動(dòng)完成的。服務(wù)器的運(yùn)行狀態(tài)取決于運(yùn)維工程師日常的目視檢查來(lái)定位和解決問(wèn)題。每個(gè)工程師的運(yùn)維上限為400臺(tái)左右。這些低效的運(yùn)維形式在數(shù)據(jù)中心服務(wù)器數(shù)量不斷增加、勞動(dòng)力成本不斷增加的時(shí)代是不可持續(xù)的。
因此,人工操作和維護(hù)應(yīng)運(yùn)而生。運(yùn)維工程師根據(jù)運(yùn)維經(jīng)驗(yàn)編寫(xiě)腳本進(jìn)行批量設(shè)備巡檢,后來(lái)發(fā)展為任務(wù)型設(shè)備巡檢。這是人工操作和維護(hù)的初始形式。這大大提高了檢測(cè)異常設(shè)備的效率,降低了運(yùn)維成本。而且,面對(duì)故障根因、故障預(yù)測(cè)、性能趨勢(shì)和控制決策,人工運(yùn)維是不夠的。
根據(jù)發(fā)布的《2021中國(guó)ICT技術(shù)成熟度周期報(bào)告》,AIOps市場(chǎng)將持續(xù)下滑,影響整個(gè)IT運(yùn)營(yíng)管理市場(chǎng)。報(bào)告預(yù)測(cè),AIOps將在未來(lái)2-5年內(nèi)進(jìn)入成熟階段,將幫助企業(yè)大幅節(jié)省成本。從服務(wù)器運(yùn)維的角度分析智能服務(wù)器運(yùn)維,目標(biāo)是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息),利用機(jī)器學(xué)習(xí)的方法解決上述問(wèn)題,提高系統(tǒng)的預(yù)警能力和穩(wěn)定性,降低運(yùn)維成本,
浪潮信息構(gòu)建智能數(shù)學(xué)基礎(chǔ)設(shè)施管理平臺(tái)(ISPIM)
浪潮信息數(shù)學(xué)基礎(chǔ)設(shè)施管理平臺(tái)ISPIM通過(guò)對(duì)數(shù)據(jù)中心IT設(shè)備的7*24h管理和監(jiān)控,實(shí)現(xiàn)異常檢測(cè)、故障診斷、故障預(yù)測(cè)、故障自愈、性能預(yù)測(cè)等多維度的智能運(yùn)維。
在服務(wù)器運(yùn)維中,最根本的就是檢查異常,而最常見(jiàn)的三個(gè)數(shù)據(jù)是狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù)的度量。
狀態(tài)指示燈:當(dāng)服務(wù)器狀態(tài)異常時(shí),浪潮信息ISPIM管理軟件以主動(dòng)/被動(dòng)的形式聚合服務(wù)器的異常情況,避免重復(fù)告警和誤報(bào)。形成警報(bào)麻痹。
性能指標(biāo):在性能指標(biāo)檢測(cè)方面,傳統(tǒng)的方法是設(shè)置一個(gè)閾值,但由于某個(gè)時(shí)刻暗角數(shù)據(jù)的形成,經(jīng)常會(huì)出現(xiàn)誤報(bào)??山鉀Q99%由噪聲數(shù)據(jù)引起的誤報(bào);但是面對(duì)周期性變化的數(shù)據(jù)很難動(dòng)態(tài)調(diào)整,也會(huì)出現(xiàn)誤報(bào),大大降低了報(bào)警的準(zhǔn)確性。浪潮信息ISPIM管理軟件通過(guò)AI優(yōu)化,對(duì)性能數(shù)據(jù)的頻域、頻域、能量變化進(jìn)行動(dòng)態(tài)分析,利用LSTM和隨機(jī)森林進(jìn)行預(yù)測(cè),報(bào)警準(zhǔn)確率達(dá)到98%。
日志數(shù)據(jù):日志通常是半結(jié)構(gòu)化數(shù)據(jù),根據(jù)日志級(jí)別形成告警,不夠精確服務(wù)器運(yùn)維技術(shù)服務(wù)器運(yùn)維技術(shù),只能衡量已知和確定模式的異常。浪潮信息ISPIM管理軟件擁有4000+運(yùn)維專(zhuān)家資源庫(kù),助力實(shí)現(xiàn)服務(wù)器故障快速診斷。同時(shí),在日志智能故障診斷方面,將對(duì)采集到的日志進(jìn)行重新編碼,深化對(duì)深度學(xué)習(xí)、LSTM等算法的研究。在實(shí)際應(yīng)用中,可以從多個(gè)維度對(duì)服務(wù)器異常進(jìn)行分析,異常檢查的準(zhǔn)確率高達(dá)99%。
為進(jìn)一步提升運(yùn)維效率,浪潮信息ISPIM管理軟件不僅對(duì)日志故障進(jìn)行診斷,還對(duì)系統(tǒng)宕機(jī)后的數(shù)據(jù)進(jìn)行深度分析,快速定位問(wèn)題,提高效率。
通過(guò)對(duì)收集到的海量數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)服務(wù)器宕機(jī)一般是由于CPU MCE(Check)故障造成的。一般來(lái)說(shuō),MCE有兩種來(lái)源,一種是CPU本身的故障,另一種是來(lái)自CPU以外的組件。浪潮信息ISPIM管理軟件通過(guò)帶外方式采集服務(wù)器CPU寄存器數(shù)據(jù),基于MCA(Check)技術(shù)框架,通過(guò)定位CPU觸發(fā)源,分析,分析CSR和MSR寄存器,實(shí)現(xiàn)原因確認(rèn)故障和故障部件的精確位置。根據(jù)浪潮信息專(zhuān)家經(jīng)驗(yàn)庫(kù),提供專(zhuān)業(yè)的故障問(wèn)題解決方案,提升運(yùn)維效率。
據(jù)統(tǒng)計(jì),數(shù)據(jù)中心因顯存和硬盤(pán)引起的故障占50%以上。主要原因是硬盤(pán)和內(nèi)存量大,生命周期相對(duì)較短,使用率高。當(dāng)顯存或硬盤(pán)出現(xiàn)故障時(shí),很容易發(fā)生嚴(yán)重的停機(jī)車(chē)禍。
對(duì)于顯存來(lái)說(shuō),顯存形成的CE(可糾正錯(cuò)誤)可以通過(guò)ECC()機(jī)制進(jìn)行糾正,頻繁的CE往往會(huì)形成UCE()。一旦形成UCE,系統(tǒng)經(jīng)常崩潰。因此,視頻內(nèi)存故障的預(yù)測(cè)可以轉(zhuǎn)換為UCE預(yù)測(cè)。浪潮資訊ISPIM管理軟件通過(guò)多維度統(tǒng)計(jì)分析顯存CE,從CE的總頻率、內(nèi)存固定化學(xué)地址CE頻率閾值、固定頻率閾值、CE分布范圍、頻率閾值等維度統(tǒng)計(jì)到獲得UCE和CE之間的關(guān)系,從而預(yù)測(cè)UCE。
至于硬盤(pán),數(shù)據(jù)中心的存儲(chǔ)陣列大多采用了一些冗余機(jī)制。但是,這只能保證有限的硬盤(pán)故障場(chǎng)景。一旦故障磁盤(pán)數(shù)量超過(guò) RAID 冗余的限制,就有可能導(dǎo)致系統(tǒng)停機(jī)或數(shù)據(jù)丟失的風(fēng)險(xiǎn)。浪潮信息ISPIM管理軟件分析SMART(自與)標(biāo)準(zhǔn),獲取硬盤(pán)故障預(yù)測(cè)關(guān)鍵數(shù)據(jù)特征,基于模型算法進(jìn)行訓(xùn)練,優(yōu)化模型算法,輸出推理算法模型,貫穿SMART指標(biāo)和硬盤(pán)日志,預(yù)測(cè)風(fēng)險(xiǎn)盤(pán)。同時(shí),當(dāng)硬盤(pán)預(yù)測(cè)達(dá)到換盤(pán)指標(biāo)時(shí),可以支持換盤(pán)操作。
通過(guò)本次技術(shù)優(yōu)化,浪潮信息ISPIM管理軟件可以實(shí)現(xiàn)顯存和硬盤(pán)的故障預(yù)測(cè),大大提高系統(tǒng)穩(wěn)定性。
浪潮信息ISPIM管理軟件可支持手動(dòng)隔離顯存故障,實(shí)現(xiàn)故障自愈。在操作系統(tǒng)層面,結(jié)合MCE(Check)日志數(shù)據(jù)信息,根據(jù)CE故障信息,采用虛擬顯存故障頁(yè)診斷算法確定顯存故障頁(yè)。,并在操作系統(tǒng)內(nèi)核中執(zhí)行Page,通過(guò)虛擬顯存技術(shù)隔離對(duì)故障顯存區(qū)域的訪問(wèn),從而實(shí)現(xiàn)顯存故障隔離。在數(shù)學(xué)顯存層面,基于CE故障信息,通過(guò)數(shù)學(xué)顯存故障診斷算法,借助SPPR()和HPPR()隔離化學(xué)顯存故障行,技術(shù)上實(shí)現(xiàn)故障顯存永久隔離,完善操作系統(tǒng)。穩(wěn)定性和可靠性,從而保證業(yè)務(wù)的穩(wěn)定可靠運(yùn)行。
性能預(yù)測(cè)是指服務(wù)器的性能數(shù)據(jù)。通過(guò)ARIMA、指數(shù)平滑、LSTM等智能算法,系統(tǒng)可以感知數(shù)據(jù)在未來(lái)幾小時(shí)、幾天或一年內(nèi)的趨勢(shì)、增長(zhǎng)或周期性變化。等待。憑借自主研發(fā)的性能分析核心組件,浪潮信息ISPIM管理軟件可支持?jǐn)?shù)萬(wàn)臺(tái)服務(wù)器同時(shí)對(duì)性能數(shù)據(jù)進(jìn)行秒級(jí)監(jiān)控和告警,幫助運(yùn)維人員及時(shí)掌握設(shè)備的性能狀態(tài)。實(shí)時(shí),實(shí)現(xiàn)對(duì)C盤(pán)壽命和容量的預(yù)測(cè)。,準(zhǔn)確率為 99%。
浪潮信息數(shù)學(xué)基礎(chǔ)設(shè)施管理平臺(tái)ISPIM()具有資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動(dòng)部署、報(bào)表統(tǒng)計(jì)、網(wǎng)絡(luò)拓?fù)洹?D視圖等功能。對(duì)存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等設(shè)備進(jìn)行統(tǒng)一監(jiān)控、運(yùn)維、告警管理,運(yùn)維效率成倍提升?;诶顺毙畔⒐收蠈?zhuān)家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,故障診斷準(zhǔn)確率可提升至93%,在快速處理故障的同時(shí),大大降低數(shù)據(jù)泄露風(fēng)險(xiǎn),幫助用戶(hù)建立無(wú)人值守?cái)?shù)據(jù)中心,提高運(yùn)維效率,降低運(yùn)維成本,確保安全、可靠、
24小時(shí)免費(fèi)咨詢(xún)
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)