了解最新公司動(dòng)態(tài)及行業(yè)資訊
北京,2022年4月27日——隨著互聯(lián)網(wǎng)、5G、IoT等的快速發(fā)展,數(shù)字化、智能化建設(shè)對(duì)算力提出了更高的要求,數(shù)據(jù)中心不斷向大型化、集約化方向發(fā)展和綠色演進(jìn),根據(jù)《全球數(shù)據(jù)中心托管服務(wù)市場(chǎng)機(jī)遇》報(bào)告,超大規(guī)模數(shù)據(jù)中心預(yù)計(jì)將從2019年的509個(gè)增長(zhǎng)到2025年的890個(gè),這將改變數(shù)據(jù)中心的建設(shè)和使用方式,規(guī)模的數(shù)據(jù)中心繼續(xù)增長(zhǎng)。不斷擴(kuò)大,大型數(shù)據(jù)中心服務(wù)器數(shù)量已達(dá)到10萬(wàn)多臺(tái),這意味著對(duì)運(yùn)維的難度、人力、成本、專(zhuān)業(yè)性提出了更高的要求,企業(yè)數(shù)據(jù)中心的運(yùn)維壓力也越來(lái)越大面臨前所未有的壓力。解決問(wèn)題的關(guān)鍵在于打破傳統(tǒng)運(yùn)維方式,打造“監(jiān)督、管理、控制、預(yù)防”的智能化運(yùn)維。
【圖片】
什么是智能運(yùn)維?
首先要了解數(shù)據(jù)中心運(yùn)維的發(fā)展歷程,主要包括三個(gè)階段:人工運(yùn)維、自動(dòng)化運(yùn)維和智能運(yùn)維。
所謂人工運(yùn)維是指——在早期,數(shù)據(jù)中心的大部分運(yùn)維工作都是由運(yùn)維工程師手動(dòng)完成的。服務(wù)器的運(yùn)行狀態(tài)取決于運(yùn)維工程師日常的目視檢查來(lái)定位和解決問(wèn)題。每個(gè)工程師的運(yùn)維上限為400臺(tái)左右。這種低效的運(yùn)維方式,在數(shù)據(jù)中心服務(wù)器越來(lái)越多、人工成本越來(lái)越高的時(shí)代很難維護(hù)。
于是自動(dòng)化運(yùn)維應(yīng)運(yùn)而生。運(yùn)維工程師根據(jù)運(yùn)維經(jīng)驗(yàn)編寫(xiě)腳本進(jìn)行批量設(shè)備巡檢,后來(lái)發(fā)展為任務(wù)型設(shè)備巡檢。這是自動(dòng)化運(yùn)維的早期方式。這大大提高了發(fā)現(xiàn)異常設(shè)備的效率,降低了運(yùn)維成本。然而,面對(duì)故障根源、故障預(yù)測(cè)、性能趨勢(shì)和控制決策,自動(dòng)化運(yùn)維卻無(wú)能為力。
根據(jù)發(fā)布的《2021中國(guó)ICT技術(shù)成熟度周期報(bào)告》,AIOps市場(chǎng)將持續(xù)增長(zhǎng),影響整個(gè)IT運(yùn)營(yíng)管理市場(chǎng)。報(bào)告預(yù)測(cè),AIOps 將在未來(lái) 2-5 年內(nèi)進(jìn)入成熟階段,將幫助企業(yè)節(jié)省大量成本。從服務(wù)器運(yùn)維角度分析服務(wù)器智能運(yùn)維,目標(biāo)是收集帶外信息(配置信息、狀態(tài)信息、性能信息、日志等)和帶內(nèi)信息(配置參數(shù)、性能信息、日志信息),利用機(jī)器學(xué)習(xí)解決上述問(wèn)題,提高系統(tǒng)預(yù)警能力和穩(wěn)定性,降低運(yùn)維成本,提高運(yùn)維效率。
浪潮信息構(gòu)建智能物理基礎(chǔ)設(shè)施管理平臺(tái)(ISPIM)
浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)ISPIM,在異常檢測(cè)、故障診斷、故障預(yù)測(cè)、故障自愈、性能預(yù)測(cè)等維度實(shí)現(xiàn)多維度智能運(yùn)行。
在服務(wù)器運(yùn)維中,最基本的就是異常檢測(cè)。最常見(jiàn)的是檢測(cè)三大數(shù)據(jù):狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù)。
狀態(tài)指示燈:當(dāng)服務(wù)器狀態(tài)異常時(shí),浪潮信息ISPIM管理軟件以主動(dòng)/被動(dòng)模式聚合服務(wù)器的異常情況,防止重復(fù)告警和誤告警。警報(bào)風(fēng)暴服務(wù)器運(yùn)維,產(chǎn)生警報(bào)癱瘓。
性能指標(biāo):在性能指標(biāo)檢測(cè)方面,傳統(tǒng)的方法是設(shè)置閾值,但由于某一時(shí)刻產(chǎn)生的噪聲數(shù)據(jù),經(jīng)常會(huì)出現(xiàn)誤報(bào)。通過(guò)重復(fù)次數(shù)、閾值抖動(dòng)范圍和自學(xué)習(xí)數(shù)據(jù)密度分布等,解決99%的噪聲數(shù)據(jù)產(chǎn)生的誤報(bào);但面對(duì)周期性變化的數(shù)據(jù),無(wú)法動(dòng)態(tài)調(diào)整,也會(huì)出現(xiàn)誤報(bào),大大降低了報(bào)警的準(zhǔn)確性。浪潮信息ISPIM管理軟件通過(guò)AI優(yōu)化,對(duì)性能數(shù)據(jù)進(jìn)行時(shí)域、頻域、能量等變化的動(dòng)態(tài)分析,利用LSTM和隨機(jī)森林進(jìn)行預(yù)測(cè),報(bào)警準(zhǔn)確率達(dá)到98%。
日志數(shù)據(jù):日志一般是半結(jié)構(gòu)化數(shù)據(jù)。警報(bào)是根據(jù)日志級(jí)別生成的。準(zhǔn)確性不足,只能檢測(cè)到已知的和確定性的異常模式。浪潮信息ISPIM管理軟件擁有4000+運(yùn)維專(zhuān)家資源庫(kù),有助于實(shí)現(xiàn)服務(wù)器故障的快速診斷。同時(shí),在日志智能故障診斷方面,將對(duì)采集到的日志進(jìn)行重新編碼,深化對(duì)深度學(xué)習(xí)、LSTM等算法的研究,在實(shí)際應(yīng)用中可以多維度分析服務(wù)器異常,并將異常檢測(cè)準(zhǔn)確率高達(dá)99%。
為了進(jìn)一步提高運(yùn)維效率,浪潮信息ISPIM管理軟件不僅對(duì)日志進(jìn)行故障診斷,而且對(duì)系統(tǒng)宕機(jī)后的數(shù)據(jù)進(jìn)行深度分析,方便用戶(hù)使用快速定位問(wèn)題,提高效率。
通過(guò)對(duì)收集到的海量數(shù)據(jù)進(jìn)行分析,浪潮發(fā)現(xiàn)服務(wù)器宕機(jī)通常是由CPU MCE(Check)故障引起的。一般來(lái)說(shuō),MCE的來(lái)源有兩種,一種是CPU本身的故障,另一種是CPU本身的故障。外部零件。浪潮信息ISPIM管理軟件帶外采集服務(wù)器CPU寄存器數(shù)據(jù),基于MCA(Check)技術(shù)架構(gòu),定位CPU觸發(fā)源,分析MC Bank,分析CSR和MSR寄存器,實(shí)現(xiàn)故障原因確認(rèn)和準(zhǔn)確定位有故障的組件。并根據(jù)浪潮信息專(zhuān)家經(jīng)驗(yàn)庫(kù),對(duì)故障問(wèn)題給出專(zhuān)業(yè)的解決方案,提高運(yùn)維效率。
據(jù)統(tǒng)計(jì),數(shù)據(jù)中心內(nèi)存和硬盤(pán)造成的故障中,50%以上是由于硬盤(pán)和內(nèi)存量大、生命周期相對(duì)較短、使用率高造成的。當(dāng)內(nèi)存或硬盤(pán)出現(xiàn)故障時(shí),極易發(fā)生嚴(yán)重的停機(jī)事故。
對(duì)于內(nèi)存來(lái)說(shuō),內(nèi)存產(chǎn)生的CE(可糾正錯(cuò)誤)可以通過(guò)ECC(Error Code)機(jī)制來(lái)糾正,但是頻繁的CE往往會(huì)產(chǎn)生UCE(Error),而一旦產(chǎn)生UCE,往往會(huì)導(dǎo)致系統(tǒng)停機(jī)機(jī)器。因此,預(yù)測(cè)內(nèi)存故障可以轉(zhuǎn)化為預(yù)測(cè)UCE。浪潮信息ISPIM管理軟件通過(guò)多個(gè)維度分析內(nèi)存CE,包括總CE頻率、內(nèi)存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE分布范圍、頻率閾值等維度統(tǒng)計(jì),得到UCE與CE,從而預(yù)測(cè)UCE。
在硬盤(pán)方面,數(shù)據(jù)中心的大部分存儲(chǔ)陣列都會(huì)使用一些冗余機(jī)制,但這只能保證有限的硬盤(pán)故障場(chǎng)景。一旦故障磁盤(pán)數(shù)量超過(guò) RAID 冗余的限制,就有可能導(dǎo)致系統(tǒng)停機(jī)或數(shù)據(jù)丟失的風(fēng)險(xiǎn)。浪潮信息ISPIM管理軟件分析SMART(自和)標(biāo)準(zhǔn),獲取硬盤(pán)故障預(yù)測(cè)的關(guān)鍵數(shù)據(jù)特征,基于模型算法訓(xùn)練,優(yōu)化模型算法,輸出推理算法模型。通過(guò)SMART指標(biāo)和硬盤(pán)操作日志,預(yù)測(cè)風(fēng)險(xiǎn)盤(pán)。同時(shí),當(dāng)硬盤(pán)預(yù)測(cè)達(dá)到換盤(pán)索引時(shí),可以支持換盤(pán)操作。
通過(guò)這些技術(shù)優(yōu)化,浪潮信息ISPIM管理軟件可以實(shí)現(xiàn)內(nèi)存和硬盤(pán)的故障預(yù)測(cè),大大提高系統(tǒng)穩(wěn)定性。
浪潮信息ISPIM管理軟件在故障自愈方面支持內(nèi)存故障自動(dòng)隔離。在操作系統(tǒng)層面,結(jié)合MCE(Check)日志數(shù)據(jù)信息,根據(jù)CE故障信息服務(wù)器運(yùn)維,通過(guò)虛擬內(nèi)存故障Page診斷算法確定內(nèi)存故障Page,并在操作系統(tǒng)內(nèi)核中執(zhí)行Page,通過(guò)虛擬內(nèi)存技術(shù),隔離對(duì)故障內(nèi)存區(qū)域的訪(fǎng)問(wèn),實(shí)現(xiàn)內(nèi)存故障隔離。在物理內(nèi)存層面,根據(jù)CE故障信息,通過(guò)物理內(nèi)存故障診斷算法,使用SPPR(Soft Post)和HPPR(Hard Post)隔離物理內(nèi)存故障Row。操作系統(tǒng)的穩(wěn)定性和可靠性,從而保證業(yè)務(wù)的穩(wěn)定可靠運(yùn)行。
性能預(yù)測(cè)是指服務(wù)器的性能數(shù)據(jù)。通過(guò)ARIMA、指數(shù)平滑、LSTM等智能算法,可以感知系統(tǒng)數(shù)據(jù)在未來(lái)幾小時(shí)、幾天或一年內(nèi)的趨勢(shì)、增長(zhǎng)或周期性變化。等待。浪潮信息ISPIM管理軟件憑借自主研發(fā)的性能分析核心組件,可支持?jǐn)?shù)萬(wàn)臺(tái)服務(wù)器同時(shí)對(duì)性能數(shù)據(jù)進(jìn)行秒級(jí)監(jiān)控和告警,幫助運(yùn)維人員實(shí)時(shí)掌握設(shè)備性能狀態(tài),并實(shí)現(xiàn)對(duì)磁盤(pán)壽命和容量的準(zhǔn)確預(yù)測(cè)。率達(dá)到99%。
浪潮信息物理基礎(chǔ)設(shè)施管理平臺(tái)ISPIM()具有資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動(dòng)部署、報(bào)表統(tǒng)計(jì)、網(wǎng)絡(luò)拓?fù)洹?D視圖等功能。對(duì)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等設(shè)備進(jìn)行監(jiān)控、運(yùn)維,統(tǒng)一進(jìn)行告警管理,運(yùn)維效率成倍提升?;诶顺毙畔⒐收蠈?zhuān)家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,故障診斷準(zhǔn)確率可提升至93%。此外,能夠快速處理故障的同時(shí),大大降低數(shù)據(jù)泄露風(fēng)險(xiǎn),幫助用戶(hù)搭建無(wú)人值守?cái)?shù)據(jù)中心,提高運(yùn)維效率,降低運(yùn)維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定運(yùn)行.
24小時(shí)免費(fèi)咨詢(xún)
請(qǐng)輸入您的聯(lián)系電話(huà),座機(jī)請(qǐng)加區(qū)號(hào)