了解最新公司動(dòng)態(tài)及行業(yè)資訊
本文來自《數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)》,分析了云和數(shù)據(jù)中心的發(fā)展趨勢(shì)、工業(yè)互聯(lián)網(wǎng)時(shí)代的智能化運(yùn)營需求和TIFDS故障診斷系統(tǒng)。
隨著云技術(shù)的普及,特別是“新基建”和“數(shù)字化轉(zhuǎn)型”需求帶動(dòng)數(shù)字經(jīng)濟(jì)快速發(fā)展,CDC數(shù)據(jù)中心的服務(wù)器部署規(guī)模也呈指數(shù)級(jí)下降。 突發(fā)運(yùn)維管理越來越復(fù)雜和困難,傳統(tǒng)海量服務(wù)器數(shù)據(jù)中心的故障運(yùn)行也面臨著更大的挑戰(zhàn)和更昂貴的成本。 從最初的腳本運(yùn)維、工具運(yùn)維演進(jìn)到平臺(tái)運(yùn)維服務(wù)器運(yùn)維,人力已經(jīng)接近極限,越來越難以滿足快速修復(fù)故障、恢復(fù)業(yè)務(wù)運(yùn)營的要求。
大型數(shù)據(jù)中心運(yùn)維存在以下痛點(diǎn):
1、機(jī)器出現(xiàn)故障后,重要日志信息不完整,人工難以定位故障部位;
2、故障診斷效率低下。 服務(wù)器出現(xiàn)問題后,主要靠人工分析和經(jīng)驗(yàn)判斷結(jié)果,人工和智能化程度不高。
3、成本高,時(shí)效性差。 人工體驗(yàn)分析依賴大量運(yùn)維人力,運(yùn)維時(shí)間(MTTR)長,影響業(yè)務(wù)快速恢復(fù)。
4. 由于診斷結(jié)果清晰度低,二次故障修復(fù)比例高,造成額外的數(shù)據(jù)遷移成本和業(yè)務(wù)影響。
TIFDS(&Fault)故障診斷系統(tǒng)是服務(wù)器健康監(jiān)測技術(shù)和故障預(yù)警診斷技術(shù)的統(tǒng)稱。 故障診斷系統(tǒng)提高了服務(wù)器故障預(yù)警能力、故障診斷清晰度和停機(jī)維護(hù)效率,減少了非計(jì)劃停機(jī)時(shí)間,提高了服務(wù)器全生命周期的RAS強(qiáng)特性(可靠性、可用性、可維護(hù)性)。
系統(tǒng)依托騰訊超過100萬臺(tái)服務(wù)器的維護(hù)數(shù)據(jù),深度定制服務(wù)器風(fēng)暴日志,利用AI技術(shù)實(shí)時(shí)分析服務(wù)器運(yùn)行數(shù)據(jù)服務(wù)器運(yùn)維,實(shí)現(xiàn)CPU、顯存、硬盤、PCIe的人工預(yù)警等設(shè)備,將服務(wù)器故障診斷人工澄清率提高到95%以上。
停機(jī)故障診斷
TIFDS可以涵蓋IERR(Error)和非IERR引起的系統(tǒng)宕機(jī),準(zhǔn)確定位故障部件,如CPU、顯存、顯卡、PCIe外接卡、存儲(chǔ)等設(shè)備。 一旦服務(wù)器運(yùn)行過程中出現(xiàn)異常,TIFDS系統(tǒng)會(huì)第一時(shí)間做出響應(yīng),準(zhǔn)確診斷出故障部件,并上報(bào)故障原因、故障部件的具體位置、部件的型號(hào)信息和維修建議及時(shí)到運(yùn)維管理系統(tǒng)。 運(yùn)維管理系統(tǒng)可人工生成維修工單,運(yùn)維人員可根據(jù)TIFDS的指引快速更換故障部件或排除故障,使機(jī)器快速恢復(fù)到健康狀態(tài)。 將傳統(tǒng)的小時(shí)預(yù)估修復(fù)時(shí)間級(jí)別壓縮到分鐘級(jí)別。 大幅提升運(yùn)維效率,實(shí)現(xiàn)云服務(wù)快速恢復(fù)。
非停機(jī)故障診斷
TIFDS系統(tǒng)通過BMC實(shí)時(shí)監(jiān)控服務(wù)器系統(tǒng)各處的電流、電流、溫度傳感器信息,實(shí)時(shí)監(jiān)控電源、風(fēng)扇以及各部件的工作狀態(tài)和工作負(fù)載; 基于可在線更新的告警閾值和預(yù)警閾值及故障判斷規(guī)則,可對(duì)服務(wù)器中的風(fēng)險(xiǎn)位置實(shí)現(xiàn)故障預(yù)警、故障告警或故障判斷,并時(shí)刻上報(bào)智能運(yùn)維系統(tǒng)。
故障預(yù)警與隔離
TIFDS可以跟蹤服務(wù)器中所有組件的生命周期和運(yùn)行狀態(tài),通過機(jī)器學(xué)習(xí)算法對(duì)高危組件進(jìn)行預(yù)警,減少服務(wù)器在高負(fù)載運(yùn)行情況下的突發(fā)故障。 此外,對(duì)于發(fā)生故障的部件,TIFDS可以根據(jù)部件類別采取相應(yīng)的隔離措施,防止單個(gè)非關(guān)鍵部件的故障影響整機(jī)系統(tǒng)的運(yùn)行。
TIFDS是騰訊云運(yùn)維監(jiān)控系統(tǒng)的重要組成部分。 它是服務(wù)器帶外數(shù)據(jù)的主要來源。 對(duì)內(nèi)存、CPU、PCIe等元器件的故障監(jiān)測、故障預(yù)測、大規(guī)模告警做出了巨大貢獻(xiàn)。 通過多樣化的日志手動(dòng)適配騰訊云備件系統(tǒng),降低騰訊云健康管理系統(tǒng)的參考維度,開發(fā)基于帶內(nèi)帶外日志的在線診斷系統(tǒng)。 深度多元化的模式和簡單易用的運(yùn)維工具,讓整個(gè)運(yùn)維系統(tǒng)變得更加智能和高效。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)