了解最新公司動(dòng)態(tài)及行業(yè)資訊
企業(yè)通過(guò)成熟的技術(shù)實(shí)施和實(shí)施IT運(yùn)維管理。 IT運(yùn)維技術(shù)可以分四個(gè)階段逐步落地:人工運(yùn)維能力、平臺(tái)化運(yùn)維能力、數(shù)據(jù)化運(yùn)維能力、智能化運(yùn)維能力。相反,實(shí)現(xiàn)智能運(yùn)維能力的前提是具備人工化、平臺(tái)化、數(shù)據(jù)化的能力。企業(yè)應(yīng)根據(jù)自身運(yùn)維發(fā)展階段和實(shí)際運(yùn)維需求,分階段實(shí)施相關(guān)技術(shù)能力。
一、IT運(yùn)維業(yè)務(wù)面臨挑戰(zhàn)
隨著中國(guó)聯(lián)通“大鏈接”戰(zhàn)略的深入實(shí)施,業(yè)務(wù)規(guī)??焖傧禄?,內(nèi)外部競(jìng)爭(zhēng)日趨激烈復(fù)雜,IT技術(shù)快速演進(jìn),中國(guó)聯(lián)通的頂?shù)拙€和內(nèi)外部客戶負(fù)責(zé)公司信息系統(tǒng)部門的IT運(yùn)維管理。對(duì)執(zhí)行效率和精細(xì)化運(yùn)營(yíng)管理能力提出了更高的要求和挑戰(zhàn):
為適應(yīng)瞬息萬(wàn)變、新業(yè)務(wù)層出不窮的市場(chǎng)形勢(shì),中國(guó)聯(lián)通提出“嚴(yán)節(jié)約、降本、增效”行動(dòng),引入人工智能技術(shù),建立低成本高效的操作系統(tǒng),推進(jìn)“IT代人”戰(zhàn)略,在日益激烈的同質(zhì)化競(jìng)爭(zhēng)中占據(jù)主動(dòng)。在 2019 年 IT 工作思路中,中國(guó)聯(lián)通提出“以積極賦能和發(fā)展 IT 為主線,大力推進(jìn) IT 支撐向 IT 運(yùn)營(yíng)轉(zhuǎn)變”、“著力提升智能化運(yùn)營(yíng)能力、 IT運(yùn)維能力重點(diǎn)發(fā)展目標(biāo)明確方向。隨著信息部門系統(tǒng)的云化、容器化、集中化、微服務(wù)化等架構(gòu)調(diào)整,“系統(tǒng)架構(gòu)和業(yè)務(wù)調(diào)用關(guān)系復(fù)雜,運(yùn)維管理難度降低”的痛點(diǎn)也得到實(shí)時(shí)跟進(jìn)。這個(gè)運(yùn)維系統(tǒng)。 ,不斷調(diào)整自身發(fā)展規(guī)劃,向“大運(yùn)維、一體化運(yùn)營(yíng)、專業(yè)化、實(shí)踐敏捷、智能運(yùn)營(yíng)、卓越體驗(yàn)”的理念演進(jìn),為生產(chǎn)提供更好的運(yùn)維支持服務(wù)系統(tǒng)。
二、【痛點(diǎn)與難點(diǎn)】
5G網(wǎng)元控制平面、傳輸前饋、傳統(tǒng)(2G/3G/4G)運(yùn)維平臺(tái),難以支撐5G網(wǎng)絡(luò)資源的集中統(tǒng)一配置管理和運(yùn)維; 5G網(wǎng)絡(luò)實(shí)現(xiàn)產(chǎn)業(yè)提供的SDN 服務(wù),現(xiàn)有運(yùn)維平臺(tái)無(wú)法實(shí)現(xiàn)端到端的部署、運(yùn)維和交付; 5G網(wǎng)絡(luò)的多層編排協(xié)同,目前還沒有可視化的運(yùn)維管理;對(duì)于垂直應(yīng)用,難以理解行業(yè)端到端的客戶體驗(yàn)和應(yīng)用、服務(wù)、網(wǎng)絡(luò)的智能運(yùn)維; 5G商用廣泛,缺乏AI手段實(shí)現(xiàn)網(wǎng)絡(luò)故障預(yù)警、業(yè)務(wù)切換和故障恢復(fù)。
三、[實(shí)踐路徑]
基于能力梳理和方向規(guī)劃,提出1個(gè)愿景、3個(gè)核心、5個(gè)階段、3個(gè)基石的“1+3+5+3”智慧運(yùn)維能力體系。
(1)1愿景:IT運(yùn)營(yíng)創(chuàng)造價(jià)值是構(gòu)建智能運(yùn)維體系的根本愿景。
(2)三個(gè)核心:穩(wěn)定性和準(zhǔn)確性、用戶滿意度和風(fēng)險(xiǎn)防范是智慧運(yùn)維體系建設(shè)的三個(gè)核心價(jià)值。
(3)5個(gè)階段:“初始階段-標(biāo)準(zhǔn)化階段-手動(dòng)化/可視化階段-中級(jí)智能階段-中級(jí)智能階段”是智慧運(yùn)維體系建設(shè)中各項(xiàng)能力的演進(jìn)路線。
(4)三大基石:工作規(guī)劃、文化修養(yǎng)、能力提升,是智慧運(yùn)維體系建設(shè)的三大基石。
(1)數(shù)據(jù)采集層:對(duì)于應(yīng)用監(jiān)控層面的采集,可以通過(guò)UDP合約傳輸、、Java等方式獲取運(yùn)維指標(biāo)。建立和采集業(yè)務(wù)指標(biāo)等。
(2)數(shù)據(jù)處理層:Flink流處理作為數(shù)據(jù)處理引擎,首先提供低延遲、高吞吐、實(shí)時(shí)處理能力,以及更多的監(jiān)控、智能分析等系統(tǒng)。完美支持各種應(yīng)用場(chǎng)景,同時(shí)Flink還支持批處理等常用數(shù)據(jù)預(yù)處理、清洗、過(guò)濾等方式的需求。
(3)數(shù)據(jù)存儲(chǔ)層:各種數(shù)據(jù)根據(jù)需要和分工存儲(chǔ)在不同的介質(zhì)上,以達(dá)到最佳的效率和最佳的搭配等效果。(4)@ >數(shù)據(jù)通道層:根據(jù)運(yùn)維工作和運(yùn)維數(shù)據(jù)的特點(diǎn),選用分布式發(fā)布-訂閱消息中間件Kakfa作為通用數(shù)據(jù)通道,以其易擴(kuò)展、高吞吐的特點(diǎn),組件間數(shù)據(jù)共享并且可以實(shí)現(xiàn)微服務(wù)。通過(guò)Kafka進(jìn)行分發(fā)。
(5)微服務(wù)層:后端功能微服務(wù)化,根據(jù)業(yè)務(wù)監(jiān)控、人工運(yùn)維、應(yīng)用配置管理、智能分析、日志管理等定義微服務(wù)的范圍和邊界。 ,以及通過(guò)API網(wǎng)絡(luò)段對(duì)外開放的能力。
(6)API網(wǎng)段層:API網(wǎng)段采用框架,API網(wǎng)段負(fù)責(zé)對(duì)外提供統(tǒng)一的外部訪問(wèn)入口,并提供合約聚合、路由分發(fā)、負(fù)載均衡、內(nèi)部為前端服務(wù)配置服務(wù)、總線消息等功能,進(jìn)而實(shí)現(xiàn)微服務(wù)的服務(wù)隔離、線性擴(kuò)展和有效監(jiān)控。(7)后端應(yīng)用層:后端選擇一個(gè)輕量級(jí)的,高性能,組件化的框架,適合運(yùn)維這些都是數(shù)據(jù)驅(qū)動(dòng)的web界面。
四、【實(shí)際療效】
五、【實(shí)現(xiàn)IT智能化運(yùn)維能力】
1.手動(dòng)運(yùn)維能力
日常IT運(yùn)維工作中存在大量重復(fù)性任務(wù)。這些任務(wù)有的復(fù)雜冗長(zhǎng),有的嚴(yán)重依賴執(zhí)行順序,有的需要等待各種條件滿足才能執(zhí)行。雖然IT運(yùn)維管理技術(shù)在不斷提高,但實(shí)際上IT運(yùn)維人員并沒有真正得到解放。目前,很多企業(yè)的系統(tǒng)啟動(dòng)和關(guān)閉、系統(tǒng)更新升級(jí)、應(yīng)急操作等大部分工作都是手動(dòng)完成的。雖然簡(jiǎn)單的系統(tǒng)變更或軟件復(fù)制粘貼升級(jí),往往需要運(yùn)維人員逐一登錄各個(gè)設(shè)備進(jìn)行手動(dòng)更改。尤其是在云平臺(tái)、大數(shù)據(jù)、海量設(shè)備的情況下,工作量可想而知。此類變更和檢測(cè)操作在IT運(yùn)維中每天都會(huì)發(fā)生,占用了大量的運(yùn)維資源。通過(guò)手動(dòng)操作工具,將運(yùn)維人員從簡(jiǎn)單重復(fù)的工作中解放出來(lái),降低誤操作風(fēng)險(xiǎn),帶來(lái)系統(tǒng)穩(wěn)定性、安全性和效率的提升。應(yīng)用場(chǎng)景如下:
(1)日檢手動(dòng)化:日檢內(nèi)容簡(jiǎn)單,但占用IT運(yùn)維人員大量時(shí)間。日檢人工巡檢可以改變硬件狀態(tài)、設(shè)備負(fù)載、系統(tǒng)人工檢查時(shí)間、C盤空間、線路流量、數(shù)據(jù)庫(kù)表空間使用情況、網(wǎng)絡(luò)設(shè)備端口狀態(tài)、流量等,生成滿足用戶要求的檢查報(bào)告。
(2)手動(dòng)配置管理:手動(dòng)從生產(chǎn)環(huán)境中提取配置庫(kù)信息,手動(dòng)更新到配置庫(kù)中,保持配置庫(kù)與生產(chǎn)環(huán)境的一致性。實(shí)現(xiàn)手動(dòng)更新和同步需要對(duì)應(yīng)用系統(tǒng)進(jìn)行標(biāo)準(zhǔn)化改造,如標(biāo)準(zhǔn)化安裝路徑、統(tǒng)一版本等,有助于工具提取應(yīng)用配置項(xiàng)的基本信息,最終實(shí)現(xiàn)配置項(xiàng)和屬性的手動(dòng)更新。
(3)手動(dòng)應(yīng)用部署:使用手動(dòng)平臺(tái)圖形化流程編輯器創(chuàng)建組件流程。根據(jù)平臺(tái)提供的插件,可實(shí)現(xiàn)與流行工具的集成,部署即可無(wú)需任何編程即可快速定義邏輯??梢允褂孟嗤牧鞒虒⑾嗤膽?yīng)用程序部署到多個(gè)環(huán)境。這進(jìn)一步有助于節(jié)省時(shí)間和提高效率,以及早期驗(yàn)證應(yīng)用程序和部署過(guò)程。手動(dòng)平臺(tái)可以同時(shí)在數(shù)千臺(tái)機(jī)器上運(yùn)行部署過(guò)程。
(4)容災(zāi)切換操作手動(dòng)化:通過(guò)容災(zāi)操作流程手動(dòng)批量執(zhí)行容災(zāi)切換流程。通過(guò)-為業(yè)務(wù)系統(tǒng)構(gòu)建雙活模式。主動(dòng)數(shù)據(jù)中心,實(shí)現(xiàn)手動(dòng)切換,減少停機(jī)時(shí)間。
2.平臺(tái)運(yùn)維能力
運(yùn)維工作相當(dāng)復(fù)雜,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、發(fā)布、變更、監(jiān)控、故障排除、運(yùn)行環(huán)境信息維護(hù)等。同時(shí)面對(duì)日益復(fù)雜和龐大的企業(yè)IT架構(gòu),IT運(yùn)維需要在不同架構(gòu)、不同平臺(tái)之間實(shí)現(xiàn)IT資源的優(yōu)化配置和高效管理,從而實(shí)現(xiàn)整個(gè)系統(tǒng)的穩(wěn)定運(yùn)行,滿足相應(yīng)的企業(yè)業(yè)務(wù)場(chǎng)景。當(dāng)需求出現(xiàn)時(shí),可以應(yīng)對(duì)用戶量和數(shù)據(jù)量的快速膨脹。
因此,平臺(tái)化運(yùn)維的目標(biāo)是針對(duì)不同的業(yè)務(wù)形態(tài),對(duì)企業(yè)IT架構(gòu)進(jìn)行有針對(duì)性的管控和集成管理,利用大數(shù)據(jù)和基于PaaS的平臺(tái)能力進(jìn)行底層運(yùn)維技術(shù)和業(yè)務(wù)能力。封裝、輕量級(jí)運(yùn)維技術(shù)工具體系進(jìn)入運(yùn)維APP場(chǎng)景應(yīng)用,逐步集成運(yùn)維工具。應(yīng)用場(chǎng)景如下:
(1)日志采集平臺(tái):采集各個(gè)應(yīng)用形成的本地日志數(shù)據(jù)并匯總。一方面方便查看和定位問(wèn)題;趨勢(shì)分析為有效規(guī)避提供依據(jù)風(fēng)險(xiǎn)失敗并指導(dǎo)決策。
(2)應(yīng)用性能監(jiān)控平臺(tái):包括多級(jí)應(yīng)用性能監(jiān)控、應(yīng)用性能故障快速定位、應(yīng)用性能綜合優(yōu)化三個(gè)模塊??墒褂檬聞?wù)處理過(guò)程監(jiān)控、模擬等指實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)應(yīng)用檢測(cè),檢測(cè)應(yīng)用系統(tǒng)的各個(gè)組件,快速定位系統(tǒng)故障,并進(jìn)行修復(fù)或提出修復(fù)建議,準(zhǔn)確分析各個(gè)組件占用系統(tǒng)資源的情況,及時(shí)了解庫(kù)存和產(chǎn)品生產(chǎn)進(jìn)度it運(yùn)維技術(shù),從而實(shí)現(xiàn)利益最大化。
(3)統(tǒng)一資源配置管理平臺(tái):只有這樣才能集中管理不同環(huán)境、不同應(yīng)用集群的配置,實(shí)時(shí)推送配置變化,保證底層數(shù)據(jù)配置項(xiàng)通過(guò)統(tǒng)一管理資源和配置準(zhǔn)確。
(4)應(yīng)用部署平臺(tái):只為了部署容器和物理機(jī),支持線上線下服務(wù)、定時(shí)任務(wù)和靜態(tài)文件的部署,提供部署資源管理、運(yùn)行環(huán)境搭建、部署流程定義和部署執(zhí)行跟蹤,可用于金絲雀發(fā)布和藍(lán)綠部署。應(yīng)用部署平臺(tái)可以提高業(yè)務(wù)迭代率,避免失敗,提高產(chǎn)品發(fā)布節(jié)奏。
3.數(shù)據(jù)運(yùn)維能力
由于用戶數(shù)和業(yè)務(wù)量的下降,數(shù)據(jù)量也迅速處于井噴發(fā)展階段。 IT運(yùn)維數(shù)據(jù)化能力由此成為企業(yè)能力發(fā)展的重要方向。 IT運(yùn)維數(shù)字化是利用數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、可視化等全數(shù)據(jù)系統(tǒng)對(duì)運(yùn)維過(guò)程進(jìn)行評(píng)估,以確認(rèn)IT運(yùn)維目標(biāo)的實(shí)現(xiàn)和程度。日常運(yùn)維場(chǎng)景很多,看起來(lái)很復(fù)雜。畢竟與對(duì)穩(wěn)定、安全、高效這三個(gè)基本價(jià)值的更高追求是分不開的。通過(guò)基于數(shù)據(jù)的運(yùn)維能力,IT運(yùn)維可以為企業(yè)決策提供強(qiáng)有力的支持,實(shí)現(xiàn)穩(wěn)定、安全、效率提升、成本合理控制。應(yīng)用場(chǎng)景如下:
(1)知識(shí)圖譜:使用統(tǒng)一語(yǔ)言定義運(yùn)維數(shù)據(jù),通過(guò)實(shí)體與實(shí)體之間的關(guān)系表達(dá)運(yùn)維對(duì)象,整合運(yùn)維領(lǐng)域的實(shí)體關(guān)系,生成一個(gè)知識(shí)圖譜。運(yùn)維領(lǐng)域關(guān)系包括但不限于產(chǎn)品、服務(wù)、集群、服務(wù)器、網(wǎng)絡(luò)、IDC等。
(2)數(shù)據(jù)庫(kù)室:是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的、用于支持管理決策的數(shù)據(jù)集合。數(shù)據(jù)庫(kù)室為用戶提供決策支持和歷史數(shù)據(jù)的當(dāng)前數(shù)據(jù)。數(shù)據(jù),這是傳統(tǒng)運(yùn)營(yíng)數(shù)據(jù)庫(kù)中難以或不可能獲取的數(shù)據(jù)。 機(jī)房技術(shù)是將運(yùn)營(yíng)數(shù)據(jù)有效地整合到一個(gè)統(tǒng)一的環(huán)境中,為決策數(shù)據(jù)訪問(wèn)提供各種技術(shù)和模塊,目的是讓用戶能夠查詢到所需的信息更快、更方便,并提供決策支持。
(3)數(shù)據(jù)中心:建設(shè)面向運(yùn)維領(lǐng)域的數(shù)據(jù)中心,資源數(shù)據(jù)、告警數(shù)據(jù)、績(jī)效數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、日志數(shù)據(jù)、工單數(shù)據(jù)、指標(biāo)數(shù)據(jù)等統(tǒng)一管理,撥號(hào)數(shù)據(jù) 為下層運(yùn)維分析場(chǎng)景提供統(tǒng)一的數(shù)據(jù)訪問(wèn)路由、數(shù)據(jù)服務(wù)目錄、數(shù)據(jù)訪問(wèn)管理、數(shù)據(jù)可視化等功能,打破“數(shù)據(jù)孤島”,深度挖掘運(yùn)營(yíng)通過(guò)整合關(guān)聯(lián)和對(duì)外開放的數(shù)據(jù)價(jià)值。識(shí)別前端數(shù)據(jù)需求,整合后端數(shù)據(jù),處理和輸出數(shù)據(jù),構(gòu)建數(shù)據(jù)中心級(jí)數(shù)據(jù)服務(wù)共享平臺(tái)。通過(guò)數(shù)據(jù)整理,數(shù)據(jù)源規(guī)劃、數(shù)據(jù)處理整合,對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行處理和整合,通過(guò)數(shù)據(jù)服務(wù)實(shí)現(xiàn)數(shù)據(jù)監(jiān)控和資源利用分析。
(4)數(shù)據(jù)可視化:通過(guò)數(shù)據(jù)的可視化呈現(xiàn),幫助運(yùn)維人員直觀、方便、快速地分析問(wèn)題,同時(shí)也提供了一系列工具組件供運(yùn)維人員跟進(jìn)快速進(jìn)行視圖編輯、多層次下鉆分析、多維度關(guān)聯(lián)分析、報(bào)表整理、海量數(shù)據(jù)縱橫數(shù)據(jù)對(duì)比等,傳統(tǒng)運(yùn)維體驗(yàn)數(shù)字化改造,大幅改善問(wèn)題故障排除、風(fēng)險(xiǎn)檢測(cè)和知識(shí)沉淀。
4.智能運(yùn)維能力
由于IT運(yùn)維支撐的業(yè)務(wù)規(guī)模不斷下降,越來(lái)越多的運(yùn)維場(chǎng)景和問(wèn)題難以用傳統(tǒng)的運(yùn)維方式解決。同時(shí),IT運(yùn)維效率也逐漸無(wú)法滿足系統(tǒng)要求。為此,如何解放運(yùn)維自身的效率,解決傳統(tǒng)運(yùn)維方式難以解決的問(wèn)題,成為企業(yè)發(fā)展轉(zhuǎn)型的一大挑戰(zhàn)。運(yùn)維智能化能力是指將人類的知識(shí)和運(yùn)維經(jīng)驗(yàn)與大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,制定出一系列智能策略,然后集成到運(yùn)維系統(tǒng)中,實(shí)現(xiàn)運(yùn)維通過(guò)智能運(yùn)維平臺(tái)完成工作。
目前,運(yùn)維智能化應(yīng)用場(chǎng)景主要有:
(1)故障預(yù)測(cè):主動(dòng)容錯(cuò)技術(shù),基于對(duì)系統(tǒng)歷史狀態(tài)和當(dāng)前行為的分析it運(yùn)維技術(shù),可以生成告警預(yù)測(cè)的結(jié)果模型,判斷系統(tǒng)是否已經(jīng)正式形成故障,并協(xié)助系統(tǒng)盡快避免故障或采取措施??梢园l(fā)現(xiàn),可以預(yù)知報(bào)警。故障預(yù)知可以使運(yùn)維人員在日常工作中由被動(dòng)響應(yīng)變?yōu)橹鲃?dòng),從而提高系統(tǒng)的整體運(yùn)行質(zhì)量。
(2)故障自愈:故障自愈過(guò)程包括感知、止損決策、止損三個(gè)階段。感知階段取決于監(jiān)控系統(tǒng)的故障檢測(cè)能力,補(bǔ)貨階段取決于流量調(diào)度系統(tǒng)的調(diào)度能力。故障自愈可以提高企業(yè)的服務(wù)可用性,減少故障處理的人為投入,實(shí)現(xiàn)從人工處理到無(wú)人值守故障的過(guò)渡。
(3)手動(dòng)擴(kuò)縮容:可以根據(jù)應(yīng)用負(fù)載手動(dòng)調(diào)整集群容量以滿足需求。當(dāng)集群中有Pods由于資源不足而難以調(diào)度時(shí),擴(kuò)容手動(dòng)觸發(fā),降低人工成本。當(dāng)滿足節(jié)點(diǎn)空閑等伸縮條件時(shí),手動(dòng)觸發(fā)伸縮,節(jié)省資源成本。
(4)智能問(wèn)答知識(shí)庫(kù):知識(shí)庫(kù)的最新形式,具有知識(shí)挖掘、知識(shí)管理、知識(shí)關(guān)聯(lián)、知識(shí)推理與建模、智能檢索、自學(xué)訓(xùn)練等功能。智能知識(shí)庫(kù) 改變故障處理方式,不僅提高了故障上報(bào)的準(zhǔn)確性,而且簡(jiǎn)化了信息交換的中間環(huán)節(jié),有效減少故障處理時(shí)間,提高工作效率。
(5)智能發(fā)布變更:可否管理大規(guī)模發(fā)布變更流程,具有手動(dòng)部署、分層發(fā)布、智能變更策略等功能。用戶通過(guò)UI配置整個(gè)變更流程的執(zhí)行策略/API ,專用執(zhí)行系統(tǒng)解析策略,手動(dòng)執(zhí)行批次及其變更。分層發(fā)布將變更過(guò)程定義為基于強(qiáng)度組的多個(gè)階段,并在每個(gè)階段引入人工檢測(cè)案例。階段變更可以有效提高管理和通過(guò)引入智能模板生成、智能變更檢測(cè)等智能策略,降低使用門檻,提高可復(fù)用性,減少了人力。操作錯(cuò)誤率。
六、[未來(lái)洞察]
(1)端到端業(yè)務(wù)體驗(yàn):主要涉及客戶體驗(yàn)、應(yīng)用體驗(yàn)、網(wǎng)絡(luò)體驗(yàn)、接入設(shè)備體驗(yàn)的工具和平臺(tái)。
(2)智能運(yùn)維:針對(duì)B域和O域,提供微服務(wù)修復(fù)、編排修復(fù)、切片修復(fù)、智能預(yù)警、智能優(yōu)化、故障自愈、持續(xù)集成、持續(xù)部署和持續(xù)測(cè)試;
(1)運(yùn)維層:三橫一縱、B域運(yùn)維、O域運(yùn)維、邊緣估計(jì)運(yùn)維、端到端運(yùn)維。
(2)能力分層:業(yè)務(wù)運(yùn)維、技術(shù)運(yùn)維、管理運(yùn)維。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)