了解最新公司動態(tài)及行業(yè)資訊
系統(tǒng)智能運維關(guān)鍵技術(shù)研究學科 計算機技術(shù)研究方向 軟件服務指導負責人 朱立平 副院長 現(xiàn)場導師 蘇永昌 中級工程師 招生日期:2013 隨著信息化、智能化的逐步加快,傳統(tǒng)運維模式已經(jīng)不能滿足人們的運維需求。當今的運維系統(tǒng)大多只解決運維活動中的基礎業(yè)務流程和軟硬件邏輯的管理,無法深入實現(xiàn)以ITIL為代表的運維管理系統(tǒng)。與業(yè)務密切相關(guān)的模塊缺乏相對智能化的功能,不同模塊之間缺乏有效的整合,導致運維整體效率低下。本文研究了運維系統(tǒng)智能化過程中用到的關(guān)鍵技術(shù),包括:網(wǎng)絡拓撲發(fā)現(xiàn)技術(shù)、自動預警技術(shù)和資源報告生成。同時,系統(tǒng)介紹了數(shù)據(jù)交互中使用的模板技術(shù)、K-means降維分析方法和數(shù)據(jù)處理中的-mean模型。本文重點介紹了網(wǎng)絡拓撲發(fā)現(xiàn)算法的實現(xiàn)、自動預警中參數(shù)的手動生成和校準、郵件等新型預警技術(shù)的實現(xiàn)、系統(tǒng)報告的生成過程以及預警級別的定義。為解決拓撲圖功能表一、的運維報告模塊無法有效使用的問題,本文提出預警、報告和網(wǎng)絡拓撲圖相結(jié)合的方法。最終完成了拓撲圖生成、自動預警、資源報表評估等智能運維系統(tǒng)關(guān)鍵技術(shù)的實現(xiàn),推動了運維智能化步伐。
關(guān)鍵詞:運維;網(wǎng)絡拓撲結(jié)構(gòu);智力;預先警告; .'..,,all.used,:,early,.,used,data,K-means.,,e-,,etc..,.,the,,,,up.關(guān)鍵詞:;;;早期;形式1.1課題來源1.2研究背景1.3研究意義1.4主要工作1.5論文結(jié)構(gòu)2.資料收集技術(shù)2.1.簡介2.1.2信息收集原理2.2網(wǎng)絡拓撲發(fā)現(xiàn)算法簡介2.2.1 SNMP-基于網(wǎng)絡拓撲發(fā)現(xiàn)算法2.2.2 基于ARP的網(wǎng)絡拓撲發(fā)現(xiàn)算法2.2.3 基于ICMP的網(wǎng)絡發(fā)現(xiàn)算法2.3 知識庫和數(shù)據(jù)挖掘2.3.1 知識庫建設2.3.2 報表中常用的數(shù)據(jù)挖掘算法2.4 運維報表與預警技術(shù)2.4.1 報告在運維中的應用2.4. 2 報告技術(shù)的分類 102.4.3 報告在運營中的應用與維護 102.5 運維中的資源評估技術(shù) 112.5. 1 資源評估的概念 112.5.2 資源評估的方法112.5.3運維中的信息采集122.6模板技術(shù)122.6.12.6.的特點介紹@>132.6.3工作原理132.6.4 142.7 章節(jié)總結(jié)163.1 系統(tǒng)開發(fā)目標163.2 系統(tǒng)需求分析 163.3 數(shù)據(jù)集成與處理 163.< @3.1 網(wǎng)絡拓撲信息排序163.3.2 監(jiān)控項均值閾值處理17<@ 3.3.3預警系統(tǒng)改進183.4系統(tǒng)集成203.5章節(jié)總結(jié)224.1系統(tǒng)總體架構(gòu)224.1. 1 系統(tǒng)設計圖 224.2 智能運維設計關(guān)鍵技術(shù)功能254.2.1運維拓撲圖生成on254.2.2完善知識庫284.2.3人工預警系統(tǒng)建設304.2.4系統(tǒng)資源報告評價模塊374.3數(shù)據(jù)處理與顯示394.4系統(tǒng)集成實施414.4.1報警實施與方案生成414.4.2方案配置414.< @4.3Plan .5應用結(jié)果及分析444.5.1網(wǎng)絡拓撲結(jié)果統(tǒng)計44 4.5.2上報統(tǒng)計及故障預警應用分析46< @5.1 推理465.2 展望1.1 課題來源 本課題以數(shù)據(jù)挖掘為出發(fā)點 天津市重點實驗室承擔的智能運維系統(tǒng)子課題研究與實施實現(xiàn)運維系統(tǒng)智能化過程中的關(guān)鍵技術(shù)。
研究的技術(shù)包括運維拓撲圖的實現(xiàn)、智能預警系統(tǒng)的改進、資源報表的評估等。拓撲圖的實現(xiàn)是基于網(wǎng)絡拓撲發(fā)現(xiàn)算法生成運維網(wǎng)絡拓撲圖。預警系統(tǒng)的實現(xiàn)過程是對實時和歷史數(shù)據(jù)進行分析處理,實現(xiàn)資源的報表分析,結(jié)合預警模塊實現(xiàn)相應節(jié)點的上報和預警功能。同時,系統(tǒng)可以對節(jié)點上的相關(guān)設備進行檢測,構(gòu)建較為完善的運維上報系統(tǒng),實現(xiàn)故障的分級上報。根據(jù)項目組的實際需求和任務定義,承擔運維拓撲圖生成、預警系統(tǒng)完善、資源報告評估等功能的設計開發(fā)過程. 1.2研究背景我國的IT運維管理幾乎與互聯(lián)網(wǎng)行業(yè)的發(fā)展同步。 2000年之前,幾乎是一片空白,只有一些電腦維修和保養(yǎng)工作。發(fā)展的黃金時代已經(jīng)過去十年。隨著互聯(lián)網(wǎng)技術(shù)迅速融入國外各行各業(yè),互聯(lián)網(wǎng)技術(shù)以令人矚目的速度發(fā)展。同時,隨著各種問題的出現(xiàn),IT運維管理逐漸受到廣大用戶的關(guān)注,運維工作不再是簡單的自動化設備維護,而是逐漸走向正規(guī)化。在用戶體驗互聯(lián)網(wǎng)帶來的便利的同時,運維工作的重要性也越來越被認可,客戶需要一整套成熟的系統(tǒng)來做好運維工作。但由于國外互聯(lián)網(wǎng)產(chǎn)業(yè)引入較晚,運維所需的各種軟硬件的支持遠遠落后于美國,客觀激勵的障礙使得運維工作遠遠落后于加拿大的步伐。
據(jù)悉,運維管理人員長期以來沒有得到應有的重視和尊重。近年來,隨著客觀條件的改善,運維行業(yè)取得了長足的發(fā)展。以ITIL系統(tǒng)為核心的運維系統(tǒng)在國外已經(jīng)得到了很好的發(fā)展。走在這個行業(yè)前沿的國外企業(yè)有很多,北塔和摩卡更是名列前茅。作為國外最成功的運營商之一,北塔公司于2010年發(fā)布了公司最成功的運維軟件BTNM技術(shù)藍皮書,書中詳細介紹了產(chǎn)品的功能,重點介紹了ITIL的應用。此外,北塔在服務運維方向上也做了一定的延伸。摩卡開發(fā)的運維軟件,高度依賴運維,也具有很高的應用價值。與北塔不同,摩卡在故障處理上相對成功。不僅是必要的故障管理模塊,還有一些故障分析功能,在實際應用中具有很高的附加值。對比兩款產(chǎn)品可以發(fā)現(xiàn),兩者都非常重視流程管理,因為這是運維的核心。區(qū)別也很明顯:北塔重視應用開發(fā),摩卡重視商業(yè)模式建設。由于國外運維發(fā)展緩慢,早期美國的一些運維開發(fā)商如惠普、IBM等占據(jù)了中國運維市場的大部分,這些廠商憑借先進的技術(shù)理論主導了運維市場。運維產(chǎn)品也是基于以ITIL為代表的理論的運維管理系統(tǒng)。隨著ITIL給聯(lián)通開發(fā)者帶來了顯著的利益,ITIL逐漸被國外所接受,運維技術(shù)也得到了足夠的重視。
但近年來,由于國內(nèi)廠商核心代碼私有化,后期使用出現(xiàn)不少問題,需求減少會降低高昂的運維成本。同時,國外的運維也發(fā)展得很好,所以美國的運維產(chǎn)品也逐漸淡出了中國市場。針對這些情況,我們的重點不是簡單地優(yōu)化傳統(tǒng)的運維形式。運維的發(fā)展方向是業(yè)務管理而不是簡單的事務處理。傳統(tǒng)的運維理念給我們指明了方向,但如何走上路是每個運維人都應該思考的問題。作為行業(yè)發(fā)展標準,ITIL 依然不落后。在這個標準下,我們當前的任務是盡快將新一代運維管理與舊模式結(jié)合起來,“取其精華,去其糟粕”。只有這樣,才能順應時代發(fā)展趨勢,將運維管理推向一個新的高度。 1.3研究意義隨著IT行業(yè)的發(fā)展,作為運維管理對象的互聯(lián)網(wǎng)等計算機資源規(guī)模不斷擴大。另一方面,運維人員似乎有所減少,整體技能水平接近美國,但本土運維人員的專業(yè)技能參差不齊。在這種情況下,順利的運維工作給大家?guī)砹撕艽蟮穆闊?。為了便于操作、維護和管理,新一代網(wǎng)管系統(tǒng)具有良好的圖形界面。在新的網(wǎng)管平臺下,非專業(yè)用戶無需完全掌握設備的配置方法,通過管理平臺即可快速完成多臺設備的配置和監(jiān)控。
但由于人為激勵的干擾,管理過程中仍會出現(xiàn)設備功能使用不完整或不正確的問題,整體工作效率不理想。作為網(wǎng)絡管理的重要組成部分,局域網(wǎng)的運維管理對于局域網(wǎng)用戶來說起著非常重要的作用。值得思考的是,現(xiàn)實中,在當前形勢下,局域網(wǎng)運維工作并沒有得到足夠的重視,給運維工作的順利進行帶來了麻煩。由于局域網(wǎng)中涉及的主機或服務器對用戶來說非常重要it運維技術(shù),因此確保其運行安全和使用安全是網(wǎng)絡管理者最關(guān)心的問題。局域網(wǎng)監(jiān)控是建立在局域網(wǎng)的基礎上,以計算機技術(shù)、網(wǎng)絡技術(shù)、通信技術(shù)、控制技術(shù)等高新技術(shù)為基礎,以監(jiān)控、管理、報警等為手段,實現(xiàn)對本地的管理。局域網(wǎng),同時保證局域網(wǎng)的安全運行。它可以為網(wǎng)絡管理員提供清晰的監(jiān)控數(shù)據(jù)信息。舉辦網(wǎng)絡運維將有助于解決現(xiàn)實中運維效率低的現(xiàn)狀。拓撲圖的使用充分發(fā)揮了視圖交互的優(yōu)勢,讓用戶可以直觀地看到一個平面結(jié)構(gòu),而不是像中國石油學院(南京)那樣的網(wǎng)絡環(huán)境。本系統(tǒng)對拓撲圖的擴展,增加了報表系統(tǒng)和預警系統(tǒng),加強了拓撲圖的效果。報表系統(tǒng)充分利用歷史數(shù)據(jù),利用基本的物理處理和數(shù)據(jù)挖掘方法,獲取網(wǎng)絡用戶使用的內(nèi)在規(guī)律和聯(lián)系,并將這些規(guī)律整合為用戶運維管理的有利信息。
新增的預警系統(tǒng)可以在發(fā)現(xiàn)問題之初甚至在問題發(fā)生之前就做出快速準確的報告,有效縮短運維周期,一改以往的報告系統(tǒng)“發(fā)現(xiàn)問題,發(fā)出警報,經(jīng)理響應,解決問題”模型。預警方案生成系統(tǒng)為智能運維提供了可能。隨著知識庫的積累,從知識庫中得到的候選方案會越來越準確有效,運維方案的實際作用也會越來越大。 1.4 主要工作 本課題的主要研究內(nèi)容是智能運維監(jiān)控系統(tǒng)的一部分,是在ITIL基礎上開發(fā)的1.0版本的后續(xù)開發(fā)并結(jié)合實際需要。本文的主要內(nèi)容有:網(wǎng)絡拓撲圖的生成與優(yōu)化、自動預警系統(tǒng)的改進、系統(tǒng)日志模塊的開發(fā)與建立、系統(tǒng)故障診斷模塊的構(gòu)建、資源報告評估系統(tǒng)的構(gòu)建等。拓撲圖模塊,主要建立了前人工作的不足,并完成了系統(tǒng)告警和預警工作。拓撲圖建立后,網(wǎng)絡結(jié)構(gòu)層次更加清晰,結(jié)構(gòu)更加清晰。新增的診斷結(jié)果和評估結(jié)果也讓網(wǎng)絡節(jié)點的內(nèi)容越來越豐富。拓撲圖與其他模塊有效結(jié)合,實現(xiàn)了從基于流程的運維到智能運維的蝶變。還建立了知識庫和系統(tǒng)日志系統(tǒng)。在此基礎上,對相關(guān)數(shù)據(jù)進行物理處理和簡單挖掘分析,最終得出有效的推論。根據(jù)推理診斷設備故障,并提供解決方案,實現(xiàn)真正的預警功能。
資源報告制度的完善也促進了計算機資源的有效量化。從評價結(jié)果可以直觀地看出各部門對計算機資源的依賴程度,更清楚地得出各部門對資源使用的聯(lián)系程度。這種報表為決策者進行資源調(diào)度決策提供了實際的量化依據(jù)。 1.5 論文結(jié)構(gòu) 本文結(jié)構(gòu)如下: 第一章:介紹課題來源、發(fā)展背景、研究意義和完成的主要工作。第二章:介紹與發(fā)展相關(guān)的關(guān)鍵技術(shù)。重點介紹同類型系統(tǒng),開發(fā)過程中用到的一些常用技術(shù)和概念。其中包括新型網(wǎng)絡運維管理模型、網(wǎng)絡拓撲發(fā)現(xiàn)技術(shù)、數(shù)據(jù)挖掘中的知識庫與降維分析、數(shù)據(jù)處理與頁面實現(xiàn)技術(shù)等。 第三章:智能運維系統(tǒng)關(guān)鍵技術(shù)要求分析章節(jié)分小節(jié)介紹系統(tǒng)各模塊的功能需求以及技術(shù)實現(xiàn)的分析方法和流程。第四章:描述智能運維系統(tǒng)關(guān)鍵技術(shù)的設計與實現(xiàn)過程。本章通過具體技術(shù)逐步實現(xiàn)網(wǎng)絡拓撲圖的生成、預警系統(tǒng)的改進、資源評價報告體系的構(gòu)建。同時展示了開發(fā)過程中的關(guān)鍵截圖和實現(xiàn)代碼,介紹了模塊設計和實現(xiàn)過程中的一些重要技術(shù)以及部署和實現(xiàn)的過程。第五章:分析推論,總結(jié)系統(tǒng)的不足。總結(jié)了現(xiàn)有系統(tǒng)實現(xiàn)的功能和用戶應用后的反饋,總結(jié)了系統(tǒng)實現(xiàn)成果的優(yōu)勢和系統(tǒng)功能需要進一步完善的地方,提出了改進未來發(fā)展方向的建議。系統(tǒng)。
中國石油科學研究院(南京)碩士論文關(guān)鍵技術(shù)介紹2.1信息采集技術(shù)2.1.1介紹作為一款流行的開源監(jiān)控系統(tǒng),可以快速監(jiān)控系統(tǒng)運行狀態(tài)和網(wǎng)絡信息。在監(jiān)控之下,所有被監(jiān)控的主機或服務都暴露在管理員的眼前。當被監(jiān)控對象出現(xiàn)異常時,上報機制會以自己的方式通知管理員??梢杂肅編譯器運行Linux/Unix平臺,并提供WEB界面供用戶查看管理對象的網(wǎng)絡狀態(tài)和系統(tǒng)日志??梢员O(jiān)控的功能[7-10]總結(jié)如下:監(jiān)控主機的可用資源(CPU利用率、磁盤使用率等);可以支持和實現(xiàn)主機的冗余監(jiān)控; (10)多種集成B/S接口,符合最新發(fā)展趨勢,方便用戶操作。2.1.2信息采集原則必須在Linux機器上運行用C語言編譯器或類似機器,另外,運行的機器必須能聯(lián)網(wǎng)并支持TCP/IP協(xié)議,才能實現(xiàn)遠程檢測服務,加載器還必須運行支持WEB服務的服務器,以提供支持用于CGIs程序的運行。它沒有監(jiān)控主機和服務的功能。
之所以能做到這一點,是因為使用了外部插件。監(jiān)控檢測功能[11]啟動后,可以調(diào)用已安裝的插件按照設定的周期對目標服務器進行檢查,所有返回的狀態(tài)信息都會進入構(gòu)建隊列。按照順序讀取信息,經(jīng)過一系列處理,結(jié)果顯示在瀏覽器上。它有很多插件,用戶可以根據(jù)自己的需要安裝后完成監(jiān)控目標。內(nèi)置插件的名稱有一定的規(guī)則,用戶可以根據(jù)自己的需要學習和更改這些插件。下,可以運行/**-h,系統(tǒng)會返回插件的使用情況。返回的狀態(tài)信息包括以下幾種,如下表2.1[12]所示。 . .狀態(tài)碼顏色OK紅色警告紅色嚴重白色未知錯誤深藍色有功能,必須通過遠程服務器對象進行管理。系統(tǒng)提供了一個插件NRPE。這個插件的主要功能是完成數(shù)據(jù)傳輸。系統(tǒng)定期運行NRPE,獲取遠程服務器返回的各種狀態(tài)信息。
它們之間的關(guān)系如右圖2.1[13]所示。圖2.1 工作原理圖 圖2.1 通過NRPE接收遠程管理服務的命令,完成指定服務的測量;通過 SSL 插件連接到遠程機器上運行的 NRPE;通過 NRPE 運行本地插件以檢查本地服務。檢測完成后,NRPE將檢測結(jié)果傳送給控制終端,并按照一定的規(guī)則通過讀取信息來顯示檢測結(jié)果。中國石油學院(南京)碩士學位論文2.2 網(wǎng)絡拓撲發(fā)現(xiàn)算法簡介2.2.1 基于SNMP的網(wǎng)絡拓撲發(fā)現(xiàn)算法SNMP()目前運行于TCP/A基于 IP 的網(wǎng)絡管理合約,它是在 UDP 之上運行的應用程序級合約。 SNMP主要由三部分組成:管理信息結(jié)構(gòu)、SNMP和MIB。 MIB是將可以通過網(wǎng)絡契約訪問的管理對象封裝成一個集合進行訪問,用于描述所有網(wǎng)絡元素(路由器、網(wǎng)橋等)的重要信息。
從數(shù)據(jù)中我們知道,在MIB中,與拓撲相關(guān)的有效信息如下: 表中存儲了包括路由器在內(nèi)的地址信息,見下表2.4。表2.2 路由套接字信息表2.2 套接字索引套接字描述部分類型表2.3 路由表表2.3 目的地址本地端口索引路由類型下一個跳轉(zhuǎn)表< @2.4路由地址信息表2.4實體ip 索引實體ip子網(wǎng)網(wǎng)段2.2.2基于ARP的網(wǎng)絡拓撲發(fā)現(xiàn)算法 大多數(shù)網(wǎng)絡所有路由器都支持ARP協(xié)定,即維護一個ARP表it運維技術(shù),其中包含該網(wǎng)段內(nèi)所有活動主機和網(wǎng)絡設備的信息。使用此信息,網(wǎng)關(guān)可用于發(fā)現(xiàn)網(wǎng)絡拓撲。任何網(wǎng)絡設備也可以發(fā)現(xiàn)其他網(wǎng)絡設備和與其連接的主機,然后根據(jù)其他信息判斷連接的設備是網(wǎng)絡設備還是主機,從而得到整個網(wǎng)絡的拓撲結(jié)構(gòu)。
這些技術(shù)不能用于不支持 ARP 合同的設備。如果網(wǎng)絡規(guī)模太大,可能很難將所有活躍的主機都包含在 ARP 中,所以這些技術(shù)只能在局域網(wǎng)中使用。 2.2.3 基于 ICMP 的網(wǎng)絡發(fā)現(xiàn)算法 這些技術(shù)使用兩種常見的 ICMP 工具,Ping 和 .首先使用Ping網(wǎng)絡依次進行ping掃描,可以找出網(wǎng)絡中活躍的網(wǎng)絡設備,然后操作所有活躍的網(wǎng)絡設備,分析兩次操作返回的信息,就可以得到整個網(wǎng)絡。拓撲。這些技術(shù)需要掃描局域網(wǎng)內(nèi)的所有IP地址,會給服務器和整個網(wǎng)絡帶來負擔。同時ICMP過于簡單,所以這些檢測方法在一定程度上是盲目的。子網(wǎng)。通過對比可以看出,基于ARP和ICMP的網(wǎng)絡發(fā)現(xiàn)合約在理論上似乎能夠完成網(wǎng)絡拓撲發(fā)現(xiàn)的功能,但它們的缺點也很明顯:基于ARP的發(fā)現(xiàn)算法的應用范圍有限,而基于ICMP的發(fā)現(xiàn)算法發(fā)現(xiàn)效率太低。相對而言,基于SNMP的發(fā)現(xiàn)算法具有更高的發(fā)現(xiàn)效率,因此本文網(wǎng)絡拓撲圖的實現(xiàn)部分采用了這些網(wǎng)絡發(fā)現(xiàn)算法2.3知識庫和數(shù)據(jù)挖掘2.<構(gòu)建的@3.1個知識庫知識庫是一個基于知識的數(shù)據(jù)庫系統(tǒng)[14]。
所謂知識,是指人們在社會實踐過程中的行為、數(shù)據(jù)、規(guī)范等。知識庫是基于知識的計算機系統(tǒng)。因為知識是人們生活過程中表現(xiàn)出來的數(shù)據(jù),知識庫可以在一定程度上反映人或事物的思想、習慣、規(guī)律等。因此,知識庫具有一定的智能性。近年來,隨著人工智能和知識發(fā)現(xiàn)技術(shù)的進步,知識庫在科學領域的重要性逐漸為人們所認識,知識庫以其獨特的特點發(fā)揮著越來越重要的作用。同樣,在運維系統(tǒng)中,各種事務的并列、因果、偶發(fā)關(guān)系,有著內(nèi)在的聯(lián)系。這些都是有用的資源,值得以新的數(shù)據(jù)分析方式尋找模式。通過文本處理工具的處理,我們可以從海量的知識庫中找到事物發(fā)展的必然聯(lián)系,把握變化規(guī)律,并將其應用到實際運維中。最終實現(xiàn)更好的運維管理,是邁向智能化的重要一步。知識庫主要用于運維系統(tǒng)中,記錄運維中的事務和日志。如系統(tǒng)運行記錄、系統(tǒng)故障排除、系統(tǒng)事務或流程的成功案例,以及實施報警或預警方案的全過程。隨著記錄的積累,知識庫會越來越豐富。這些積累的數(shù)據(jù)是后期中國石油學院(南京)碩士論文數(shù)據(jù)分析的重要依據(jù)。數(shù)據(jù)庫在運維中的構(gòu)建過程,前期是積累過程,后期是數(shù)據(jù)分析。要想做好后期的數(shù)據(jù)分析,前期的積累過程是必不可少的。 2.3.2 報表中常用的數(shù)據(jù)挖掘算法 二階段報表生成方案[12] 二階段報表生成方案,即模板設計和報表生成分離,一份生成模板,另一塊實現(xiàn)報表的映射生成。設計生成報表模板后,在生成后續(xù)報表時,只需要調(diào)用相應的模板,將分析后的數(shù)據(jù)映射到模板即可。降維分析是數(shù)據(jù)挖掘中常用的數(shù)據(jù)分析方法