了解最新公司動(dòng)態(tài)及行業(yè)資訊
關(guān)于作者
新居網(wǎng)絡(luò)首席架構(gòu)師梁明圖,在數(shù)據(jù)庫運(yùn)維、數(shù)據(jù)分析、數(shù)據(jù)庫設(shè)計(jì)和系統(tǒng)規(guī)劃建設(shè)方面擁有10多年的經(jīng)驗(yàn),對數(shù)據(jù)架構(gòu)管理和數(shù)據(jù)資產(chǎn)管理有深入的研究。
隨著企業(yè)IT信息化的不斷深入,企業(yè)對IT系統(tǒng)的依賴程度與日俱增。面對越來越多樣化的IT系統(tǒng),企業(yè)中的各級IT人員可謂是又愛又恨。我喜歡的是企業(yè)的各種IT系統(tǒng)已經(jīng)成為企業(yè)業(yè)務(wù)的助推器,提高了企業(yè)業(yè)務(wù)和管理的效率。可恨的是,隨著企業(yè)越來越離不開IT系統(tǒng),IT運(yùn)維被推到了風(fēng)口浪尖。如何保證IT系統(tǒng)高效、穩(wěn)定、持續(xù),甚至24/7全天候提供服務(wù),已成為企業(yè)各級IT人員亟待解決的問題。
IT運(yùn)維是指企業(yè)IT部門運(yùn)用相關(guān)方法、手段、技術(shù)、系統(tǒng)等,對IT軟硬件運(yùn)行環(huán)境、IT業(yè)務(wù)系統(tǒng)和IT運(yùn)維人員進(jìn)行綜合管理。隨著技術(shù)的發(fā)展, IT運(yùn)維近年來也發(fā)生了翻天覆地的變化。下面總結(jié)了近年來IT運(yùn)維的發(fā)展,展望了未來IT運(yùn)維的大趨勢。
一、IT技術(shù)架構(gòu):從“IOE架構(gòu)”到“互聯(lián)網(wǎng)架構(gòu)”
1、IOE 架構(gòu)
為什么要從技術(shù)架構(gòu)開始?政治經(jīng)濟(jì)學(xué)是這樣概括的:“經(jīng)濟(jì)基礎(chǔ)決定上層建筑”,我想IT行業(yè)也是如此。技術(shù)架構(gòu)的基本演進(jìn)會(huì)從根本上導(dǎo)致其他領(lǐng)域的變化,當(dāng)然也包括我們討論的IT運(yùn)維層面。
曾幾何時(shí),以IBM為代表的商用小型機(jī)、以IBM為代表的商用數(shù)據(jù)庫、以EMC為代表的高端存儲(chǔ)設(shè)計(jì),是高端企業(yè)IT系統(tǒng)的標(biāo)準(zhǔn)。十多年前我參觀過一家省級運(yùn)營商的機(jī)房,幾乎都是黑壓壓的IBM小型機(jī);他們的系統(tǒng)數(shù)據(jù)庫是企業(yè)級數(shù)據(jù)庫,無論大小和用途如何。
回過頭來看,當(dāng)時(shí)的企業(yè)為什么會(huì)傾向于這種IOE架構(gòu)?當(dāng)時(shí),企業(yè)的選擇是可以理解的。就連被稱為“去IOE”的阿里,也是最具攻擊性的。當(dāng)年原來的技術(shù)架構(gòu)其實(shí)是IOE。在當(dāng)時(shí)分布式技術(shù)還不成熟的前提下,國外成熟的商用軟硬件產(chǎn)品IOE確實(shí)帶來了與同期其他產(chǎn)品相比無與倫比的單機(jī)穩(wěn)定性和高性能。
曾經(jīng)在客戶現(xiàn)場看到一臺(tái)即將下線的舊小機(jī)器。我在關(guān)閉并離線之前檢查了啟動(dòng)時(shí)間。驚訝的發(fā)現(xiàn),這臺(tái)機(jī)器上一次開機(jī)的時(shí)間是3000多天前,也就是說,據(jù)說這臺(tái)小機(jī)器已經(jīng)服役了近十年,沒有出現(xiàn)故障,沒有停機(jī)。正是為了這種穩(wěn)定性和性能,很多企業(yè)付出了不小的代價(jià),因?yàn)閷τ贗T運(yùn)營商來說,“穩(wěn)定性壓倒一切”是他們的根本需求。
此外,考慮到技術(shù)因素,在IT系統(tǒng)運(yùn)維仍以人力資源為主的時(shí)代,系統(tǒng)技術(shù)棧的單一組成也有利于開發(fā)運(yùn)維團(tuán)隊(duì)的形成和培養(yǎng)。比如一兩個(gè)再加上一些中低級的DBA就可以處理所有數(shù)據(jù)庫相關(guān)的問題,這顯然是一個(gè)非常劃算的選擇。
但隨著技術(shù)的發(fā)展,傳統(tǒng)的基于“IOE”架構(gòu)提供的縱向擴(kuò)展技術(shù)為高端商業(yè)產(chǎn)品設(shè)計(jì)的集中式系統(tǒng)架構(gòu)已經(jīng)遇到瓶頸。尤其是對互聯(lián)網(wǎng)公司技術(shù)架構(gòu)的不斷深入研究,給IT行業(yè)帶來了新的技術(shù)模式變革?;ヂ?lián)網(wǎng)企業(yè)掀起轟轟烈烈的科技革命,背后的原因無外乎以下幾點(diǎn):
2、互聯(lián)網(wǎng)架構(gòu)
隨著技術(shù)的發(fā)展,這種基于云的、分布式的、開源的技術(shù)架構(gòu)開始進(jìn)入傳統(tǒng)企業(yè)的視線。2014年9月,銀監(jiān)會(huì)發(fā)布第39號(hào)文《關(guān)于應(yīng)用安全可控信息技術(shù)加強(qiáng)銀行網(wǎng)絡(luò)安全和信息化建設(shè)的指導(dǎo)意見》。隨后幾年,又掀起了一股傳統(tǒng)企業(yè)去IOE學(xué)習(xí)互聯(lián)網(wǎng)架構(gòu)的浪潮。
互聯(lián)網(wǎng)架構(gòu)其實(shí)并不神秘??梢钥偨Y(jié)如下:
因此,在互聯(lián)網(wǎng)架構(gòu)、云計(jì)算、大數(shù)據(jù)等新興技術(shù)的沖擊下,企業(yè)的IT技術(shù)架構(gòu)逐漸開始變革,從原來單一的IOE架構(gòu)向x86、云架構(gòu)開放源解決方案。各種技術(shù)架構(gòu)的變化(見圖 1-1))。這種技術(shù)架構(gòu)的創(chuàng)新必然會(huì)帶來運(yùn)維領(lǐng)域其他關(guān)鍵因素的創(chuàng)新,推動(dòng)“運(yùn)維”行業(yè)的發(fā)展。
圖1-1 從IOE架構(gòu)到“互聯(lián)網(wǎng)架構(gòu)”
二、運(yùn)維系統(tǒng):從ITIL到
1、ITIL
企業(yè)技術(shù)架構(gòu)的不斷創(chuàng)新,推動(dòng)了IT運(yùn)維管理模式的運(yùn)維體系從穩(wěn)態(tài)向敏感態(tài)轉(zhuǎn)變。
隨著企業(yè)信息化的深入,IT系統(tǒng)越來越多,企業(yè)IT運(yùn)維人員的數(shù)量也在增加。許多企業(yè)信息化部門專門成立運(yùn)維團(tuán)隊(duì),開展IT系統(tǒng)運(yùn)維工作。IT團(tuán)隊(duì)內(nèi)部對運(yùn)維人員的各種活動(dòng)進(jìn)行管理是自然而然的事情。ITIL 為企業(yè) IT 服務(wù)管理提供了一個(gè)客觀、嚴(yán)謹(jǐn)和可量化的最佳實(shí)踐標(biāo)準(zhǔn)和規(guī)范。我想,長期以來,正是ITIL提出的這些標(biāo)準(zhǔn)和規(guī)范,為我國很多企業(yè)的運(yùn)維體系建設(shè)指明了方向。
ITIL強(qiáng)調(diào)流程:以ITIL理念為核心的各類ITSM系統(tǒng)的運(yùn)維操作。事件管理、問題管理、變更管理、配置管理,我們都按流程行事,杜絕一切頭腦風(fēng)暴決策和盲目操作。
ITIL強(qiáng)調(diào)規(guī)范:運(yùn)維人員按照組織的流程進(jìn)行各種標(biāo)準(zhǔn)化的運(yùn)維操作。約束本身就是為了保證大家的行為不偏離方向,少犯錯(cuò)誤。
ITIL強(qiáng)調(diào)分工:運(yùn)維人員按技能有效分工,有的負(fù)責(zé)服務(wù)臺(tái)的一線響應(yīng),有的負(fù)責(zé)二線事件和問題處理,有的負(fù)責(zé)配置管理,一些負(fù)責(zé)變更審批等。運(yùn)維團(tuán)隊(duì)各司其職,相互配合。
這種管理機(jī)制非常適合IOE技術(shù)架構(gòu)時(shí)代。這種中心化的技術(shù)架構(gòu)結(jié)構(gòu)相對簡單,顯然需要更穩(wěn)定的運(yùn)維操作。畢竟,所有的雞蛋都放在這些籃子里;此外,在這種集中式架構(gòu)下,業(yè)務(wù)變化并沒有那么頻繁。動(dòng)輒要經(jīng)過一個(gè)過程有點(diǎn)麻煩,但由于頻率低,還可以接受。
2、
但是,隨著企業(yè)IT技術(shù)架構(gòu)逐漸進(jìn)入互聯(lián)網(wǎng)架構(gòu),業(yè)務(wù)快速發(fā)展,強(qiáng)調(diào)IT更好地隨需而變,強(qiáng)調(diào)更敏捷地響應(yīng)業(yè)務(wù)需求,ITIL系統(tǒng)與現(xiàn)實(shí)有些格格不入。這時(shí),這個(gè)詞走進(jìn)了人們的視野(見圖1-2).
圖 1-2 運(yùn)維系統(tǒng)從 ITIL 遷移到
(英文和中文的組合)是一組流程、方法和系統(tǒng)的統(tǒng)稱,用于促進(jìn)開發(fā)(應(yīng)用程序/軟件工程)、技術(shù)運(yùn)營和質(zhì)量保證(QA)部門之間的溝通、協(xié)作和集成。隨著軟件行業(yè)越來越認(rèn)識(shí)到,為了按時(shí)交付軟件產(chǎn)品和服務(wù),開發(fā)和運(yùn)營必須緊密合作,這一點(diǎn)應(yīng)運(yùn)而生。
思路自然與ITIL不同
流程壓縮,響應(yīng)敏捷,效率大幅提升:
ITIL強(qiáng)調(diào)流程,但也帶來了效率的下降。在IOE時(shí)代,企業(yè)業(yè)務(wù)的變化并沒有那么頻繁,這種效率的下降并不明顯。但在互聯(lián)網(wǎng)架構(gòu)下,這種負(fù)面影響會(huì)被無限放大。
例如,運(yùn)營商發(fā)布新的系統(tǒng)版本時(shí),往往要經(jīng)過源代碼提交、編譯、打包、發(fā)布到測試環(huán)境、UAT測試、bug修改、重測,最后上線發(fā)布的過程。這個(gè)過程通常要經(jīng)過 3 -4 天。所以運(yùn)營商的版本發(fā)布一般只能以月為單位,最快也只能以周為單位。與互聯(lián)網(wǎng)行業(yè)以天為單位的商業(yè)周期相比,這個(gè)系統(tǒng)對業(yè)務(wù)變化的響應(yīng)速度太慢了。
因此,該系統(tǒng)更加強(qiáng)調(diào)效率。在持續(xù)集成、持續(xù)自動(dòng)化測試、持續(xù)部署平臺(tái)、三維監(jiān)控、技術(shù)架構(gòu)優(yōu)化等各種自動(dòng)化工具的支持下,版本發(fā)布和運(yùn)維的過程被大大壓縮,效率大大降低。大大改善。應(yīng)用版本發(fā)布頻率可以用天甚至幾小時(shí)來衡量。這種為了效率而選擇性地拋棄一些拖拖拉拉的流程管理,是IT運(yùn)維管理適應(yīng)IT更好的按需變化的更好選擇,強(qiáng)調(diào)對業(yè)務(wù)需求的更敏捷響應(yīng)。
自動(dòng)化取代了受冗長流程控制的規(guī)范流程:
另一方面,ITIL強(qiáng)調(diào)規(guī)范性,但是這種建立在流程上的規(guī)范性仍然存在很多缺陷。
按照上面運(yùn)營商的例子,即使有完善的流程控制和規(guī)范,誰也不能保證版本上線一定沒有問題。各個(gè)版本上線前后,運(yùn)維團(tuán)隊(duì)的成員依然面目全非,戰(zhàn)戰(zhàn)兢兢。
原因在于,當(dāng)技術(shù)架構(gòu)的復(fù)雜性發(fā)展到一定階段時(shí),過程往往是無用的,甚至流于形式。在大規(guī)模、多類型軟硬件設(shè)施運(yùn)維的情況下,單純依靠人的運(yùn)維體系最終將成為整個(gè)IT運(yùn)維的瓶頸。在這種情況下,很多企業(yè)嘗試將規(guī)范的操作細(xì)化為各種自動(dòng)化的操作場景,比如上面提到的持續(xù)集成、持續(xù)自動(dòng)化測試、持續(xù)部署、自動(dòng)化監(jiān)控和運(yùn)維等工具和平臺(tái)。這些高效、標(biāo)準(zhǔn)化的自動(dòng)化,徹底解放了運(yùn)維人員的壓力,
以 為例,他們的 SRE 工程師要求他們只有 30% 的時(shí)間花在事務(wù)性工作上,例如 on call,而 70% 的時(shí)間花在各種自動(dòng)化工具的開發(fā)上,例如自動(dòng)化發(fā)布系統(tǒng)、監(jiān)控系統(tǒng)、日志系統(tǒng)、服務(wù)器資源分配和編排等。這些工具需要自己開發(fā)和維護(hù)。這種在自動(dòng)化工具下的高效率自動(dòng)化操作,取代了在冗長流程控制下的規(guī)范,這也是系統(tǒng)比較明顯的一個(gè)特點(diǎn)。
開發(fā)運(yùn)維一體化:
同時(shí),ITIL背景下的分工也帶來了很多負(fù)面問題。例如,運(yùn)營團(tuán)隊(duì)的感知和認(rèn)同感較差。企業(yè)高層領(lǐng)導(dǎo)認(rèn)為,運(yùn)維工作沒有亮點(diǎn)和價(jià)值,是成本部門;大部分運(yùn)維團(tuán)隊(duì)也認(rèn)為自己是“背鍋俠”。這么多年前,我在做一個(gè)項(xiàng)目的時(shí)候,聽到某甲方運(yùn)維團(tuán)隊(duì)核心成員的抱怨:“年輕強(qiáng)者不努力,老板做運(yùn)營和維護(hù)?!?/p>
這可能也是大多數(shù)運(yùn)營商的心聲。誠然存在運(yùn)維工作成果難以量化、企業(yè)高層重視不夠等因素,但這種壁壘太明顯的開發(fā)運(yùn)維分工是也是重要原因之一。
企業(yè)開發(fā)團(tuán)隊(duì)與運(yùn)維團(tuán)隊(duì)之間形成的鴻溝,使得開發(fā)團(tuán)隊(duì)在規(guī)劃設(shè)計(jì)研發(fā)過程中過于關(guān)注功能的實(shí)現(xiàn),在一定程度上忽視了穩(wěn)定性、性能、可用??性以及運(yùn)維團(tuán)隊(duì)關(guān)心的其他因素。
同時(shí),運(yùn)維團(tuán)隊(duì)在開發(fā)初期沒有反饋和修復(fù)這些問題的渠道。結(jié)果,運(yùn)維團(tuán)隊(duì)不斷淪為“救火員”和“彎腰”,團(tuán)隊(duì)士氣低落,人才流失,運(yùn)維質(zhì)量下降,形成惡性循環(huán)。
因此,系統(tǒng)強(qiáng)調(diào)開發(fā)與運(yùn)維一體化。
開發(fā)運(yùn)維一體化使得開發(fā)和運(yùn)維的信息透明化,運(yùn)維過程中遇到的問題更有效的反饋給開發(fā)團(tuán)隊(duì)。同時(shí),運(yùn)維的責(zé)任主體由單一的運(yùn)維團(tuán)隊(duì)向開發(fā)運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變。這使得開發(fā)團(tuán)隊(duì)也對運(yùn)維中遇到的故障負(fù)責(zé),因此開發(fā)團(tuán)隊(duì)也需要將部分精力和資源投入到與運(yùn)維相關(guān)的穩(wěn)定性、性能和可用性的研發(fā)上。
當(dāng)然,這并不意味著ITIL系統(tǒng)完全過時(shí),而是需要將兩者結(jié)合企業(yè)的開發(fā)運(yùn)維特點(diǎn),形成更有效的適合企業(yè)自身的開發(fā)運(yùn)維體系。只有適合你的才是最好的。
三、運(yùn)維平臺(tái):從ITOM到AIOps
“要想做好工作,必須先利好工具?!?運(yùn)維工具是我們實(shí)現(xiàn)各種運(yùn)維操作的有效幫手。它解放了運(yùn)維人員,讓他們可以維護(hù)更多更好的各種IT系統(tǒng)。運(yùn)維系統(tǒng)的發(fā)展當(dāng)然離不開運(yùn)維工具的發(fā)展。
1、手動(dòng)操作維護(hù)
20多年前,企業(yè)IT信息化剛剛起步,IT運(yùn)維基本上還處于刀耕火種的時(shí)代。沒有所謂的運(yùn)維工具,也沒有意識(shí)到它的必要性。幾個(gè)小姑娘定時(shí)在終端上敲命令,把讀數(shù)一絲不茍地記錄在紙質(zhì)表格上,在當(dāng)時(shí)算是比較規(guī)范的運(yùn)維實(shí)踐。原因是在那個(gè)年代,需要維護(hù)的IT系統(tǒng)數(shù)量很少,一個(gè)人就能看到。
在以IOE架構(gòu)為主導(dǎo)的時(shí)代,運(yùn)維團(tuán)隊(duì)的人工維護(hù)仍占絕大多數(shù)。當(dāng)然,他們中的一些人開始總結(jié)自己的運(yùn)維操作,把一些常用的操作寫成大量的腳本,以便在從事一些機(jī)械重復(fù)的事情時(shí)可以“偷懶”。但是,人工運(yùn)維仍占現(xiàn)階段大部分工作量。
2、ITOM
在IOE架構(gòu)時(shí)代后期,互聯(lián)網(wǎng)架構(gòu)開始普及,同時(shí)隨著企業(yè)IT信息化的不斷深入,企業(yè)IT設(shè)備數(shù)量呈現(xiàn)爆發(fā)式增長,并開始逐漸成為單靠人力是無法解決的。
以我服務(wù)過的一家運(yùn)營商的客戶為例。最初的業(yè)務(wù)支持部門負(fù)責(zé)維護(hù)其核心系統(tǒng)。當(dāng)時(shí)只有 20 臺(tái)主機(jī)和幾個(gè)數(shù)據(jù)庫。然而,在接下來的幾年里,維護(hù)系統(tǒng)的規(guī)模增長了十倍,運(yùn)維團(tuán)隊(duì)的規(guī)模也只有不到一倍。維護(hù)規(guī)模和運(yùn)維團(tuán)隊(duì)的能力只會(huì)形成越來越明顯的剪刀差,成為運(yùn)維管理的核心矛盾。
然后,當(dāng)企業(yè)開始嘗試引入互聯(lián)網(wǎng)架構(gòu)時(shí),系統(tǒng)的復(fù)雜性急劇增加,維護(hù)目標(biāo)迅速增加。按照傳統(tǒng)的人工或半自動(dòng)維護(hù),更是不可能做到的。因此,為解決這一問題,企業(yè)嘗試引入各種運(yùn)維工具,通過自動(dòng)化手段解決運(yùn)維人力和能力不足的問題,IT運(yùn)維管理應(yīng)運(yùn)而生。
IT運(yùn)維管理(ITOM)是指對IT基礎(chǔ)設(shè)施和軟件應(yīng)用等對象的運(yùn)行情況進(jìn)行實(shí)時(shí)監(jiān)控和管理,并提供反饋服務(wù),確保監(jiān)控對象保持最佳運(yùn)行狀態(tài)。ITOM 領(lǐng)域的工具主要分為三大類,即:
IT運(yùn)維管理(ITOM)將從原來的手動(dòng)加被動(dòng)響應(yīng)轉(zhuǎn)變?yōu)楦咝А⒆詣?dòng)化的運(yùn)維系統(tǒng)。
以上述運(yùn)營商客戶為例,由于運(yùn)維人力的增長無法與IT系統(tǒng)規(guī)模的增長速度相匹配,企業(yè)很難對所有IT系統(tǒng)設(shè)備進(jìn)行例行狀態(tài)檢查每天早上大規(guī)模手術(shù)前。維持。
為了解決這個(gè)矛盾,我們專門部署實(shí)施了自動(dòng)化監(jiān)控運(yùn)維平臺(tái),將大量的日常操作交給機(jī)器。就像日常的檢查動(dòng)作一樣,只要定義了相關(guān)的檢查模板,機(jī)器就會(huì)按照我們定義的規(guī)范進(jìn)行十年的各種檢查操作。
如果檢查結(jié)果有異常,運(yùn)維人員手機(jī)上會(huì)出現(xiàn)報(bào)警信息,并通知相關(guān)運(yùn)維人員進(jìn)行處理。這種自動(dòng)化運(yùn)維工具系統(tǒng)的本質(zhì)是讓機(jī)器管理機(jī)器,將大量重復(fù)性、機(jī)械性的運(yùn)維工作交給機(jī)器執(zhí)行,有效降低了運(yùn)維人力資源的投入,也解放了運(yùn)維人員的精力。并投資于更重要的領(lǐng)域。
最近和運(yùn)維組的負(fù)責(zé)人聊了聊,了解到他們其實(shí)是把80%的運(yùn)維操作交給機(jī)器自動(dòng)完成。最后,他笑著說道:“其實(shí)我們現(xiàn)在的運(yùn)維團(tuán)隊(duì)除了處理突發(fā)的系統(tǒng)故障之外,最常見的事務(wù)其實(shí)就是為應(yīng)用系統(tǒng)中的各個(gè)人員創(chuàng)建賬戶和分配權(quán)限。企業(yè),我們現(xiàn)在正在開發(fā)代碼也可以自動(dòng)執(zhí)行此操作?!?/p>
3、基于運(yùn)維數(shù)據(jù)分析ITOA
ITOM系統(tǒng)為運(yùn)維帶來自動(dòng)化,使IT運(yùn)維更加高效。然而,ITOM仍然未能打破運(yùn)維工作對操作者經(jīng)驗(yàn)的依賴,往往缺乏分析能力。它雖然可以收集運(yùn)維數(shù)據(jù),但無法洞察這些數(shù)據(jù)中包含的信息,更不可能對數(shù)據(jù)做出認(rèn)知。轉(zhuǎn)型的本質(zhì)。
比如在處理分析各種故障的過程中,我們?nèi)匀灰揽坎僮魅藛T的經(jīng)驗(yàn)甚至直覺來分析處理it運(yùn)維技術(shù),在運(yùn)維決策過程中頭腦風(fēng)暴的例子層出不窮。這是因?yàn)閭鹘y(tǒng)的 ITOM 工具往往缺乏數(shù)據(jù)分析能力。雖然可以采集部分運(yùn)維數(shù)據(jù),但由于數(shù)據(jù)采集不完整,缺乏數(shù)據(jù)整合,數(shù)據(jù)之間缺乏聯(lián)系和分析手段,運(yùn)維人員無法洞察其中包含的信息。這些數(shù)據(jù),并不能對運(yùn)維背后的知識(shí)進(jìn)行本質(zhì)的提升。
因此,運(yùn)維人員開始探索基于運(yùn)維數(shù)據(jù)分析的ITOA。大數(shù)據(jù)技術(shù)的成熟,使得海量運(yùn)維數(shù)據(jù)的分析成為可能。參考業(yè)務(wù)分析領(lǐng)域的例子,我們從運(yùn)維數(shù)據(jù)的采集、處理、分析、可視化等方面著手建立綜合運(yùn)維數(shù)據(jù)分析體系。我們的運(yùn)維IT系統(tǒng)無時(shí)無刻不在產(chǎn)生海量數(shù)據(jù),其產(chǎn)生的數(shù)據(jù)量甚至可能超過我們的應(yīng)用系統(tǒng)。因此,運(yùn)維分析自然是大數(shù)據(jù)的應(yīng)用場景。
基于運(yùn)維數(shù)據(jù)實(shí)現(xiàn)ITOA
首先要解決的是數(shù)據(jù)收集問題:
由于運(yùn)維系統(tǒng)中的數(shù)據(jù)是多種多樣的,既有監(jiān)控系統(tǒng)直接采集的結(jié)構(gòu)化數(shù)據(jù),也有各種應(yīng)用日志、機(jī)器日志等非結(jié)構(gòu)化數(shù)據(jù)。
為了方便我們后續(xù)的數(shù)據(jù)分析,我們需要將難以分析的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。比如圖1-3是Web日志中的一行記錄,里面包含了很多有用的信息,比如客戶端的IP,客戶端使用的客戶端,訪問的頁面信息,以及訪問時(shí)間等關(guān)鍵信息。
圖 1-3 Web 日志中的一行
我們利用有效的工具對這些信息進(jìn)行分割,形成結(jié)構(gòu)化的信息,持續(xù)存儲(chǔ)在運(yùn)維大數(shù)據(jù)中心,如圖1-4所示:
圖 1-4 結(jié)構(gòu)化信息
大數(shù)據(jù)技術(shù)的發(fā)展也為我們提供了存儲(chǔ)海量運(yùn)維數(shù)據(jù)的基礎(chǔ):
我們可以通過大數(shù)據(jù)平臺(tái)建設(shè)我們的運(yùn)維大數(shù)據(jù)中心,從我們整個(gè)運(yùn)維IT環(huán)境中采集的運(yùn)維數(shù)據(jù)將在此基礎(chǔ)上進(jìn)行存儲(chǔ)和整合。這樣,我們就可以改變ITOM系統(tǒng)中數(shù)據(jù)分散,難以關(guān)聯(lián)分析的缺陷,因?yàn)閿?shù)據(jù)需要更多的聯(lián)系和關(guān)聯(lián),才能充分發(fā)揮其背后的價(jià)值。
例如,ITSM 系統(tǒng)中的一個(gè)孤立事件可能很難看到,但從操作數(shù)據(jù)分析的角度來看,它可能會(huì)與歷史上一系列相同的事件進(jìn)行比較,以發(fā)現(xiàn)在附近點(diǎn)的各種數(shù)據(jù)指標(biāo)之間的差異。時(shí)間。種類。運(yùn)維人員層層篩選和分析,最終通過分析找出運(yùn)維數(shù)據(jù)背后的規(guī)律,最后總結(jié)成知識(shí)庫和相關(guān)的優(yōu)化動(dòng)作。這是所有用數(shù)據(jù)說話,用數(shù)據(jù)分析代替經(jīng)驗(yàn)決策的好結(jié)果。
數(shù)據(jù)檢索能力和數(shù)據(jù)可視化能力提供保障:
當(dāng)然,運(yùn)維數(shù)據(jù)分析除了簡單地提供大數(shù)據(jù)存儲(chǔ)和分析的載體外,還需要一些必要的能力來保證運(yùn)維人員能夠更好地利用運(yùn)維數(shù)據(jù):
平臺(tái)需要具備強(qiáng)大的數(shù)據(jù)檢索能力。運(yùn)維數(shù)據(jù)分析平臺(tái)存儲(chǔ)大量運(yùn)維數(shù)據(jù)。運(yùn)維人員在嘗試建立和驗(yàn)證探索性場景時(shí),往往會(huì)反復(fù)檢索和查詢特定數(shù)據(jù)。如果運(yùn)維數(shù)據(jù)分析平臺(tái)的數(shù)據(jù)查詢速度很慢或者查詢角度很少,那么運(yùn)維人員搭建場景的時(shí)間就會(huì)延長甚至不可能。因此,運(yùn)維人員可以通過平臺(tái)實(shí)現(xiàn)關(guān)鍵詞、統(tǒng)計(jì)功能、單條件、多條件、模糊多維搜索功能it運(yùn)維技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的秒級查詢,
該平臺(tái)需要強(qiáng)大的數(shù)據(jù)可視化能力。人們常說“一張圖抵千言”。運(yùn)維人員經(jīng)常通過各個(gè)系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并生成各種實(shí)時(shí)報(bào)表,對各類運(yùn)維數(shù)據(jù)(如應(yīng)用日志、事務(wù)日志、系統(tǒng)日志)進(jìn)行統(tǒng)計(jì)分析. 多維度、多角度的深度分析和可視化,將自己的分析結(jié)果和經(jīng)驗(yàn)表達(dá)和推廣給他人。因此,平臺(tái)中具有各種旋轉(zhuǎn)數(shù)據(jù)透視表和定期報(bào)告功能非常重要。
可應(yīng)用于多種業(yè)務(wù)場景:
另外,運(yùn)維數(shù)據(jù)分析不僅用在運(yùn)維范圍內(nèi),在我們的經(jīng)驗(yàn)中,還可以用在風(fēng)險(xiǎn)分析、審計(jì)、情感分析等業(yè)務(wù)場景中。通過收集當(dāng)前環(huán)境下的運(yùn)維數(shù)據(jù),整合現(xiàn)有ITOM工具,利用大數(shù)據(jù)和數(shù)據(jù)分析技術(shù),快速定位、排查和預(yù)測IT系統(tǒng)各方面的問題。對業(yè)務(wù)環(huán)節(jié)各個(gè)分布式系統(tǒng)的數(shù)據(jù)進(jìn)行整體分析,合理優(yōu)化IT服務(wù),挖掘關(guān)鍵業(yè)務(wù)KPI指標(biāo),反饋業(yè)務(wù)方,幫助其做出明智的決策。
4、AIOps
艾瑞研究院分析預(yù)測,到2020年ITOM/ITOA市場規(guī)模將達(dá)到1.14.5億元(見圖1-5),但增速逐漸放緩,AIOps就是ITOM , ITOA 延續(xù)。
圖1-5 艾瑞預(yù)測2020年中國ITOM/ITOA市場規(guī)模將達(dá)到1.14.5億元
通過大數(shù)據(jù)和人工智能技術(shù)分析日志和運(yùn)維數(shù)據(jù),發(fā)現(xiàn)更多運(yùn)維人員沒有意識(shí)到的潛在系統(tǒng)安全和運(yùn)維問題。
在2016年發(fā)布的報(bào)告中,首次提出了基于大數(shù)據(jù)和算法(IT)的IT運(yùn)維概念。隨著人工智能的迅速崛起,AIOps的概念已經(jīng)從基于數(shù)據(jù)的分析擴(kuò)展到基于人工智能,期望通過大數(shù)據(jù)、現(xiàn)代機(jī)器學(xué)習(xí)和更先進(jìn)的分析技術(shù)提供主動(dòng)、人性化和動(dòng)態(tài)的可視化。或間接提升當(dāng)前傳統(tǒng)IT運(yùn)維(監(jiān)控、自動(dòng)化、服務(wù)臺(tái))能力。
AIOps真正的應(yīng)用和實(shí)現(xiàn)時(shí)間還很短。從目前的應(yīng)用來看,主要是基于運(yùn)維數(shù)據(jù)的集中化,以及機(jī)器學(xué)習(xí)算法在各種數(shù)據(jù)分析和挖掘工作中的應(yīng)用。主要應(yīng)用場景包括:
當(dāng)然,AIOps的應(yīng)用場景遠(yuǎn)不止這些。正是因?yàn)檫@個(gè)概念出現(xiàn)的時(shí)間不長,所以我們有更多的空間去詳細(xì)探索??偟膩碚f,從人工運(yùn)維、ITOM、ITOA、AIOps的發(fā)展路徑,體現(xiàn)了運(yùn)維自動(dòng)化、數(shù)據(jù)化、智能化的主要發(fā)展趨勢。
四、運(yùn)維核心:從關(guān)注平臺(tái)到數(shù)據(jù)資產(chǎn)
企業(yè)技術(shù)架構(gòu)的變化導(dǎo)致運(yùn)維管理方式的變化,運(yùn)維工具也在不斷與時(shí)俱進(jìn)。
總體而言,IT系統(tǒng)運(yùn)維正朝著自動(dòng)化、智能化方向發(fā)展。作為IT運(yùn)維工作本身,相信運(yùn)維工作的難度在降低,運(yùn)維的工作量也在降低。畢竟大部分工作都是交給機(jī)器來完成的。作為IT運(yùn)營商,我們未來的方向是什么,或者說未來的出路在哪里?
1、關(guān)注平臺(tái)
在經(jīng)典的企業(yè)架構(gòu)中,雖然不同的企業(yè)架構(gòu)框架理論有不同的視角,但它們對企業(yè)架構(gòu)內(nèi)容的劃分大體是一致的,基本上從以下幾個(gè)方面(或者至少包括以下幾個(gè)方面)對企業(yè)架構(gòu)進(jìn)行了描述:
一般來說,從上到下會(huì)分為業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)和基礎(chǔ)技術(shù)架構(gòu)。傳統(tǒng)上,IT系統(tǒng)運(yùn)維的主要對象是企業(yè)IT環(huán)境中的各種硬件和軟件平臺(tái),如各種主機(jī)、存儲(chǔ)、數(shù)據(jù)庫、中間件等。企業(yè)IT運(yùn)維團(tuán)隊(duì)一般關(guān)注技術(shù)架構(gòu)層面和少數(shù)應(yīng)用架構(gòu)級別(見圖 1-6).
圖 1-6 TOGAF 開放組架構(gòu)框架的企業(yè) IT 架構(gòu)模型
2、數(shù)據(jù)資產(chǎn)
然而,時(shí)代在不斷前進(jìn),企業(yè)的基礎(chǔ)技術(shù)架構(gòu)也在不斷創(chuàng)新。云化、開源、高彈性的互聯(lián)網(wǎng)架構(gòu)技術(shù)架構(gòu)逐漸成為企業(yè)架構(gòu)的主流。大量新技術(shù)的出現(xiàn)和應(yīng)用,使得集中式系統(tǒng)架構(gòu)被打破,系統(tǒng)架構(gòu)越來越云化、分布式。
首先,分布式架構(gòu)和基于云的架構(gòu)使系統(tǒng)的單點(diǎn)崩潰。隨著整體數(shù)據(jù)穩(wěn)定性的提高,對單臺(tái)設(shè)備穩(wěn)定性的要求降低。在這個(gè)前提下,數(shù)據(jù)架構(gòu)的工作更加重要,需要更多的數(shù)據(jù)架構(gòu)師和運(yùn)維人員參與到早期的系統(tǒng)業(yè)務(wù)架構(gòu)分析、數(shù)據(jù)架構(gòu)規(guī)劃、數(shù)據(jù)架構(gòu)設(shè)計(jì)、數(shù)據(jù)模型設(shè)計(jì)等工作中。
其次,如前所述,運(yùn)維相關(guān)的工具和產(chǎn)品不斷完善,不足。集中化、自動(dòng)化、智能化運(yùn)維產(chǎn)品和工具的出現(xiàn),使IT系統(tǒng)運(yùn)維智能化、自動(dòng)化成為可能,使運(yùn)維人員從重復(fù)性機(jī)械工作中解放出來,減少運(yùn)維人員的工作量,讓運(yùn)維人員承擔(dān)更重要的工作。
此外,各種軟硬產(chǎn)品也在不斷的完善自己。各種軟硬件產(chǎn)品的使用和維護(hù)“和”已成為一種趨勢:
最后,隨著信息技術(shù)特別是物聯(lián)網(wǎng)的廣泛應(yīng)用,以及網(wǎng)絡(luò)購物、移動(dòng)支付、共享經(jīng)濟(jì)、智能家居等新業(yè)態(tài)新模式的蓬勃發(fā)展,全球數(shù)據(jù)呈現(xiàn)爆發(fā)式增長和海量聚合。隨著數(shù)據(jù)量更大、維度更豐富,需要更好的數(shù)據(jù)管理方法和更好的數(shù)據(jù)利用,構(gòu)建以數(shù)據(jù)為核心的數(shù)字經(jīng)濟(jì)。核心是數(shù)據(jù)資產(chǎn)管理。
在數(shù)據(jù)資產(chǎn)化趨勢下,企業(yè)IT系統(tǒng)運(yùn)維的重點(diǎn)必須從單一的穩(wěn)定性保障轉(zhuǎn)變?yōu)閿?shù)據(jù)資產(chǎn)變現(xiàn)、增值等更高的數(shù)據(jù)資產(chǎn)管理和運(yùn)營要求。
業(yè)務(wù)側(cè)數(shù)據(jù)資產(chǎn)應(yīng)用存在諸多問題
但是,制約企業(yè)數(shù)據(jù)資產(chǎn)應(yīng)用的問題還很多。
企業(yè)數(shù)據(jù)變現(xiàn)能力薄弱,數(shù)據(jù)應(yīng)用和運(yùn)營的專業(yè)技術(shù)能力不足,難以完成預(yù)測數(shù)據(jù)的應(yīng)用場景。
運(yùn)維人員的未來趨勢
運(yùn)維人員作為IT技術(shù)與業(yè)務(wù)的接口,必然要求運(yùn)維人員向上移動(dòng)到數(shù)據(jù)資產(chǎn)管理的層面。
數(shù)據(jù)資產(chǎn)管理是將數(shù)據(jù)作為企業(yè)資產(chǎn)進(jìn)行計(jì)劃、控制和提供的一組業(yè)務(wù)功能,包括與要控制的數(shù)據(jù)相關(guān)的計(jì)劃、政策、計(jì)劃、項(xiàng)目、流程、計(jì)劃和程序的開發(fā)、執(zhí)行和監(jiān)督、保護(hù)、交付和增加數(shù)據(jù)資產(chǎn)的價(jià)值。沒有高質(zhì)量的數(shù)據(jù),企業(yè)很難做出明智有效的決策。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)資產(chǎn)管理比傳統(tǒng)時(shí)代更為重要。為企業(yè)提供透明、可靠、優(yōu)質(zhì)的數(shù)據(jù)環(huán)境。它將成為企業(yè)的核心競爭力,幫助企業(yè)提供更精準(zhǔn)的產(chǎn)品和服務(wù),降低成本。和控制風(fēng)險(xiǎn)。我們將企業(yè)數(shù)據(jù)資產(chǎn)管理概括為數(shù)據(jù)資產(chǎn)管理的五星級模型,分為五個(gè)相互關(guān)聯(lián)的層次,即數(shù)據(jù)架構(gòu)、數(shù)據(jù)治理、數(shù)據(jù)運(yùn)營、數(shù)據(jù)共享和數(shù)據(jù)變現(xiàn)(見圖1-7) .
圖1-7 新居網(wǎng)絡(luò)數(shù)據(jù)資產(chǎn)管理五星級模型
時(shí)代在變,運(yùn)維人員的工作重點(diǎn)也需要隨著時(shí)代的變化而變化。這是一個(gè)不變的規(guī)則。以數(shù)據(jù)資產(chǎn)為核心,以治理和運(yùn)營為手段,以共享和變現(xiàn)為目標(biāo),是未來企業(yè)運(yùn)維人員從基礎(chǔ)設(shè)施運(yùn)維向以數(shù)據(jù)資產(chǎn)為中心的運(yùn)維的大趨勢。
五、總結(jié)
經(jīng)過近幾年的發(fā)展,企業(yè)IT應(yīng)用系統(tǒng)的建設(shè)和運(yùn)維逐漸從以業(yè)務(wù)為導(dǎo)向向以客戶為導(dǎo)向轉(zhuǎn)變。傳統(tǒng)的IT架構(gòu)、運(yùn)維模式、運(yùn)維體系,甚至運(yùn)維對象都受到不同程度的沖擊和改造。
在這一轉(zhuǎn)型過程中,企業(yè)IT運(yùn)維面臨著業(yè)務(wù)需求不斷疊加、應(yīng)用需求交付周期不斷縮短、用戶體驗(yàn)需求不斷提升、數(shù)據(jù)資產(chǎn)價(jià)值不斷提升等問題。隨需應(yīng)變已成為當(dāng)前企業(yè)應(yīng)用系統(tǒng)轉(zhuǎn)型的主題,這要求企業(yè)擁有更靈活、可擴(kuò)展性更高的IT技術(shù)架構(gòu)、更敏捷高效的運(yùn)維系統(tǒng)、更智能的運(yùn)維。工具系統(tǒng)能夠更快速地響應(yīng)用戶端的業(yè)務(wù)需求,把滿足用戶的核心需求作為整個(gè)企業(yè)的共同愿景。
同時(shí),智能運(yùn)維工具系統(tǒng)基于數(shù)據(jù)化運(yùn)維。通過大數(shù)據(jù)、機(jī)器學(xué)習(xí)和更先進(jìn)的人工智能等分析技術(shù),直接或間接地提供主動(dòng)性、人性化和動(dòng)態(tài)可視化的能力。提升現(xiàn)有IT運(yùn)維能力,以更自動(dòng)化的運(yùn)維操作解放運(yùn)維人員,讓運(yùn)維人員更多地投入到數(shù)據(jù)分析等其他工作中,促進(jìn)企業(yè)核心業(yè)務(wù)發(fā)展.
最后,企業(yè)IT系統(tǒng)運(yùn)維的重點(diǎn)從技術(shù)架構(gòu)回歸到信息本身。企業(yè)的決策支持、運(yùn)營管理、風(fēng)險(xiǎn)控制、產(chǎn)品供應(yīng)、營銷活動(dòng)和其他服務(wù)都需要高質(zhì)量和可靠的數(shù)據(jù)。運(yùn)維人員在角色上處于技術(shù)與業(yè)務(wù)的交界處,是企業(yè)數(shù)據(jù)資產(chǎn)的理想管理者和推動(dòng)者。未來,運(yùn)維人員的工作重心將在很大程度上從技術(shù)架構(gòu)轉(zhuǎn)向數(shù)據(jù)架構(gòu)。
24小時(shí)免費(fèi)咨詢
請輸入您的聯(lián)系電話,座機(jī)請加區(qū)號(hào)