了解最新公司動(dòng)態(tài)及行業(yè)資訊
不想當(dāng)將軍??的士兵不是好士兵——拿破侖
如何成為運(yùn)營(yíng)總監(jiān)?成為運(yùn)營(yíng)總監(jiān)需要具備哪些技能?我想很多運(yùn)維工程師都會(huì)有這樣的想法和疑問(wèn)。
如何成為運(yùn)營(yíng)總監(jiān)。一般來(lái)說(shuō),運(yùn)維總監(jiān)大概有兩個(gè)出身。一是從最底層的維護(hù)做起,通過(guò)出色的維護(hù)工作,讓公司領(lǐng)導(dǎo)特別認(rèn)可這個(gè)人,同時(shí)也更加重視Linux運(yùn)維工作。進(jìn)步的立場(chǎng)。二是有企業(yè)管理背景或IT技術(shù)背景,有一定經(jīng)驗(yàn),直接進(jìn)入IT管理層面的人。
作為一名Linux運(yùn)維總監(jiān),你需要哪些技能,管理哪些細(xì)節(jié),具備哪些能力?
運(yùn)維技能設(shè)備庫(kù)
:,,/xen,kvm,lxc,,,,,RHEV
配置工具: , Chef, , func, , ,
監(jiān)控工具:Cacti、()、、基于時(shí)間的監(jiān)控后端、Mtop、MRTG(網(wǎng)絡(luò)流量監(jiān)控圖形工具)、Monit
性能監(jiān)控工具:dstat(多類(lèi)型資源統(tǒng)計(jì))、atop(htop/top)、nmon(類(lèi)Unix系統(tǒng)性能監(jiān)控)、(內(nèi)核slab緩存信息)、sar(性能監(jiān)控和困境檢測(cè))、(中間視圖) ) ), ( ), iftop (top-like tool), iperf ( tool), smem) ( video tool), ( tool)
免費(fèi)的 APM 工具:(我見(jiàn)過(guò)的最全面的分析工具),
過(guò)程監(jiān)控:,
日志系統(tǒng):,
繪圖工具:,
流控系統(tǒng):在線數(shù)據(jù)包分析工具Pcap
安全檢查:,
PaaS:,,,Deis(,,,core/)
:,,性能
持續(xù)集成:Go, ,
C盤(pán)壓測(cè):fio,,(win)
()
Redis,, codis/SSDB/
MySQL監(jiān)控:mytop,,-,,,myawr,SQL級(jí)監(jiān)控,拓?fù)淇梢暬ぞ?/p>
MySQL 基準(zhǔn)測(cè)試:, sql-bench, , 'sTPCC-,
: SOHU-, Altas, cobar,
MySQL邏輯備份工具:,,,,mk--dump/mk--
MySQL 化學(xué)備份工具:LVM
壓力測(cè)試:&
運(yùn)維管理工作概述
域名
從購(gòu)買(mǎi)一個(gè)域名開(kāi)始,購(gòu)買(mǎi)多個(gè)域名,50個(gè)甚至100個(gè)。分為主域名和推廣域名(用于推廣鏈接)。從上面買(mǎi)一個(gè)域名,因?yàn)檫@里的域名是穩(wěn)定的,不會(huì)有被攻擊的事情。同時(shí)需要購(gòu)買(mǎi)域名保護(hù),讓網(wǎng)民在ping這個(gè)域名時(shí),無(wú)法解析出真實(shí)的服務(wù)器地址。
同時(shí),域名解析的操作也不應(yīng)該在互聯(lián)網(wǎng)上進(jìn)行。解析的操作應(yīng)該放在外網(wǎng)或者外網(wǎng),或者zndns上(這個(gè)dns可以為一個(gè)域名解析多個(gè)IP地址。按照就近的原則,把最快速的IP地址解析給用戶。)也可以搭建自己的dns服務(wù)器,想著自己的dns服務(wù)器就好了。這樣,更改dns指向時(shí)會(huì)更快。
2.CDN
請(qǐng)務(wù)必購(gòu)買(mǎi) CDN 服務(wù)。如果部分用戶無(wú)法訪問(wèn),請(qǐng)使用cdn服務(wù)??梢詮纳厦嬗嗁?gòu)cdn服務(wù),這樣域名解析到cdn,然后cdn解析到肉盾墻或者任意一個(gè),然后肉盾墻指向核心服務(wù)器。cdn起到緩存和轉(zhuǎn)發(fā)的作用,在大流量攻擊時(shí)可以防御至少200G的攻擊。Cdns 被全局緩存。
3.圖像服務(wù)器
您可以在國(guó)外租用多臺(tái)服務(wù)器作為圖片緩存服務(wù)器,以提高訪問(wèn)率。雖然 nginx 本身就是一個(gè)圖片緩存服務(wù)器。
圖片服務(wù)器要和其他服務(wù)器分開(kāi),肉盾墻可以作為圖片緩存。
4.服務(wù)器機(jī)房
選擇機(jī)房非常重要。它必須具有良好的服務(wù)質(zhì)量、高防御、高可靠性和及時(shí)響應(yīng)。它還必須能夠隨時(shí)檢查服務(wù)器狀態(tài)。最重要的是要有良好的服務(wù)態(tài)度。.
機(jī)房需要購(gòu)買(mǎi)臺(tái)灣九和(用戶核心服務(wù)器),新加坡圣安娜機(jī)房(肉盾墻)(雖然速度慢,而且安全性和高防御都很棒,遇到大流量攻擊時(shí),電腦這里的房間還是可以訪問(wèn)的,所以不要把豬肉放在一個(gè)籃子里,有各檔次就好了,國(guó)外機(jī)房快,高防效果差,而日本機(jī)房慢,高防效果不錯(cuò))
5.首頁(yè)
主頁(yè),也就是招商引資的網(wǎng)站,或者變成廣告的網(wǎng)站,可以租用云主機(jī),所以被黑了就被黑了。上面可以有一個(gè)鏈接,指向游戲的首頁(yè),這個(gè)鏈接最后可以打個(gè),很簡(jiǎn)單。
也可以不帶終端口號(hào)。這時(shí)候一定要使用cdn服務(wù)器,或者使用免錄機(jī)房,將肉盾墻放置在免錄機(jī)房。由于所有在國(guó)外建的網(wǎng)站都需要注冊(cè),所以賭博行業(yè)是嚴(yán)禁的,為了防止域名或IP地址被和諧(gwf),所以使用免備案機(jī)房。
或者在臺(tái)灣或日本或日本等機(jī)房放置肉盾墻。這樣,用戶可以直接使用域名訪問(wèn)我們的網(wǎng)站,而不需要使用終端標(biāo)語(yǔ)。
6.監(jiān)控系統(tǒng)
一個(gè)網(wǎng)站需要有一個(gè)監(jiān)控系統(tǒng),可以實(shí)時(shí)監(jiān)控服務(wù)器,看是否有電力攻擊,查看日志是否暴漲,將日志放到日志服務(wù)器(服務(wù))上。使用 cacti 服務(wù),您可以將日志放在 cacti 上。網(wǎng)速一定要查,網(wǎng)速飛漲一定要證明一定是攻擊成功。
每天晚上看日志,使用日志分析軟件,看訪問(wèn)源是單個(gè)訪問(wèn)源還是多個(gè)不同訪問(wèn)源。監(jiān)控服務(wù)器必須具有報(bào)告功能。一旦情況出現(xiàn)異常,立即報(bào)告,然后早起應(yīng)對(duì)襲擊。
7.反灌籃
權(quán)力攻擊通常視情況而定,通常的權(quán)力攻擊是直接攻擊域名。nginx及其自身的防御功能可以防止少量的power攻擊。因?yàn)榇罅康碾娏糁苯诱加镁W(wǎng)絡(luò)帶寬,服務(wù)器很難正常響應(yīng),只能利用機(jī)房的高防御。
所以要買(mǎi)很多高防的,建議至少200G。如果攻擊的來(lái)源是單個(gè)IP??或多個(gè)IP,就讓機(jī)房封鎖這些IP。遇到cc或ddos攻擊時(shí),只能通過(guò)機(jī)房解決。服務(wù)器被黑后,需要立即將域名指向另一臺(tái)服務(wù)器(或直接將域名指向百度)。
大量的權(quán)力攻擊也需要用到CDN,讓CDN直接指向核心服務(wù)器就夠了,這樣可以更快,用戶還能玩。事實(shí)上,高流量的力量攻擊是無(wú)法完全避免的。
8.冗余
網(wǎng)站必須有冗余。例如,1000 人可以同時(shí)訪問(wèn)。網(wǎng)站的負(fù)載必須達(dá)到 2,000 個(gè)并發(fā)用戶。
9.服務(wù)器
服務(wù)器的配置需要三張網(wǎng)卡,一張用于用戶連接和外部訪問(wèn)(更好的網(wǎng)卡)。一種用于外網(wǎng)服務(wù)器之間的訪問(wèn)。一個(gè)是用來(lái)ssh管理的,所以我們也可以在攻擊比較多的時(shí)候操作服務(wù)器。
每個(gè)網(wǎng)卡也需要多個(gè)IP地址,以免某個(gè)IP被阻塞。國(guó)外網(wǎng)絡(luò)和美國(guó)網(wǎng)絡(luò)經(jīng)常有IP不好用。硬盤(pán)至少要鏡像(raid1),cpu必須是雙向的,雙電源,其實(shí)應(yīng)該不會(huì)出現(xiàn)單點(diǎn)故障的。至于肉盾墻的配置可以再低點(diǎn),連臺(tái)式機(jī)的配置都可以,而且網(wǎng)絡(luò)一定要好,尤其是有核心服務(wù)器的網(wǎng)絡(luò)一定要好。
10.數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)需要主從復(fù)制,必須有異地備份,nginx服務(wù)器需要集群,也就是。前臺(tái)(提供用戶訪問(wèn)頁(yè)面)和后臺(tái)(員工管理界面)應(yīng)該使用兩臺(tái)不同的機(jī)器,互不影響。其余的服務(wù)可以使用虛擬機(jī)完成。
這樣可以省錢(qián)。郵箱直接購(gòu)買(mǎi)的gmail商務(wù)郵箱就可以了。這是非常容易使用。最好沒(méi)有人擁有?;蛘咴诠緝?nèi)部搭建自己的聊天軟件(最好借錢(qián)買(mǎi)聊天軟件)。
11.測(cè)試環(huán)境
需要三套測(cè)試環(huán)境。開(kāi)發(fā)者需要自己的筆記本上的環(huán)境,局域網(wǎng)上的一套測(cè)試環(huán)境,互聯(lián)網(wǎng)上的一套測(cè)試環(huán)境,以及生產(chǎn)環(huán)境。局域網(wǎng)的測(cè)試環(huán)境一定要穩(wěn)定。可以買(mǎi)一個(gè)機(jī)柜和其他網(wǎng)絡(luò)設(shè)備一起買(mǎi),不要用普通的筆記本。局域網(wǎng)必須有svn或git代碼管理工具。全面測(cè)試后,上傳到生產(chǎn)環(huán)境。
12.肉盾墻和核心服務(wù)器
肉盾墻和核心服務(wù)器之間必須能ping通命令,這樣才能看到哪個(gè)IP地址不能用,才能看到網(wǎng)絡(luò)連通性。
13.運(yùn)維人員
至少兩個(gè),如果有一個(gè)運(yùn)維主管和一個(gè)運(yùn)維人員就足夠了。這樣,所有的運(yùn)維工作都必須有操作文件,兩個(gè)人協(xié)同工作,不需要輪班,24小時(shí)隨叫隨到。一個(gè)網(wǎng)絡(luò)管理員就足夠了。
普通的運(yùn)維部門(mén)就是這樣。如果是大型網(wǎng)絡(luò)架構(gòu),會(huì)有自己的數(shù)據(jù)中心機(jī)房,后期安排人員。
14.Linux系統(tǒng)優(yōu)化與安全
一定要有優(yōu)化和安全配置,比如nginx是基于cpu優(yōu)化的,每個(gè)程序都是基于cpu和顯存的限制。
所有密碼應(yīng)每 3 個(gè)月更改一次,尤其是域名的帳戶和電子郵件密碼。域名是最重要也是最容易受到攻擊的環(huán)節(jié)。
15.局域網(wǎng)
局域網(wǎng)一定要穩(wěn)定,可以買(mǎi)兩條至少10M帶寬的網(wǎng)線,也可以買(mǎi)聯(lián)通wifi,讓員工手機(jī)上網(wǎng)。
16.機(jī)房
如果是小型網(wǎng)絡(luò)架構(gòu),必須有自己的核心機(jī)房,而不是租用機(jī)房。每個(gè)職位由幾個(gè)人組成,包括運(yùn)維工程師、數(shù)據(jù)庫(kù)管理工程師、網(wǎng)絡(luò)工程師、安全工程師、存儲(chǔ)和備份系統(tǒng)。具有運(yùn)維經(jīng)驗(yàn)的工程師負(fù)責(zé)協(xié)調(diào)各部門(mén)之間的工作。目前,一個(gè)運(yùn)維就可以完成所有的工作。
17.運(yùn)維工具
運(yùn)維的工具要統(tǒng)一,比如使用連接數(shù)據(jù)庫(kù)的工具,使用crt工具連接服務(wù)器,使用密碼管理工具,使用上傳服務(wù)器代碼的工具等。運(yùn)維人員協(xié)調(diào)性更好。
此外,運(yùn)維必須有大量的時(shí)間去學(xué)習(xí)。每天都要上網(wǎng)找新技術(shù)、好資料,而且最好懂英文,因?yàn)楹玫募夹g(shù)文檔都是用英文寫(xiě)的。這對(duì)運(yùn)維工作很有幫助,但運(yùn)維的技術(shù)實(shí)力會(huì)大大提高,并計(jì)劃滿足更大的需求。
18.災(zāi)難恢復(fù)計(jì)劃
最后,要有一個(gè)計(jì)劃,就是一旦服務(wù)器出現(xiàn)大問(wèn)題,就無(wú)法解決。這個(gè)時(shí)候不要解決服務(wù)器,使用計(jì)劃,啟用備份計(jì)劃,盡快使網(wǎng)站可用。
平時(shí)多做計(jì)劃演練,也多做備份還原操作,因?yàn)橛行﹤浞莶豢捎茫@是普遍現(xiàn)象。關(guān)鍵時(shí)刻不要讓備份不可用,整個(gè)網(wǎng)站就完蛋了。
19.服務(wù)器安全
必須有一套完整的安全配置,包括用戶安全、應(yīng)用安全、系統(tǒng)安全、文件安全等。這樣可以防止服務(wù)器被黑客入侵。
20.高并發(fā)測(cè)試
一定要做高并發(fā)測(cè)試,模擬2000個(gè)同時(shí)在線用戶,看服務(wù)器負(fù)載,服務(wù)器高并發(fā)配置。網(wǎng)絡(luò)方面是機(jī)房問(wèn)題,要選擇最合適的IP地址、最合適的機(jī)房、出口帶寬。
高并發(fā)是服務(wù)器架構(gòu)的問(wèn)題,而不僅僅是單個(gè)服務(wù)器。應(yīng)該花的地方一定要花,能省錢(qián)的地方一定要懂得省錢(qián)。
21.運(yùn)維信息
所有運(yùn)維信息由兩個(gè)人共享,包括密碼和服務(wù)器配置步驟。團(tuán)隊(duì)由運(yùn)維總監(jiān)帶隊(duì)服務(wù)器運(yùn)維,形成了一個(gè)相互學(xué)習(xí)、技術(shù)實(shí)力強(qiáng)、目標(biāo)一致的和諧團(tuán)隊(duì)。讓團(tuán)隊(duì)中的每個(gè)人都得到他們想要的。
運(yùn)維總監(jiān)的人很重要,否則,留不住人,就不會(huì)一起努力。運(yùn)維工作技術(shù)不是最重要的。由于學(xué)習(xí)和使用這個(gè)職位已經(jīng)來(lái)不及了,所以工作心態(tài)/個(gè)性和經(jīng)驗(yàn)是最重要的。
22.服務(wù)器日志
對(duì)于服務(wù)器搭建日志,必須記錄所有服務(wù)器的所有操作,并寫(xiě)入時(shí)間操作的內(nèi)容。在生產(chǎn)服務(wù)器上運(yùn)行之前,必須進(jìn)行風(fēng)險(xiǎn)評(píng)估和解決方案。
23.運(yùn)維工作
應(yīng)用上線后,運(yùn)維工作才剛剛開(kāi)始。具體工作可能包括:升級(jí)版本上線工作、服務(wù)監(jiān)控、應(yīng)用狀態(tài)統(tǒng)計(jì)、日常服務(wù)狀態(tài)檢查、突發(fā)故障處理、日常服務(wù)變更調(diào)整、集群管理、服務(wù)性能評(píng)估與優(yōu)化、數(shù)據(jù)庫(kù)管理優(yōu)化、應(yīng)用框架擴(kuò)展,隨著應(yīng)用 PV 的增減,安全、運(yùn)維的發(fā)展。
核心運(yùn)維管理工具箱
重點(diǎn)介紹了運(yùn)維流程管理、運(yùn)維發(fā)布變更、運(yùn)維監(jiān)控告警三個(gè)具體工具,可以作為工作日記使用。
第一類(lèi):運(yùn)維流程管理工具
1.發(fā)布變更流程管理工具
作為系統(tǒng)套接字與其他角色進(jìn)行連接工作。并提供審批鏈接,控制發(fā)布變更的風(fēng)險(xiǎn)。流程管理工具不負(fù)責(zé)具體業(yè)務(wù)操作的執(zhí)行,而只是作為一個(gè)收據(jù)系統(tǒng)來(lái)跟蹤流程并確保閉環(huán)。
2.警報(bào)和事件管理工具
手動(dòng)創(chuàng)建和管理突出服務(wù)損壞的警報(bào)。人工確認(rèn)后,升級(jí)為緊急訂單。通過(guò)創(chuàng)建訂單來(lái)管理告警和突發(fā)事件,保證流程的閉環(huán),每次故障都可以總結(jié)經(jīng)驗(yàn),提供KPI,無(wú)需衡量業(yè)務(wù)的可用性。
第二類(lèi):運(yùn)維發(fā)布變更工具
1.版本管理工具(數(shù)據(jù)庫(kù))
所有版本都應(yīng)該從版本管理開(kāi)始。開(kāi)發(fā)的版本包首先放入版本管理工具,然后從版本管理工具分發(fā)到現(xiàn)網(wǎng)。避免將一臺(tái)服務(wù)器同步到另一臺(tái)服務(wù)器的做法。
2.配置管理工具(數(shù)據(jù)庫(kù))
版本加配置等于現(xiàn)網(wǎng)每臺(tái)機(jī)器的狀態(tài)。最細(xì)粒度的配置管理到IP級(jí)別,相當(dāng)于機(jī)器的資產(chǎn)管理,分為模塊、區(qū)域等不同的業(yè)務(wù)概念。一點(diǎn)粒度將管理流程和流程的相關(guān)配置。
3.配置和版本分發(fā)工具
指定的版本,結(jié)合配置的配置,下發(fā)到現(xiàn)有網(wǎng)絡(luò)上的機(jī)器上。不同的版本和配置方式需要完全不同的交付形式。ssh/ 代表的交付方式是以腳本為中心的。/chef 所代表的交付方式是以配置為中心的。
4.直播網(wǎng)絡(luò)狀態(tài)同步工具
為避免現(xiàn)網(wǎng)狀態(tài)漂移,與管理工具中的記錄不一致。需要有一個(gè)工具來(lái)定期報(bào)告現(xiàn)網(wǎng)的實(shí)際狀態(tài)。
5.服務(wù)調(diào)度工具
發(fā)布更改通常需要一個(gè)串行過(guò)程,首先做 A 模塊,然后是 B 模塊。當(dāng)機(jī)器多時(shí),需要并發(fā)執(zhí)行并發(fā)操作,并保證非并發(fā)操作的串行執(zhí)行。同時(shí),很多發(fā)布變更流程都需要超出運(yùn)營(yíng)管理范圍的服務(wù),比如云中的DNS服務(wù)器記錄。這就需要一個(gè)用于統(tǒng)一調(diào)度配置和版本分發(fā)的服務(wù)調(diào)度工具,一個(gè)進(jìn)程接收工具,以及將其他系統(tǒng)的API套接字組裝成一個(gè)進(jìn)程。
6.資源管理和隔離工具
以xen/kvm為代表的工具可以讓運(yùn)維更靈活地削減資源。比如虛擬機(jī)的快速啟動(dòng)和停止,idc中ip的甩尾等。以lxc/為代表的工具可以讓運(yùn)維進(jìn)一步削減資源到進(jìn)程級(jí)別。資源隔離代理的細(xì)粒度資源控制可以帶來(lái)更好的資源利用率和更容易擴(kuò)展的資源配置。
7.發(fā)布變更的統(tǒng)一接口
它封裝了所有上層工具,并提供了一個(gè)簡(jiǎn)單的接口來(lái)完成標(biāo)準(zhǔn)化的發(fā)布和更改操作。
第三類(lèi):運(yùn)維監(jiān)控報(bào)警工具
1.收集工具
通常是日志文件的集合,也可以是 DB 或其他系統(tǒng)定期尋址的套接字。一個(gè)流行的開(kāi)源解決方案是 .
2.采集工具
采集工具上報(bào)采集工具?;蛘?,開(kāi)發(fā)者可以直接修改代碼,將指標(biāo)上報(bào)給采集工具。該過(guò)程的開(kāi)源解決方案仍然存在。
3.統(tǒng)計(jì)庫(kù)存工具
報(bào)告可能每次調(diào)用都會(huì)上報(bào)一次,統(tǒng)計(jì)工具負(fù)責(zé)統(tǒng)計(jì)一分鐘內(nèi)的次數(shù)。報(bào)告也可能每5秒報(bào)告一次數(shù)值,統(tǒng)計(jì)工具負(fù)責(zé)計(jì)算一分鐘內(nèi)的最大值。存在便于報(bào)告的統(tǒng)計(jì)工具。流行的開(kāi)源方案是也有大公司基于Storm做二次開(kāi)發(fā)。
4.時(shí)間序列數(shù)據(jù)庫(kù)
所有時(shí)間指標(biāo)都將進(jìn)入數(shù)據(jù)庫(kù)。監(jiān)控告警所需的數(shù)據(jù)庫(kù)需要支持特別大的數(shù)據(jù)量,但沒(méi)有嚴(yán)格的ACID要求。
5.運(yùn)維風(fēng)暴數(shù)據(jù)庫(kù)
記錄所有警報(bào)。包括從其他系統(tǒng)獲取警報(bào),記錄現(xiàn)有網(wǎng)絡(luò)的所有變化。該數(shù)據(jù)用于支持警報(bào)的因果位置。
6.指標(biāo)異常檢查工具
基于物理模型,判斷指標(biāo)是否偏離過(guò)去的穩(wěn)定模式,推斷網(wǎng)絡(luò)狀態(tài)的變化。
7.撥號(hào)測(cè)試工具
定期PING或HTTP GET,模擬真實(shí)用戶,判斷服務(wù)是否中斷,并形成告警。同時(shí),也形成指標(biāo)并上報(bào)采集系統(tǒng)。撥號(hào)測(cè)試分為本地?fù)芴?hào)測(cè)試和遠(yuǎn)程撥號(hào)測(cè)試。本地?fù)鼙P(pán)測(cè)試可用于檢測(cè)只讀C盤(pán)等本地告警。遠(yuǎn)程撥號(hào)測(cè)試可以模擬用戶的地理分布,網(wǎng)絡(luò)鏈路狀態(tài)也包含在撥號(hào)測(cè)試的覆蓋范圍內(nèi)。
8.報(bào)警收斂工具
綜合各種來(lái)源的告警,進(jìn)行頻率收斂,分析問(wèn)題的癥結(jié)所在。統(tǒng)一匯總成報(bào)告,督促人工維修。
9.警報(bào)手動(dòng)修補(bǔ)工具
接收手動(dòng)處理的警報(bào)。幫助運(yùn)維人員完成將固定故障機(jī)下架退回倉(cāng)庫(kù)的操作。或者,如果服務(wù)本身不高可用,可以在現(xiàn)網(wǎng)進(jìn)行故障機(jī)更換、IP拖尾等修復(fù)操作,在一定程度上提高服務(wù)可用性。
10.報(bào)警通知工具
重要的警報(bào)需要升級(jí)到電話。需要有高可用的電話、郵件、陌陌等通知套接字。
11.監(jiān)控報(bào)警統(tǒng)一界面
屏蔽各種上層工具,為代理安裝、指標(biāo)采集設(shè)置、指標(biāo)曲線展示、告警查詢提供統(tǒng)一的界面。一個(gè)地方可以了解當(dāng)前網(wǎng)絡(luò)的所有問(wèn)題。
優(yōu)秀運(yùn)維總監(jiān)的能力
1、系統(tǒng)架構(gòu)設(shè)計(jì)和規(guī)劃能力。作為技術(shù)工程師,你更關(guān)注具體的技術(shù)、問(wèn)題分析、故障排除等細(xì)節(jié),而作為運(yùn)維總監(jiān),你需要站在全局的高度,把控各個(gè)環(huán)節(jié)的需求。規(guī)劃設(shè)計(jì)系統(tǒng)架構(gòu),實(shí)現(xiàn)高效穩(wěn)定的IT系統(tǒng)。
2、量化和管理問(wèn)題的能力。熟悉ITIL及相關(guān)運(yùn)維工具,通過(guò)運(yùn)維管理工具,跟蹤風(fēng)暴進(jìn)程,實(shí)現(xiàn)整個(gè)IT系統(tǒng)的統(tǒng)一協(xié)調(diào);通過(guò)運(yùn)維管理工具,幫助運(yùn)維人員監(jiān)控和定位問(wèn)題的癥結(jié)所在;通過(guò)知識(shí)庫(kù)的積累可以有效解決人事變動(dòng)后的管理問(wèn)題??梢哉f(shuō),IT系統(tǒng)不僅需要人的運(yùn)維,要想發(fā)揮IT系統(tǒng)的最大作用,還需要借助工具來(lái)量化和規(guī)范化管理。我們可以使用一些手動(dòng)工具來(lái)收集和輸出更全面的監(jiān)測(cè)預(yù)警信息,變被動(dòng)運(yùn)維為主動(dòng)運(yùn)維;可以使用人工運(yùn)維工具,將多點(diǎn)集中管理減少到一個(gè)點(diǎn),可以更好的簡(jiǎn)化運(yùn)維工作量,提高運(yùn)維效率。標(biāo)準(zhǔn)流程清晰明了,這樣當(dāng)出現(xiàn)問(wèn)題時(shí),不會(huì)出現(xiàn)A部門(mén)要求B部門(mén)反饋,B部門(mén)要求C部門(mén)處理的情況。C 可能會(huì)說(shuō)是 D 部門(mén)的問(wèn)題,導(dǎo)致一個(gè)很簡(jiǎn)單的問(wèn)題無(wú)法得到。及時(shí)有效的處理不僅影響業(yè)務(wù)本身,也影響部門(mén)之間的投訴??梢允褂萌斯み\(yùn)維工具,將多點(diǎn)集中管理減少到一個(gè)點(diǎn),可以更好的簡(jiǎn)化運(yùn)維工作量,提高運(yùn)維效率。標(biāo)準(zhǔn)流程清晰明了,這樣當(dāng)出現(xiàn)問(wèn)題時(shí),不會(huì)出現(xiàn)A部門(mén)要求B部門(mén)反饋,B部門(mén)要求C部門(mén)處理的情況。C 可能會(huì)說(shuō)是 D 部門(mén)的問(wèn)題,導(dǎo)致一個(gè)很簡(jiǎn)單的問(wèn)題無(wú)法得到。及時(shí)有效的處理不僅影響業(yè)務(wù)本身,也影響部門(mén)之間的投訴??梢允褂萌斯み\(yùn)維工具,將多點(diǎn)集中管理減少到一個(gè)點(diǎn),可以更好的簡(jiǎn)化運(yùn)維工作量,提高運(yùn)維效率。標(biāo)準(zhǔn)流程清晰明了,這樣當(dāng)出現(xiàn)問(wèn)題時(shí),不會(huì)出現(xiàn)A部門(mén)要求B部門(mén)反饋,B部門(mén)要求C部門(mén)處理的情況。C 可能會(huì)說(shuō)是 D 部門(mén)的問(wèn)題,導(dǎo)致一個(gè)很簡(jiǎn)單的問(wèn)題無(wú)法得到。及時(shí)有效的處理不僅影響業(yè)務(wù)本身,也影響部門(mén)之間的投訴。不會(huì)出現(xiàn)A部門(mén)要求B部門(mén)反饋,B部門(mén)要求C部門(mén)處理的情況。C 可能會(huì)說(shuō)是 D 部門(mén)的問(wèn)題,導(dǎo)致一個(gè)很簡(jiǎn)單的問(wèn)題無(wú)法得到。及時(shí)有效的處理不僅影響業(yè)務(wù)本身,也影響部門(mén)之間的投訴。不會(huì)出現(xiàn)A部門(mén)要求B部門(mén)反饋,B部門(mén)要求C部門(mén)處理的情況。C 可能會(huì)說(shuō)是 D 部門(mén)的問(wèn)題,導(dǎo)致一個(gè)很簡(jiǎn)單的問(wèn)題無(wú)法得到。及時(shí)有效的處理不僅影響業(yè)務(wù)本身,也影響部門(mén)之間的投訴。
3、團(tuán)隊(duì)的管理和協(xié)調(diào)。大多數(shù)時(shí)候,運(yùn)維人員都在做簡(jiǎn)單重復(fù)的工作,很難得到終端用戶的肯定。曾經(jīng)有一個(gè)詞“窮困潦倒”來(lái)形容運(yùn)維工程師。工作站上沒(méi)有人。剛坐下,電話就不停地打來(lái)。有什么問(wèn)題需要解決,就會(huì)有人來(lái)找你。這樣的場(chǎng)景大家應(yīng)該都有體會(huì)吧。標(biāo)準(zhǔn)化流程的制定尤為重要。不僅方便了問(wèn)題的排序,還可以讓對(duì)應(yīng)的問(wèn)題找到對(duì)應(yīng)的人。這對(duì)于運(yùn)維來(lái)說(shuō)非常重要,也有利于團(tuán)隊(duì)協(xié)作。作為運(yùn)維總監(jiān),還要關(guān)心團(tuán)隊(duì)中的每一位成員,協(xié)調(diào)好每一位工程師的工作時(shí)間和CASE,合理安排工作任務(wù)。另外,肯定每一位工程師的努力,對(duì)他們的優(yōu)秀工作給予積極的肯定和表?yè)P(yáng),有助于凝聚人心,培養(yǎng)團(tuán)隊(duì)的榮譽(yù)感。
4、資產(chǎn)管理和審計(jì)能力。準(zhǔn)確了解公司現(xiàn)有IT資產(chǎn)和設(shè)備,對(duì)設(shè)備進(jìn)行整治,明確每臺(tái)設(shè)備的磨損和維護(hù)信息。當(dāng)公司需要購(gòu)買(mǎi)新機(jī)器時(shí),會(huì)有明確的數(shù)據(jù)支持您的購(gòu)買(mǎi)請(qǐng)求。當(dāng)設(shè)備出現(xiàn)故障或變化時(shí),通過(guò)以往的數(shù)據(jù),可以實(shí)時(shí)掌握第一手準(zhǔn)確數(shù)據(jù)。并且隨著公司業(yè)務(wù)的發(fā)展和分支機(jī)構(gòu)和員工的增加,資產(chǎn)管理和審計(jì)將變得更加重要,IT運(yùn)維支持的意義將更加巨大。
5、能夠形成運(yùn)維梯隊(duì),合理匹配運(yùn)維資源。人員管理問(wèn)題在運(yùn)維中更為重要。很多情況下服務(wù)器運(yùn)維,由于運(yùn)維工作分配不合理,難以準(zhǔn)確評(píng)估績(jī)效。如果將運(yùn)維人員劃分為一、二、三線支持,不同運(yùn)維人員各司其職,使有限的運(yùn)維力量得到合理利用,整體工作效率將顯著提高;評(píng)估他們的工作表現(xiàn)。據(jù)此,制定相應(yīng)的獎(jiǎng)懲措施,或者針對(duì)不同的崗位提供不同的服務(wù)技能培訓(xùn),也可以提高員工的積極性。例如,將所有 IT 問(wèn)題匯總到技術(shù)服務(wù)臺(tái)。對(duì)于絕大多數(shù)(80%以上)的問(wèn)題,服務(wù)臺(tái)可以直接解決;如果服務(wù)臺(tái)無(wú)法解決問(wèn)題,則根據(jù)問(wèn)題處理的優(yōu)先級(jí)分配不同級(jí)別的運(yùn)維。動(dòng)力保證不同問(wèn)題的處理,運(yùn)維人員不會(huì)錯(cuò)過(guò)需要及時(shí)處理的重大問(wèn)題。如果服務(wù)臺(tái)無(wú)法解決問(wèn)題,則根據(jù)問(wèn)題處理的優(yōu)先級(jí)分配不同級(jí)別的運(yùn)維。動(dòng)力保證不同問(wèn)題的處理,運(yùn)維人員不會(huì)錯(cuò)過(guò)需要及時(shí)處理的重大問(wèn)題。如果服務(wù)臺(tái)無(wú)法解決問(wèn)題,則根據(jù)問(wèn)題處理的優(yōu)先級(jí)分配不同級(jí)別的運(yùn)維。動(dòng)力保證不同問(wèn)題的處理,運(yùn)維人員不會(huì)錯(cuò)過(guò)需要及時(shí)處理的重大問(wèn)題。
6、技術(shù)創(chuàng)新和積累能力。運(yùn)維總監(jiān)本人需要有很強(qiáng)的技術(shù)能力,需要熟悉各種設(shè)備、不同的操作系統(tǒng)、各個(gè)環(huán)節(jié)中的應(yīng)用、數(shù)據(jù)庫(kù)、存儲(chǔ)、備份容災(zāi)、調(diào)優(yōu)、安全等。有具體問(wèn)題和重大問(wèn)題,要聽(tīng)取團(tuán)隊(duì)的意見(jiàn),讓計(jì)劃因您的補(bǔ)充和建議而更加確定。很多時(shí)候,在具體細(xì)節(jié)的處理上會(huì)有技術(shù)創(chuàng)新,同時(shí)也是對(duì)你的一次學(xué)習(xí)和積累。針對(duì)每個(gè)主要問(wèn)題和處理過(guò)的典型問(wèn)題,編寫(xiě)技術(shù)文檔,并隨著時(shí)間的推移生成知識(shí)庫(kù)。
7、見(jiàn)面和分享的能力。會(huì)議有時(shí)是一種很好的交流方式,但顯然有時(shí)你可能會(huì)厭倦它們。這可能是由于其程式化、單句或題外話,無(wú)法解決實(shí)際問(wèn)題。盡管會(huì)議的作用是:
規(guī)范化:為您的項(xiàng)目、任務(wù)、工作理解、反饋、描述、執(zhí)行等帶來(lái)一致性。降低內(nèi)部溝通成本,提高團(tuán)隊(duì)效率。
可視化:追求項(xiàng)目的可視化是項(xiàng)目管理的最高境界。層層分解,需要各級(jí)管理者對(duì)項(xiàng)目和任務(wù)的進(jìn)度、風(fēng)險(xiǎn)和問(wèn)題進(jìn)行一目了然的管理。
項(xiàng)目管理:通過(guò)團(tuán)隊(duì)各個(gè)維度的管理,項(xiàng)目管控、人員工作安排、團(tuán)隊(duì)學(xué)習(xí)提升、工作方向調(diào)整等。
理念貫徹與方向:貫徹公司文化和團(tuán)隊(duì)文化,統(tǒng)一你的理念和模式。傳達(dá)內(nèi)部領(lǐng)導(dǎo)的指示部署,明確下一步工作的重點(diǎn)和方向。
解決具體問(wèn)題:針對(duì)難點(diǎn),提供指導(dǎo)或集思廣益,集思廣益。
最后談?wù)勅绾纬蔀橐幻麅?yōu)秀的運(yùn)維總監(jiān)。誰(shuí)是優(yōu)秀的運(yùn)維總監(jiān)?他們具備以上七種能力才能優(yōu)秀嗎?許多人的腦海中似乎有不同的定義。我認(rèn)為優(yōu)秀經(jīng)理需要具備的素質(zhì)之一就是帶領(lǐng)團(tuán)隊(duì)不斷進(jìn)步。并擁有永無(wú)止境的精神。
看看,這么多能力,你缺什么?
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)