了解最新公司動(dòng)態(tài)及行業(yè)資訊
互聯(lián)網(wǎng)運(yùn)維工作以服務(wù)為中心,以穩(wěn)定、安全、高效為三大基本點(diǎn),確保公司互聯(lián)網(wǎng)業(yè)務(wù)7×24小時(shí)為用戶提供優(yōu)質(zhì)服務(wù)。
p>
運(yùn)維人員加強(qiáng)公司互聯(lián)網(wǎng)業(yè)務(wù)所依賴的基礎(chǔ)設(shè)施、基礎(chǔ)服務(wù)、線上業(yè)務(wù)的穩(wěn)定性,進(jìn)行日常檢查,發(fā)現(xiàn)服務(wù)中可能存在的隱患,優(yōu)化整體結(jié)構(gòu),屏蔽常見的操作故障,多數(shù)據(jù)訪問提升了業(yè)務(wù)的容災(zāi)能力。
通過監(jiān)控、日志分析等技術(shù)手段,及時(shí)發(fā)現(xiàn)并響應(yīng)服務(wù)故障,減少服務(wù)中斷時(shí)間,使公司互聯(lián)網(wǎng)業(yè)務(wù)達(dá)到預(yù)期的可用性要求,持續(xù)穩(wěn)定地為用戶提供服務(wù)。
在安全方面,運(yùn)維人員需要關(guān)注業(yè)務(wù)運(yùn)營所涉及的各個(gè)層面,確保用戶能夠安全、完整地訪問在線服務(wù)。
從網(wǎng)絡(luò)邊界劃分、ACL管理、流量分析、DDoS防御,到操作系統(tǒng)和開源軟件的漏洞掃描和修補(bǔ),再到應(yīng)用服務(wù)的XSS和SQL注入防護(hù);
從安全流程梳理、代碼白盒黑盒掃描、權(quán)限審計(jì)、入侵檢測、業(yè)務(wù)風(fēng)控等方面
運(yùn)維人員需要保證公司提供的互聯(lián)網(wǎng)業(yè)務(wù)在安全可控的狀態(tài)下運(yùn)行it運(yùn)維,保證公司業(yè)務(wù)數(shù)據(jù)和用戶隱私數(shù)據(jù)的安全,同時(shí)需要具備抵御各種惡意攻擊的能力。
在保證業(yè)務(wù)穩(wěn)定安全的前提下,還要保證業(yè)務(wù)的高效運(yùn)作和公司內(nèi)部的快速產(chǎn)出。運(yùn)維工作需要對業(yè)務(wù)的各個(gè)方面進(jìn)行優(yōu)化。
例如,IO優(yōu)化提升數(shù)據(jù)庫性能,圖片壓縮減少帶寬占用等。提供的互聯(lián)網(wǎng)服務(wù)以更少的資源投入,帶來最大的用戶價(jià)值和體驗(yàn)。
同時(shí),還需要通過各種工具平臺(tái)提高內(nèi)部產(chǎn)品發(fā)布和交付的效率,提高公司內(nèi)部與運(yùn)維相關(guān)的工作效率。
工作分類運(yùn)維
運(yùn)維工作多方位。隨著業(yè)務(wù)規(guī)模的不斷發(fā)展,互聯(lián)網(wǎng)公司越成熟,運(yùn)維崗位也會(huì)越細(xì)。
目前,很多大型互聯(lián)網(wǎng)公司在初期只進(jìn)行系統(tǒng)運(yùn)維,根據(jù)服務(wù)規(guī)模和服務(wù)質(zhì)量的要求逐步細(xì)分工作。
運(yùn)維團(tuán)隊(duì)一般的工作分類(見圖1-1),職責(zé)如下。
系統(tǒng)運(yùn)維
系統(tǒng)運(yùn)維負(fù)責(zé)IDC、網(wǎng)絡(luò)、CDN和基礎(chǔ)服務(wù)(LVS、NTP、DNS)的建設(shè);負(fù)責(zé)資產(chǎn)管理、服務(wù)器選擇、交付和維護(hù)。具體職責(zé)如下:
1.IDC數(shù)據(jù)中心建設(shè)
收集業(yè)務(wù)需求,預(yù)估未來數(shù)據(jù)中心的發(fā)展規(guī)模,從骨干網(wǎng)分布、數(shù)據(jù)中心樓宇、接入、網(wǎng)絡(luò)等方面評估選擇數(shù)據(jù)中心的攻擊防御能力、擴(kuò)容能力、空間預(yù)留、對外專線能力、現(xiàn)場服務(wù)支持能力等。負(fù)責(zé)數(shù)據(jù)中心建設(shè)和現(xiàn)場維護(hù)。
2.網(wǎng)絡(luò)建設(shè)
設(shè)計(jì)和規(guī)劃生產(chǎn)網(wǎng)絡(luò)架構(gòu),包括:數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)、傳輸網(wǎng)絡(luò)架構(gòu)、CDN網(wǎng)絡(luò)架構(gòu)等,以及網(wǎng)絡(luò)調(diào)優(yōu)等日常運(yùn)維工作。
3.LVS負(fù)載均衡和SNAT構(gòu)建
LVS是整個(gè)站點(diǎn)架構(gòu)中的流量入口,根據(jù)網(wǎng)絡(luò)規(guī)模和業(yè)務(wù)需求搭建負(fù)載均衡集群。
完整的網(wǎng)絡(luò)和業(yè)務(wù)服務(wù)器的連接提供了高性能和高可用的負(fù)載調(diào)度能力,以及統(tǒng)一的網(wǎng)絡(luò)層攻擊防御能力。
SNAT 。在數(shù)據(jù)中心集中提供公網(wǎng)接入服務(wù),通過集群部署,保證出站服務(wù)的高性能和高可用性。
4.CDN規(guī)劃建設(shè)
CDN工作分為第三方和自建。
建立第三方CDN的選擇和調(diào)度控制;根據(jù)業(yè)務(wù)發(fā)展趨勢規(guī)劃新CDN節(jié)點(diǎn)的建設(shè)和布局;完善CDN服務(wù)和監(jiān)控,確保CDN系統(tǒng)穩(wěn)定高效運(yùn)行。
分析業(yè)務(wù)加速渠道的特點(diǎn)和文件數(shù)量,優(yōu)化加速策略和資源匹配;負(fù)責(zé)用戶劫持等日常CDN排查工作。
5.服務(wù)器選擇、交付和維護(hù)
負(fù)責(zé)服務(wù)器的測試選型,包括整機(jī)及組件的基礎(chǔ)測試和業(yè)務(wù)測試,降低整機(jī)功耗,提高機(jī)架部署密度等。
結(jié)合對公司業(yè)務(wù)的了解,推動(dòng)新硬件、新解決方案降低業(yè)務(wù)服務(wù)器投資規(guī)模。負(fù)責(zé)診斷和定位服務(wù)器硬件故障,開發(fā)和維護(hù)服務(wù)器硬件監(jiān)控和健康檢查工具。
6.OS、內(nèi)核選擇及OS相關(guān)維護(hù)工作
負(fù)責(zé)整個(gè)平臺(tái)的操作系統(tǒng)選擇、定制和內(nèi)核優(yōu)化,以及補(bǔ)丁更新和內(nèi)部版本發(fā)布;建立基礎(chǔ)的 YUM 包管理和分發(fā)中心,提供通用的包倉庫;日常操作系統(tǒng)相關(guān)的故障;為不同業(yè)務(wù)類型提供針對性的優(yōu)化支持。
7.資產(chǎn)管理
記錄和管理與運(yùn)維相關(guān)的基本物理信息,包括數(shù)據(jù)中心、網(wǎng)絡(luò)、機(jī)柜、服務(wù)器、ACL、IP等資源信息,制定有效的流程,確保信息的準(zhǔn)確性;開放API接口,為自動(dòng)化運(yùn)維提供數(shù)據(jù)支持。
8.基礎(chǔ)服務(wù)搭建
業(yè)務(wù)嚴(yán)重依賴DNS、NTP等基礎(chǔ)服務(wù),需要設(shè)計(jì)高可用架構(gòu),避免單點(diǎn),提供穩(wěn)定的基礎(chǔ)服務(wù)。
應(yīng)用運(yùn)維
應(yīng)用運(yùn)維負(fù)責(zé)在線服務(wù)變更、服務(wù)狀態(tài)監(jiān)控、服務(wù)容災(zāi)和數(shù)據(jù)備份等,并定期檢查服務(wù)和處理故障突發(fā)事件。等待工作。具體工作職責(zé)如下。
1.設(shè)計(jì)評審
在產(chǎn)品開發(fā)階段,參與產(chǎn)品設(shè)計(jì)評審,從運(yùn)維角度提出評審意見,使服務(wù)滿足運(yùn)維接入的高可用性要求。
2.服務(wù)管理
負(fù)責(zé)制定線上業(yè)務(wù)升級變更和回滾計(jì)劃,并實(shí)施變更。掌握負(fù)責(zé)的服務(wù),服務(wù)之間的關(guān)系,以及服務(wù)所依賴的各種資源。能夠發(fā)現(xiàn)服務(wù)缺陷、及時(shí)報(bào)告并推動(dòng)解決。
制定服務(wù)穩(wěn)定性指標(biāo)和準(zhǔn)入標(biāo)準(zhǔn),同時(shí)不斷完善和優(yōu)化程序和系統(tǒng)的功能和效率,提高運(yùn)營質(zhì)量。完善監(jiān)控內(nèi)容,提高報(bào)警準(zhǔn)確率。
當(dāng)在線服務(wù)出現(xiàn)故障時(shí),立即響應(yīng),將已知在線故障按流程上報(bào)并按計(jì)劃執(zhí)行,并組織相關(guān)人員共同排除未知故障。
3.資源管理
管理各項(xiàng)服務(wù)的服務(wù)器資產(chǎn),梳理服務(wù)器資源狀況、數(shù)據(jù)中心分布、網(wǎng)絡(luò)專線和帶寬,合理使用服務(wù)器根據(jù)不同業(yè)務(wù)的需要it運(yùn)維,分配不同配置的服務(wù)器,保證充分利用服務(wù)器資源。
4.例行檢查
制定并不斷改進(jìn)日常服務(wù)檢查點(diǎn)。根據(jù)既定的服務(wù)檢查點(diǎn)對服務(wù)進(jìn)行定期檢查。對檢查過程中發(fā)現(xiàn)的問題要及時(shí)追溯,排除可能存在的隱患。
5.計(jì)劃管理
確定服務(wù)所需的各種監(jiān)控,系統(tǒng)指標(biāo)的閾值或臨界點(diǎn),情況發(fā)生后的處理方案。
建立和更新服務(wù)計(jì)劃文件,并根據(jù)日常故障情況不斷補(bǔ)充和改進(jìn),提高計(jì)劃的完整性。能夠制定和審核各類計(jì)劃,并定期進(jìn)行計(jì)劃演練,確保計(jì)劃的可執(zhí)行性。
6.數(shù)據(jù)備份
制定數(shù)據(jù)備份策略,按照規(guī)范進(jìn)行數(shù)據(jù)備份。確保數(shù)據(jù)備份的可用性和完整性,并定期進(jìn)行數(shù)據(jù)恢復(fù)測試。
數(shù)據(jù)庫運(yùn)維
數(shù)據(jù)庫運(yùn)維負(fù)責(zé)數(shù)據(jù)存儲(chǔ)方案設(shè)計(jì)、數(shù)據(jù)庫表設(shè)計(jì)、索引設(shè)計(jì)和SQL優(yōu)化,以及數(shù)據(jù)庫的變更、監(jiān)控、備份、高可用設(shè)計(jì)等。具體工作職責(zé)如下。
1.設(shè)計(jì)評審
在產(chǎn)品開發(fā)初期,參與設(shè)計(jì)評審,提出數(shù)據(jù)存儲(chǔ)方案、數(shù)據(jù)庫表設(shè)計(jì)方案、SQL開發(fā)標(biāo)準(zhǔn)、索引設(shè)計(jì)方案等,使服務(wù)滿足高可用、高數(shù)據(jù)庫使用的性能要求。
2.容量規(guī)劃
掌握負(fù)責(zé)服務(wù)的數(shù)據(jù)庫的容量限制,清楚了解當(dāng)前的瓶頸點(diǎn),在服務(wù)未達(dá)到容量限制、分拆或擴(kuò)容時(shí)及時(shí)優(yōu)化服務(wù)。
3.數(shù)據(jù)備份與容災(zāi)
制定數(shù)據(jù)備份和災(zāi)難恢復(fù)策略,并定期完成數(shù)據(jù)恢復(fù)測試,以確保數(shù)據(jù)備份的可用性和完整性。
4.數(shù)據(jù)庫監(jiān)控
提高數(shù)據(jù)庫生存和性能監(jiān)控,及時(shí)了解數(shù)據(jù)庫運(yùn)行狀態(tài)和故障。
數(shù)據(jù)庫安全 建立數(shù)據(jù)庫賬號(hào)體系,嚴(yán)格控制賬號(hào)權(quán)限和開放范圍,降低誤操作和數(shù)據(jù)泄露風(fēng)險(xiǎn);加強(qiáng)離線備份數(shù)據(jù)管理,降低數(shù)據(jù)泄露風(fēng)險(xiǎn)。
5.數(shù)據(jù)庫高可用和性能優(yōu)化
針對數(shù)據(jù)庫單點(diǎn)風(fēng)險(xiǎn)和故障設(shè)計(jì)相應(yīng)的切換方案,減少故障對數(shù)據(jù)庫服務(wù)的影響;性能優(yōu)化,包括新存儲(chǔ)方案的引入、硬件優(yōu)化、文件系統(tǒng)優(yōu)化、數(shù)據(jù)庫優(yōu)化、SQL優(yōu)化等,數(shù)據(jù)庫可以在不增加保障成本或小幅增加的情況下支持更多的業(yè)務(wù)請求。
6.自動(dòng)化系統(tǒng)搭建
設(shè)計(jì)開發(fā)數(shù)據(jù)庫自動(dòng)化運(yùn)維系統(tǒng),包括數(shù)據(jù)庫部署、自動(dòng)擴(kuò)容、分庫分表、權(quán)限管理、備份與恢復(fù)、SQL審計(jì)與上線、故障轉(zhuǎn)移等功能。
7.運(yùn)維研發(fā)
運(yùn)維研發(fā)負(fù)責(zé)通用運(yùn)維平臺(tái)的設(shè)計(jì)開發(fā),如:資產(chǎn)管理、監(jiān)控系統(tǒng)、運(yùn)維平臺(tái)、數(shù)據(jù)權(quán)限管理系統(tǒng)等。提供運(yùn)維的各種API維護(hù)或研發(fā)人員封裝更高級別的自動(dòng)化運(yùn)維系統(tǒng)。具體工作職責(zé)如下。
8.運(yùn)維平臺(tái)
記錄和管理服務(wù)及其關(guān)聯(lián)關(guān)系,協(xié)助運(yùn)維人員自動(dòng)化處理日常運(yùn)維操作,包括機(jī)器管理、重啟、重命名、初始化、管理域名、切換流量、實(shí)施故障預(yù)案等。
9.監(jiān)控系統(tǒng)
負(fù)責(zé)監(jiān)控系統(tǒng)的設(shè)計(jì)和開發(fā),完成公司服務(wù)器和各種網(wǎng)絡(luò)設(shè)備的資源指標(biāo),在線業(yè)務(wù)運(yùn)營指標(biāo)的采集,告警,存儲(chǔ),分析,展示和數(shù)據(jù)挖掘等,持續(xù)不斷提高告警的及時(shí)性、準(zhǔn)確性和智能性,促進(jìn)公司服務(wù)器資源的合理配置。
10.自動(dòng)化部署系統(tǒng)
參與部署自動(dòng)化系統(tǒng)的開發(fā),負(fù)責(zé)自動(dòng)化部署系統(tǒng)所需的基礎(chǔ)數(shù)據(jù)和信息,負(fù)責(zé)權(quán)限管理、API開發(fā)、Web端開發(fā)。結(jié)合云計(jì)算,我們開發(fā)并提供PaaS相關(guān)的高可用平臺(tái),進(jìn)一步提升服務(wù)部署速度和用戶體驗(yàn),提高資源利用率。
運(yùn)維安全
運(yùn)維安全負(fù)責(zé)網(wǎng)絡(luò)、系統(tǒng)和業(yè)務(wù)的安全加固,定期進(jìn)行安全掃描、滲透測試、安全工具和系統(tǒng)開發(fā)以及安全事件應(yīng)急處理。具體工作職責(zé)如下。
1.建立安全體系
根據(jù)公司具體內(nèi)部流程,制定切實(shí)有效的安全制度。
2.安全培訓(xùn)
定期對員工進(jìn)行有針對性的安全培訓(xùn)和考核,在全公司范圍內(nèi)建立安全責(zé)任人制度。
3.風(fēng)險(xiǎn)評估
通過黑白盒測試檢查機(jī)制,定期生成物理網(wǎng)絡(luò)、服務(wù)器、業(yè)務(wù)應(yīng)用、用戶數(shù)據(jù)的整體風(fēng)險(xiǎn)評估結(jié)果。
4.安全構(gòu)造
根據(jù)風(fēng)險(xiǎn)評估結(jié)果,加強(qiáng)最薄弱環(huán)節(jié),包括設(shè)計(jì)安全防線、部署安全設(shè)備、及時(shí)更新補(bǔ)丁、防御病毒、源代碼自動(dòng)掃描和業(yè)務(wù)產(chǎn)品安全咨詢等??赡苄孤兜臄?shù)據(jù)的價(jià)值,通過加密、匿名化、混淆甚至定期刪除等技術(shù)手段和流程達(dá)到目的。
5.安全合規(guī)性
為了滿足支付許可等合規(guī)要求,安全團(tuán)隊(duì)負(fù)責(zé)安全合規(guī)的對外接口。
6.應(yīng)急響應(yīng)
建立安全報(bào)警系統(tǒng),通過安全中心收集第三方發(fā)現(xiàn)的安全問題,組織各部門對發(fā)現(xiàn)的安全問題進(jìn)行修復(fù)和影響當(dāng)面評估和事后安全原因調(diào)查。
運(yùn)維工作的發(fā)展歷程
早期運(yùn)維團(tuán)隊(duì)主要在人員稀少的情況下進(jìn)行數(shù)據(jù)中心建設(shè)、基礎(chǔ)網(wǎng)絡(luò)建設(shè)、服務(wù)器采購和服務(wù)器安裝交付。 它很少涉及在線服務(wù)的更改、監(jiān)控和管理。
此時(shí),運(yùn)維團(tuán)隊(duì)更多地扮演著基礎(chǔ)設(shè)施的角色,提供簡單可用的網(wǎng)絡(luò)環(huán)境和系統(tǒng)環(huán)境。
隨著業(yè)務(wù)產(chǎn)品的逐漸成熟,對服務(wù)質(zhì)量提出了更高的要求。此時(shí)運(yùn)維團(tuán)隊(duì)也會(huì)承擔(dān)一些服務(wù)器監(jiān)控工作,同時(shí)也會(huì)負(fù)責(zé)LVS、Nginx等4/7層與業(yè)務(wù)邏輯無關(guān)的運(yùn)維工作。
這時(shí)候服務(wù)變更更多的是手動(dòng)操作,或者是一些簡單的批處理腳本。監(jiān)控的重點(diǎn)更多是服務(wù)器狀態(tài)和資源使用情況,很少對服務(wù)應(yīng)用狀態(tài)進(jìn)行監(jiān)控,更多的監(jiān)控使用Cacti等各種開源系統(tǒng)。
由于業(yè)務(wù)規(guī)模和復(fù)雜性的不斷增加,運(yùn)維團(tuán)隊(duì)將逐漸分為應(yīng)用運(yùn)維和系統(tǒng)運(yùn)維。應(yīng)用運(yùn)維開始接手線上業(yè)務(wù),逐步開展服務(wù)監(jiān)控整理、數(shù)據(jù)備份和服務(wù)變更等工作。
隨著服務(wù)的深入,應(yīng)用運(yùn)維工程師有能力開始對服務(wù)進(jìn)行一些簡單的優(yōu)化。同時(shí),為了應(yīng)對每天大量的服務(wù)變更,我們也開始編寫各種運(yùn)維工具,可以方便地批量變更某些服務(wù)。
隨著業(yè)務(wù)規(guī)模的擴(kuò)大,基礎(chǔ)設(shè)施因容量規(guī)劃不足或抗風(fēng)險(xiǎn)能力弱而出現(xiàn)的故障越來越多,迫使運(yùn)維人員開始將更多的精力投入到多數(shù)據(jù)中心化的方向上災(zāi)難恢復(fù)和計(jì)劃管理。
業(yè)務(wù)規(guī)模達(dá)到一定程度后,開源監(jiān)控系統(tǒng)在性能和功能上已經(jīng)不能滿足業(yè)務(wù)需求;過去大量的服務(wù)變更和復(fù)雜的服務(wù)關(guān)系不是通過人工記錄和工具變更來處理的。它在效率或準(zhǔn)確性方面也無法滿足業(yè)務(wù)需求。
在安全方面,各種大大小小的事件也時(shí)有發(fā)生,迫使我們將更多的精力投入到安全防御中。運(yùn)維團(tuán)隊(duì)逐漸形成了上述5大類崗位,每個(gè)崗位都需要專門人才。
此時(shí)系統(tǒng)運(yùn)維更側(cè)重于基礎(chǔ)設(shè)施建設(shè)和運(yùn)維,提供穩(wěn)定高效的網(wǎng)絡(luò)環(huán)境,將服務(wù)器等資源交付給應(yīng)用運(yùn)維工程師。應(yīng)用運(yùn)維更關(guān)注服務(wù)運(yùn)行狀態(tài)和效率。
數(shù)據(jù)庫運(yùn)維是對應(yīng)用運(yùn)維工作的精細(xì)化,更側(cè)重于數(shù)據(jù)庫領(lǐng)域的自動(dòng)化、性能優(yōu)化和安全防御。運(yùn)維研發(fā)和運(yùn)維安全提供各種平臺(tái)和工具,進(jìn)一步提高運(yùn)維工程師的工作效率,讓業(yè)務(wù)服務(wù)運(yùn)行更加穩(wěn)定、高效、安全。
我們將運(yùn)維開發(fā)過程分為四個(gè)階段,如圖1-2所示。
圖1-2運(yùn)維開發(fā)流程
人工管理階段:業(yè)務(wù)流量不大,服務(wù)器數(shù)量比較少,系統(tǒng)復(fù)雜度不高。對于日常的業(yè)務(wù)管理操作,大家更有可能一一登錄服務(wù)器進(jìn)行手動(dòng)操作。他們每個(gè)人都在以自己的方式戰(zhàn)斗。每個(gè)人都有自己的操作方法,缺乏必要的操作標(biāo)準(zhǔn)和流程機(jī)制。例如,業(yè)務(wù)目錄環(huán)境都是不同的。各種。
工具批量操作階段:隨著服務(wù)器規(guī)模和系統(tǒng)復(fù)雜度的增加,全手工操作模式已經(jīng)不能滿足業(yè)務(wù)快速發(fā)展的需要。因此,運(yùn)維人員逐漸開始使用批量操作工具,針對不同的操作類型出現(xiàn)了不同的腳本程序。
但每個(gè)團(tuán)隊(duì)都有自己的工具,每次運(yùn)營需求發(fā)生變化時(shí)都需要對其進(jìn)行調(diào)整。這主要是由于環(huán)境和操作規(guī)范不足,導(dǎo)致可編程處理能力較弱。至此,雖然效率有了一定的提升,但很快又遇到了瓶頸。
操作的質(zhì)量并沒有太大的提高,甚至可能由于批量執(zhí)行而導(dǎo)致更大規(guī)模的問題。我們開始建立大量的流程規(guī)范,比如審核機(jī)制,先用服務(wù)器上線觀察10分鐘再繼續(xù)后續(xù)操作,升級完成后至少觀察20分鐘。
這些主要是由人監(jiān)督和執(zhí)行,但在實(shí)際過程中往往執(zhí)行不到位,降低了工作效率。
平臺(tái)管理階段:這個(gè)階段對運(yùn)維效率和誤操作率有更高的要求。我們決定著手搭建運(yùn)維平臺(tái),通過平臺(tái)承載標(biāo)準(zhǔn)和流程,從而解放人力,提高質(zhì)量。
此時(shí)對服務(wù)的變更動(dòng)作進(jìn)行了抽象,對操作方式、服務(wù)目錄環(huán)境、服務(wù)操作方式等形成了統(tǒng)一的標(biāo)準(zhǔn)。比如程序的啟停接口必須包括start,停車、超載等。操作過程受平臺(tái)約束,如上述在線服務(wù)器觀察10分鐘。
在平臺(tái)中強(qiáng)制設(shè)置暫停檢查點(diǎn)。第一臺(tái)服務(wù)器運(yùn)行完成后,運(yùn)維人員需要填寫相應(yīng)的檢查項(xiàng),才能繼續(xù)進(jìn)行后續(xù)的部署動(dòng)作。
系統(tǒng)自調(diào)度階段:規(guī)模更大的服務(wù)數(shù)量,更復(fù)雜的服務(wù)關(guān)聯(lián),各種運(yùn)維平臺(tái),原來將批量操作轉(zhuǎn)化為平臺(tái)操作的方式已經(jīng)不適合。服務(wù)更改需要更高級別的抽象。
將每臺(tái)服務(wù)器抽象成一個(gè)容器,調(diào)度系統(tǒng)根據(jù)資源使用情況調(diào)度和部署服務(wù)到合適的服務(wù)器,并自動(dòng)完成與周邊運(yùn)維系統(tǒng)的聯(lián)動(dòng),如監(jiān)控系統(tǒng)、日志系統(tǒng)、備份系統(tǒng)等.
通過自調(diào)度系統(tǒng),可以根據(jù)業(yè)務(wù)運(yùn)行動(dòng)態(tài)擴(kuò)展容量,自動(dòng)處理常見業(yè)務(wù)故障。運(yùn)維人員的工作也將推進(jìn)到產(chǎn)品設(shè)計(jì)階段,協(xié)助研發(fā)人員改造服務(wù),使其能夠接入自調(diào)度系統(tǒng)。
在整個(gè)運(yùn)維的開發(fā)過程中,我們希望所有的工作都實(shí)現(xiàn)自動(dòng)化,減少人的重復(fù)性工作,降低知識(shí)轉(zhuǎn)移的成本,讓我們的運(yùn)維交付更高效,更安全,使產(chǎn)品運(yùn)行更穩(wěn)定。對于故障的處理,也希望后處理變成早期發(fā)現(xiàn),人工處理變成系統(tǒng)自動(dòng)容災(zāi)。
24小時(shí)免費(fèi)咨詢
請輸入您的聯(lián)系電話,座機(jī)請加區(qū)號(hào)