了解最新公司動態(tài)及行業(yè)資訊
歡迎來到騰訊云技術(shù)社區(qū)服務器運維技術(shù),獲取更多騰訊海量技術(shù)實踐干貨~
作者:知云平臺團隊,騰訊SNG社交平臺業(yè)務運維團隊,負責QQ空間、微云、QQ相冊、天天Ptu、優(yōu)圖等產(chǎn)品的技術(shù)運營。致力于服務質(zhì)量優(yōu)化、服務保障、自動化運維體系建設(shè)等工作。經(jīng)歷了農(nóng)牧場、紅包、“軍裝”P圖等諸多活動。團隊一直在進行自動化運維、智能化運維探索與實踐。
前言
這兩天人民日報+騰訊云聯(lián)合運營的“軍裝合影”活動,想必炸了你的朋友圈。在這場營銷盛宴的背后,還有另外一個海量運維能力:4000臺設(shè)備、峰值24G帶寬、5次自動運維擴展。
這種由社會關(guān)系引爆的運營事件,對于騰訊SNG的運維團隊來說,并不新鮮。從全民農(nóng)牧場、全民紅包、甄嬛傳記、軍裝照片,SNG運維團隊已經(jīng)應對了業(yè)務突發(fā)事件。變化是智云智能運維平臺的核心能力。今天,就讓我們一起來探索智云智能運維平臺的關(guān)鍵技術(shù)和核心功能。
智云智能運維平臺1、標準化運維
智云智能支撐平臺管理著10萬多臺服務器,24小時為上萬個功能提供服務,但運維人員卻寥寥無幾。一個人維護了近萬臺服務器,當軍裝事件來臨時,4000臺服務器可以快速無誤地上線。它的依據(jù)是什么?主要的好處是智云長期貫徹的標準化服務和運維的理念和要求。智云平臺提供的統(tǒng)一包框架、集中配置管理、統(tǒng)一路由、統(tǒng)一組件等標準化技術(shù)手段,幫助運維研發(fā)質(zhì)量等多個團隊完成高效協(xié)同、標準交付、和快速反應。標準化的運維體系,幫助我們隨時快速響應各種突發(fā)業(yè)務需求。
2、強大的 IAAS 供應基礎(chǔ)
依托騰訊云海量資源,智云可提供秒級IAAS供給能力,結(jié)合自動變擴縮技術(shù),快速響應萬級服務資源線上供給需求。
3、CMDB應用配置介紹
智云CMDB的設(shè)計以模塊為管理節(jié)點(模塊:提供單一功能服務的集群)。相關(guān)配置信息將被記錄,包括:硬件配置、軟件配置、操作設(shè)置、軟件包、配置文件、腳本、流程、測試用例等自動化依賴的關(guān)鍵系統(tǒng)。
日常P圖業(yè)務CMDB應用配置示意圖如下。
4、 自動化流程簡介
智云倡導的自動化理念是:標準化->配置->自動化,讓企業(yè)的常用操作固化成流程工具。不要依賴容易過時的文檔,也不要依賴容易流失的人的經(jīng)驗。
參照持續(xù)交付的原則“為軟件發(fā)布創(chuàng)建可重復且可靠的流程”,為解決人類操作體驗差異的問題,運維團隊利用流程DIY編排能力,實現(xiàn)標準化操作的固化. “軍裝合影”活動擴容,任何運維人員只需執(zhí)行每日P圖的擴容功能即可實現(xiàn)擴容,云織過程將自動完成整個業(yè)務部署和上線運營。(如下所示)
5、 關(guān)鍵技術(shù)點:
(1)智云路由:L5
調(diào)用對象 IP 和端口被抽象為名稱服務。調(diào)用時,調(diào)用者不需要關(guān)注實際被調(diào)用的服務器,只需要確定名稱服務ID即可。這樣,被調(diào)整方的IP變更對主調(diào)整者來說是完全透明的。
由于部分轉(zhuǎn)入的服務器存在差異,存在計算能力不一致的可能??梢詾椴煌膫鬏攲ο笈渲貌煌臋?quán)重。智云 Beam可以根據(jù)服務器的處理能力和容量自動配置權(quán)重,達到負載均衡的目的。.
當鏈路或機房環(huán)境發(fā)生故障時,可能導致單臺服務器故障的概率很高。智云L5具備主動檢測調(diào)機能力,主動將故障機踢出轉(zhuǎn)機,故障機恢復后自動添加回轉(zhuǎn)機。簇。在發(fā)生大規(guī)模機房故障時服務器運維技術(shù),也可以借助L5調(diào)度功能將整體調(diào)整對象切換到其他機房。
(2)大并發(fā)傳輸
如何在運維平臺上實現(xiàn)文件的快速分發(fā),智云平臺的技術(shù)實現(xiàn)主要有兩個技術(shù)點:
(3)活動平臺:自動縮放
社交運營活動是騰訊SNG的常態(tài),智云專門針對這類活動業(yè)務的特點:快上快下,定義了活動平臺的功能來支持。
自動伸縮功能支持定時伸縮和低負載伸縮,不同的策略觸發(fā)自動化運維流程。《軍裝照》4000臺設(shè)備活動結(jié)束后,運維人員可以設(shè)置自動伸縮策略,實現(xiàn)自動伸縮,無需人工干預。(收縮操作如下圖)
容量監(jiān)測方法
1、 高低負載日常管理
運維工作要盡量減少消防任務,鼓勵有計劃有準備的工作,把容量管理變成重要的、非緊急的工作。因此,我們傾向于將這部分工作例行化,將容量管理從計劃外任務變?yōu)橛媱澣蝿铡?/p>
以騰訊SNG的生產(chǎn)環(huán)境容量管理計量方法為例,智云平臺提供統(tǒng)計數(shù)據(jù)(以模塊為管理單位):
2、 容量異常處理
在騰訊SNG運維的日常工作中,與容量相關(guān)的運維對象有:單機、模塊、SET。
(1)利用智云L5路由服務的請求權(quán)重調(diào)度能力(參考開源nginx、、LVS等)解決集群IP負載不均的問題。
(2)利用云一致性管理能力解決應用或配置文件部署不一致的問題。
λ SET容量管理,結(jié)合壓力測試尋找SET的性能短句柄,保持SET容量模型在關(guān)鍵時刻調(diào)度可靠。
3、 實時模塊容量監(jiān)控
在模塊內(nèi)IP容量相同的情況下,智云監(jiān)控實時采集單機硬件性能指標,并可匯總計算模塊實時容量指標,進行自動決策。
智云主機監(jiān)控技術(shù)的技術(shù)架構(gòu)如下圖所示,支持10W設(shè)備主機性能數(shù)據(jù)采集,為騰訊社交業(yè)務提供精準高效的基礎(chǔ)監(jiān)控能力。
寫在最后
在騰訊云和智云平臺的協(xié)助下,SNG社交平臺業(yè)務運維團隊為人民日報“軍照”運營活動提供了強有力的運維支持。雖然運維在聚光燈下并不常見,但我們依然為騰訊的產(chǎn)品感到自豪,為我們的運維工作感到自豪!
閱讀建議
“云+未來”峰會北京站,開發(fā)者專場報名開啟
深度探索(一)
是的,騰訊投票已經(jīng)擁抱騰訊云
本文已獲得作者授權(quán)在騰訊云技術(shù)社區(qū)發(fā)布。轉(zhuǎn)載請注明文章出處。
原文鏈接:///