了解最新公司動態(tài)及行業(yè)資訊
我在一家游戲公司做運維有一段時間了,分享一下我的經(jīng)驗。
游戲公司的運維可以分為幾大模塊:
1、網(wǎng)站
2、游戲
3、支持
4、數(shù)據(jù)
5、安全
6、成本
網(wǎng)站
技術是web的技術,如lvs、lnmp、.cdn、持續(xù)更新CI、人工運維等。搜索中可以解決的常見問題,結構和估計量根據(jù)情況增減以實際業(yè)務規(guī)模為準。由于沒有涉及到電商業(yè)務,所以搜索和大數(shù)據(jù)業(yè)務會有所不同,細節(jié)我們就不展開了。日均pv保持在500、600w是正常的,推廣期間會形成高峰。
游戲是公司的主營業(yè)務,但也是行業(yè)相對封閉的一部分。由于這類產(chǎn)品基本上是自己開發(fā)和修補的,如果有bug,會開發(fā)并提供熱更新解決方案,并通過運維來實現(xiàn)。剩下的就是換衣服、版本更新、和服等日常操作了。
游戲項目的生命周期也與錯誤的數(shù)量有關。上線初期,各種廢話都會糾纏運維。以下是筆者遇到的一些反例:idc值班人員在巡查時踢了機柜電源導致宕機游戲進程句柄泄露;游戲存在bug,資源需要臨時維護;游戲出現(xiàn)意外的峰值帶寬,導致用戶卡頓;運營商帶寬小的用戶認為網(wǎng)卡(長寬聯(lián)通斷網(wǎng)還想玩游戲);機房光纖被切斷;手動工具配置更新錯誤;數(shù)據(jù)庫表結構不一致等;有很多很多,想想運維,說好的一點是挑戰(zhàn)自己,運維的丑點就是抖M!
項目穩(wěn)定后,所有 ,等流程都梳理清楚,通過手動工具實現(xiàn)后,運維每天晚上需要做的就是看監(jiān)控(起床)
支持
監(jiān)控系統(tǒng)服務器運維,我只知道所有核心游戲進程都被監(jiān)控,但是關鍵業(yè)務數(shù)據(jù)需要開發(fā)并提供。要么是數(shù)值匹配錯誤,要么是有漏洞被玩家刷了。其他對cpu、內(nèi)存、io、磁盤空間、網(wǎng)絡帶寬的監(jiān)控也要扎實做好,定期做好相關告警和統(tǒng)計報表。也是運維的一項重要工作。
支持客服朋友,查看日志,想辦法給客服朋友他們想看的數(shù)據(jù)。 Sql是最好的,可以教,可以優(yōu)化。
他們通常需要支持運營市場的是報告、轉化率、arpu、返回玩家信息等,主要是為了吹噓自己的會議和迎合老板。
知識管理也是支持的一部分。文檔、工具使用指南、歷史故障記錄、優(yōu)化解決方案等各類知識都可以消化分享給部門,甚至跨部門。
它也是支持的一部分,可以使用,還有廚師等,你必須了解并能夠掌握其中之一的使用。容器技術目前可以作為玩具和吹牛的資本,不要放在線環(huán)境中。
數(shù)據(jù)
數(shù)據(jù)也是一個大坑。運維必須糾正它在這個環(huán)節(jié)中的作用。很多原始數(shù)據(jù)在運維手里,但是需求端可能只需要一小部分,但是查詢需求可以說是五花八門,玩死開發(fā),開發(fā)會議和運維討論,有時侯太坑的需求直接被堵死了。在游戲行業(yè),每個公司的標準都不一樣服務器運維,都是根據(jù)自己公司的需求來執(zhí)行的。關系型數(shù)據(jù)庫、大表、開放式數(shù)據(jù)庫、剖析工具、需求和實現(xiàn)方案,需要有一定的了解。
查詢業(yè)務將涉及軟硬件選型、ssd、cpu、顯存數(shù)據(jù)庫、主從架構讀寫分離等技術。
安全
運維又一個大坑。在被黑和注入之前,運維和研發(fā)都覺得自己的架構是安全的。
流量命中、DDos 也是我考慮將所有業(yè)務遷移到云端的原因。傳統(tǒng)IDC沒有可靠的流量清洗系統(tǒng)。基本上同一個機房??被攻擊,你們都吃虧。如果受害者是你自己,你基本上無法在 24 小時內(nèi)恢復業(yè)務。切換到云端后,去年承受了高達 63G/s 的功率沖擊,但也花了不少錢。
費用
在公司成立初期,被認為過于開放,無法擴大規(guī)模。它買了很多服務器,在帶寬和其他資源上花了很多錢。一旦框架成熟穩(wěn)定,老板就會開始考慮成本控制,是否把沒用的服務器發(fā)回去賣掉,帶寬能不能降低。幸運的是,如果所有服務器都是 linux,則無需擔心 的版權問題。粗略測算,之前的業(yè)務切換到云端后,運維成本增加到原來的1/3。
最后,將您的業(yè)務放到云端確實是一個不錯的選擇。其實上云之后還要處理一系列的問題,這里就不多說了。