了解最新公司動態(tài)及行業(yè)資訊
多年來,云供應(yīng)商停機并不是新聞:
運維失誤,硬盤故障服務(wù)器運維技術(shù),機房被雷擊,調(diào)試時輸入錯誤的命令,不同的錯誤會導致不同的BUG,最終導致云服務(wù)故障,造成較大損失。 AWS的費良洪先生在回憶云計算的發(fā)展歷程時曾說:“在我眼里,云計算是十年的積淀,十年的教訓?!?故障一直是云服務(wù)命運的雙胞胎。 一次次的斷層之痛,都在逼著云服務(wù)廠商和用戶加速成長,但這一次對于初創(chuàng)公司“ CNC”來說,實在是太過痛苦了。
InfoQ 認為,云供應(yīng)商和用戶在此類云服務(wù)故障事件中吸取了寶貴的教訓。
對于廠商來說,需要學習的是:
注意錯誤
供應(yīng)商工程師在編寫代碼時應(yīng)捕獲異常服務(wù)器運維技術(shù),然后進行適當?shù)腻e誤處理。
盡可能緩存動態(tài)內(nèi)容,甚至是靜態(tài)內(nèi)容
Redis緩存、Nginx緩存、CDN都是緩存甚至靜態(tài)化內(nèi)容的一些手段。 雖然多級緩存維護起來比較麻煩,但是當?shù)讓臃?wù)出現(xiàn)問題時,它們是不可多得的戰(zhàn)略緩沖。 緩存給你買來的半小時到幾個小時幾乎就是救命靈芝,可以幫助你度過最艱難的時刻(,相對冷靜地尋找解決方案,緊急發(fā)布新頁面,或者遷移服務(wù),把損失降到最低。
失敗演練很重要
一個系統(tǒng)的高可用有很多因素,不僅僅是系統(tǒng)架構(gòu),更重要的是——高可用運維。 對于高可用運維,平時的故障演練非常重要。 每個季度擲一次骰子,隨機關(guān)閉一個 IDC 一天。 借助 Chaos,路透社每年還進行一次大規(guī)模的故障演練——災(zāi)難演練。 目的是提高應(yīng)對意外故障的能力。
充分告知用戶云計算服務(wù)并非 100% 可靠
云提供商在提供云服務(wù)時,應(yīng)告知用戶存在極小概率的云存儲損壞或數(shù)據(jù)丟失。 建議用戶自行備份或購買云備份。 如果不告知或強調(diào)不夠,很多用戶會認為云提供商將對數(shù)據(jù)丟失造成的所有損失負責。
尊重用戶,妥善處理危機
如果你是一家科技公司,你會更相信技術(shù)而不是管理。 相信技術(shù)就會用技術(shù)解決問題,相信管理,那么只有制度、流程、價值觀才會解決問題。 沒有人愿意看到問題發(fā)生; 但出現(xiàn)問題后,最重要的是解決問題,反思問題,吸取教訓。 ——陳浩
對于用戶來說,需要學習的是:
檢查核心依賴性并增加關(guān)鍵服務(wù)的冗余
很多云服務(wù),比如AWS自己的系統(tǒng),在構(gòu)建上都有冗余的特性,但是完全使用會增加很多管理復(fù)雜度和成本支出,因為跨環(huán)境之間的數(shù)據(jù)同步需要云用戶自己來處理。 大多數(shù)企業(yè)不會選擇以上方案,但單純的數(shù)據(jù)備份在短短幾個小時的周期內(nèi)起不到任何作用。 但這是一件值得去做的事情。
主動做好備份
根據(jù)美國標準TIA-942《數(shù)據(jù)中心通信基礎(chǔ)設(shè)施標準》,從可用性、穩(wěn)定性和安全性分為四個級別:T1,可用性為99.67%; T2,可用性為99.749%; T3,可用性為99.982%; T4,99.995% 的可用性。 年平均停機時間也從0.4小時到28.8小時不等,這意味著每年都可能因為各種原因出現(xiàn)不可用。 不管有多少個“9”的云服務(wù),其可靠性仍然不是100%。 用戶需要自己做備份。 當云服務(wù)出現(xiàn)故障時,有恢復(fù)數(shù)據(jù)的通道,而不是像“邊疆CNC”一樣被蒙蔽了雙眼。
整理/江湖“云計算一姐”之稱的上海云暢網(wǎng)絡(luò)科技創(chuàng)始人兼CEO顧一楠,GLG簽約中國云計算行業(yè)信息化顧問,致力于用一站式人工智能運維管理平臺,國際一流的專業(yè)服務(wù)和標準化流程,幫助中國企業(yè)選好云、用好云、用好云。