了解最新公司動態(tài)及行業(yè)資訊
點擊▲關注“IT168企業(yè)級”到公眾號置頂
更精彩的第一次直達
在信息時代,服務器宕機頻繁發(fā)生,即使各種掠食者都無法阻止,比如最近發(fā)生的一些服務器宕機。
1.12月14日晚,微軟云服務器全球再次宕機,多個國家和地區(qū)的用戶深受影響。最后發(fā)現(xiàn)服務中斷的原因是云服務器存儲空間滿了。2.12 月 25 日期間,許多用戶經(jīng)歷了激活失敗和登錄失敗的情況。除此之外,就連Apple Watch等產(chǎn)品的激活都受到了影響。由于高流量負載,Apple 的客戶服務在線響應。3.12月25日中午服務器運維,中信期貨交易軟件死機,易金APP始終無法登錄交易。這件事一度在微博上火了。4.12 月 26 日,任天堂 eShop 遭遇停機,任天堂發(fā)表聲明稱“
...
這種風波層出不窮,相信運維也不陌生。所謂“失敗者有輪回,天之驕子”。停機時間使運維工作處于被動“救火”狀態(tài)。運維就像一塊磚頭,哪里需要搬?這些模式也讓 IT 部門感到疲倦。
理論上,沒有絕對安全、絕對可用和絕對沒有問題的服務器和應用程序。作為運維人員,有必要全面了解服務器宕機的原因和解決方法。
服務器宕機的原因
1.運行環(huán)境有問題,如機房停電導致服務器斷電(欠壓、過載、波動)、機房室溫低、散熱不良、資源沖突、文件損壞、系統(tǒng)故障等。服務器宕機。
2.服務器不堪重負,最常見的情況是大規(guī)模高消耗服務器資源,如C盤空間耗盡、訪問值過高、程序中毒、遭受電源攻擊等。
3.主備數(shù)據(jù)不一致導致的復制問題。
4.性能問題、SQL或索引設計運維不佳等。
運維需要檢查哪些方面?
? 硬件
(1)檢查是否有硬件沖突;
(2)比較服務器電源加載的電源,判斷電源是否有故障;
(3)掃描硬盤表面檢測是否有低幀;
(4) 由錯誤報告和操作系統(tǒng)錯誤信息決定;
(5)使用更換方法判斷顯卡、CPU、SCSI/RAID卡或其他PCI設備是否有故障。
? 軟件
(1)查看操作系統(tǒng)的系統(tǒng)日志,可以通過系統(tǒng)日志判斷藍屏的一些原因;
(2)判斷硬件沒有故障后服務器運維,再考慮系統(tǒng)軟件出現(xiàn)bug和漏洞的原因;
(3)如果是因為軟件使用不當或者系統(tǒng)工作壓力過大,可以適當增加服務器的工作壓力;
(4)筆記本病毒。
在了解了原因和故障排除方法后,運維一定要從源頭上防止停機的發(fā)生。一般是因為故障預警機制不完善,使得運維只能在停機發(fā)生后進行處理,大大提高了工作效率。