股票代碼:603516

七大标準判别分布式系統的優劣(下)

2020-03-20

七看運維管理

智能(néng)化的運維管理就(jiù)像人體的免疫系統一樣(yàng)不可或缺,它可以圍繞業務系統進(jìn)行日常安全監測,掌握系統的各項指标,并根據指标作出“健康”與否的判斷;對(duì)檢測到的設備運行不正常狀态或者設備故障發(fā)生預警,并及時通知運維管理人員進(jìn)行維護。這(zhè)種(zhǒng)運維方式側重于設備故障隐患和缺陷的早期發(fā)現和處理,提高了設備的穩定性和可靠性。


專業的運維管理解決方案涵蓋如下要點:


1. 動态展示系統連接的拓撲圖

與分布式相關的周邊系統,尤其是網絡系統,都(dōu)與最終畫面(miàn)上屏的響應速度、圖像質量、操作延遲、拼接同步性等效果息息相關。分布式節點通過(guò)交換機、路由器等網絡設備連接,任何一個網絡節點故障、掉線,都(dōu)會(huì)使得某路畫面(miàn)黑屏,這(zhè)時需要能(néng)夠及時定位到故障點,才可以在最短時間内解決網絡故障。

系統拓撲.gif

因此分布式系統的運維管理軟件需要能(néng)提供一個動态變化的設備連接拓撲圖,通過(guò)拓撲圖直觀地看到分布式設備及周邊設備的在線狀态與故障狀态,不用實際到現場排查,就(jiù)可以反饋給用戶到底是哪個環節發(fā)生問題。

2. 圖形化查看設備詳細運行指标

除了設備的在線與否之外,爲了更好(hǎo)的掌握系統運行狀态與趨勢,設備的詳細運行指标也同樣(yàng)關鍵,如各個分布式節點的輸入輸出分辨率、幀率、視頻傳輸速率等。與分布式設備連接的交換機,也需要實時了解其運行時間、溫度、CPU占用率、内存占用率、某端口流量、抖動、丢包率等。
三維圖形化查看.gif
隻有掌握了這(zhè)些信息,才能(néng)在發(fā)生畫面(miàn)抖動、卡頓、錯位等“軟問題”時,精準定位到問題所在,降低分布式系統可能(néng)受到的外界環境幹擾。

3. 具備故障告警與預警提示

傳統的運維模式通常是被(bèi)動式的,即用戶發(fā)現問題,再排查問題所在。而現代化的分布式運維更應該是主動式的,即系統一旦發(fā)生故障,分布式系統要能(néng)主動以頁面(miàn)的彈窗、聲音或郵件、短信等渠道(dào),爲用戶做出告警提示,即使用戶不再指揮中心或會(huì)議室内,也能(néng)通過(guò)手機等方式遠程掌握分布式系統的狀态。


告警.gif
另外,智能(néng)化的運維管理應不僅僅是發(fā)生問題、解決問題,更應該利用大數據等手段,記錄系統運行數據,并對(duì)未來趨勢進(jìn)行預測,在設備可能(néng)發(fā)生某個問題之前,前置性的做出預警提示,真正提高分布式系統的穩定性。

4. 建立完善并有記錄的運維工作流程

擁有了設備的監測與告警,用戶可以最短時間内掌握系統故障點,但如何解決這(zhè)些故障,依舊是一個值得深究的問題。分布式系統具有無限的擴展性與覆蓋度,往往部署在大地域中。管理分布式的運維人員也常常不是一個人,而是上下級單位、各個機構多人配合。

閉環處理2.gif

效率最高的運維解決方案是多人分工配合,如管理員在指揮中心對(duì)整個分布式系統監管,發(fā)現故障點後(hòu),遠程指導操作員實際到現場處理,并可通過(guò)系統實時判斷問題是否解決。這(zhè)就(jiù)需要分布式系統提供一個科學(xué)的運維工作流程,從發(fā)現問題、派工單下發(fā)、到現場解決與問題反饋,運維人員隻需按照标準化的運維流程來操作,并在系統内記錄相關工作信息,即可高效率的完成(chéng)運維管理工作。


5. 覆蓋系統級别的統計與分析

真正的分布式運維管理是一門系統性的科學(xué)與工作,應該做到“精細化運維”。所謂“精細化運維”,即不僅僅對(duì)設備運行狀态進(jìn)行監管,也要收集并記錄運維工作流中的告警響應時間、工單解決時間、故障處理時間等信息,同時通過(guò)數據的挖掘與關聯,對(duì)各類設備的故障率、高風險參數、視頻質量影響率等進(jìn)行分析,生成(chéng)綜合性的多維度系統運行報表,幫助用戶持續改善分布式系統的運維管理工作與應用方式。


3_1統計分析(1).png

沒(méi)有運維管理的業務系統相當于人體失去了免疫系統,不僅無法預防系統風險,而且系統的安全性、穩定性完全不受保障……隻有具備專業智能(néng)化運維管理的分布式系統,才是真正完整、可靠的分布式系統。