有江湖的地方就有圈子
有圈子的地方就有——鄙-視-鏈
打個游戲就有鄙視鏈:
主機玩家看不起PC玩家
PC玩家看不起手機玩家
非游戲玩家看不起所有玩家
用什么瀏覽器上網(wǎng)也有鄙視鏈:
Chrome、Firefox看不起Safari、Opera
Safari、Opera看不起360、QQ瀏覽器
當然
它們都看不上IE
單位里也有鄙視鏈:
財務(wù)部門看不起質(zhì)控部門
質(zhì)控部門看不起業(yè)務(wù)部門
業(yè)務(wù)部門看不起后勤部門
但他們,都看不起信息中心的
作為一個信息中心的運維
我自己眼中的工作是這樣的
其他部門眼中我的工作是這樣的
我,站在公司鄙視鏈底端的男人
掙著賣白菜的錢
操著賣白粉的心
平時的小透明
出問題時的背鍋工具人
作為一個運維
最可怕的不是發(fā)生故障
而是故障發(fā)生后找不到問題
找不到問題就劃不清責任
劃不清責任就沒法證明自己
沒法自證就意味著——
背鍋
那么
該如何避免背鍋呢?
我們先對故障本身來做一下分析。
事實上,幾乎所有的故障都是后知后覺的。我們很難去預(yù)測故障何時會發(fā)生,在大多數(shù)情況下,我們只有在故障發(fā)生之后才有反應(yīng)。
那這是否就代表運維人員只能聽天由命,祈禱設(shè)備不要出問題了呢?
其實不然。雖然無法預(yù)測故障何時發(fā)生,但最大程度減小故障發(fā)生的概率還是可以做到的。
按照著名的海恩法則:
每一起嚴重事故的背后,必然有29次輕微事故和300起未遂先兆以及1000起事故隱患。
每一次大的投訴其實都藏在平時一次次的小故障之中,這些小故障可能是沒有被發(fā)現(xiàn),或是發(fā)現(xiàn)了但看起來不重要而被忽略。俗話說“千里之堤,潰于蟻穴”,即使信息化建設(shè)、等保建設(shè)等項目投入得再多,可能也會因為對這些小問題的處理不得當,而大打折扣。這時候或許領(lǐng)導(dǎo)的批評就來了:
平時你們信息科花了這么多錢,怎么OA還是會慢? 視頻會議還是會卡? 網(wǎng)絡(luò)還是會斷? …… 要你們何用?
對于上面的問題,監(jiān)控工具做到以下幾點是十分重要的:
蟻穴之所以是蟻穴,就是因為它太小,以至于常常被我們忽略。因此,需要的是對業(yè)務(wù)流量進行應(yīng)用級的,最細粒度的識別、分析與展示。不光監(jiān)控道路,還對道路上的每一輛車都進行清晰的識別與監(jiān)控,從而發(fā)現(xiàn)諸如“某用戶的某個特定應(yīng)用卡頓”的情況。
舉個例子,每300s采集一次數(shù)據(jù)的SNMP,如果在這段時間間隔內(nèi)網(wǎng)絡(luò)發(fā)生了天翻地覆的變化,SNMP也將渾然不知;而如果采集的間隔縮短,又可能導(dǎo)致網(wǎng)絡(luò)設(shè)備和服務(wù)器CPU過載。因此,要想快速發(fā)現(xiàn)問題,在兼顧性能的情況下,實時是非常重要的。
記錄的留存,目的在于對故障溯源時,能夠拿出證據(jù),讓故障匯報有據(jù)可依。對于需要留存的記錄,可以是每一條會話的日志信息,也可以是原始數(shù)據(jù)包本身。但最重要的是留存得要全,讓一切發(fā)生過的問題都有跡可循。
對于使用者來說,監(jiān)控工具還需要具備簡單易用的特點,畢竟運維的時間是很金貴的??梢暬潭雀撸治龇绞奖憬荩軌蛞谎劭闯鰡栴}所在才最好。
那么,哪里有這種設(shè)備呢?
以上的所有特點,Panabit的NTM都可以幫您一一實現(xiàn)。
作為一款強大的網(wǎng)絡(luò)可視化產(chǎn)品,NTM既可以單獨部署,又可以與作為探針的Panabit配合。網(wǎng)絡(luò)的整體情況如何、業(yè)務(wù)的訪問質(zhì)量如何、每個用戶的網(wǎng)絡(luò)質(zhì)量如何,一目了然。
更多精彩:
網(wǎng)絡(luò)全量數(shù)據(jù)包抓取,是時候有第二種選擇
]]>