時間是利潤、流量是金錢:淺談維護人員在數據中心內的生存之道
數據中心的穩定運行離不開維護人員的能力,而數據中心維護的工作涉及到多方面,處理的問題都是不同的專業範圍。很多企業都是將伺服器和設備託管到專門的數據中心機房讓專業的人士進行維護,只有一些資源較多的公司才可有人手建設私有的數據中心。如今資訊技術更新得很快,大數據、雲運算、虛擬化、綠色數據中心等等新技術層出不窮,CPU 發展到多達三十二核,網路頻寬從 10M、100M、1G、10G、100G,這些技術的進步為數據中心帶來了高速的資訊處理能力,但是也讓這個數據中心的系統變得異常複雜,傳統的數據中心維護技能已經難以適應資訊高速發展的需要,下面將講述提升維護技能的一些方法。
十項全能 IT 人不存在
數據中心複雜性太高,包括系統、網路、存儲、協定、需求、開發、測試、安全、空調、供電、監控等多個環節,維護的工作就是要包含所有這些方面,可見維護的工作是一個集多 IT 工種技能於一身的崗位。然而這裡說的每一個部分都需要多種技術學科的支撐,例如系統可能有 Linux、Windows,應用有 LVS、HA、WebServer、DB、Middleware,網路就更複雜了,各種 L2、L3 協定、虛擬化、甚麼協議、路由式通訊協定等等。這麼多的技術不可能每個人都精通,所以甚麼才是最重要?首先是溝通能力、團隊協作。維護的工作涉及跨部門、跨工種特別多,這樣維護的人員需要善於溝通,團隊協定能力要強,這樣在處理問題時,才可以充分以不同的資源和技術去迅速解決問題。
四大技巧必學
對於數據中心嫣護,時間就是利潤,流量就是金錢,一年 365 天每分每秒要保持數據中心的穩定運行,不出故障或者盡量縮短故障才行。當業務部門回饋有故障時,根據回饋的故障現象迅速鎖定故障點,然後集中資源解決,這其中需要大量的溝通,有效的溝通將為排除故障節省大量時間。
其次是維護工作要膽大心細。膽大才能創新,不走尋常路。即使數據中心再小,它也有自己的特點,充分利用它的優勢,才能發揮出數據中心最大的效能。數據中心本來就是一個技術更新很快的領域,願意接受新事物,大膽引入先進維護的工具將可以大大提升數據中心的工作效率。
第三是做好日常監控工作,良好狀態離不開每天的觀察,需要時時刻刻觀察數據中心,看看數據中心發生的細小問題。每天都要對數據中心的所有運行參數進行全面檢查和記錄,慢慢地就會對數據中心運行狀態有了掌握,當某些參數變化時及時做應對之策。如設備運行的 CPU 使用率,平常監控所有設備 CPU 使用率都在 30% 左右,突然有一天幾台設備的 CPU 使用率無緣無故升到了 60%,這就需要進一步檢查升高的原因,直到消除問題為止。如果沒有這些平日裡的統計記錄,這樣的參數變化就不會引起注意,故障遲早會到來。
第四做好統計工作。一般的數據中心都擁有上千台的伺服器,還有其它不少的電子設備,要做好統計工作。如伺服器多少台,網路設備如何互連的,每台設備的配置,應用的特性等等,這些統計工作馬虎不得,都關係著數十萬設備的物理安全。在平日接觸到的維護人員讓我們感受到不同的人員對自己數據中心的瞭解差異是非常大的,有些人可隨口便說出某個網段 IP 連接的機、對應的應用;而有些人卻對伺服器放在哪個機架上都一無所知,當遇到問題或者轉換數據中心時,後者的表現是顯而易見且必定會出問題的。
專才….達人?
最後是要至少精通一門技術,數據中心需要維護人員是達人,這裡指的是需要在各方面都略懂一些;然而懂一些即代表技藝不精,這樣在數據中心裡是無法立足的。還需要有自己精通的領域,至少有一門是自己精通,而別人無法替代。如精通 Linux、Unix、網路技術、安全相關等等,這樣才能在數據中心裡立足,然後再向其它領域拓展,最終成為一個技術較為全面的 IT 專才。
數據中心的維護工作沒有非常明確的職責定位及職業規劃,工作可能給人的感覺是各方面都知道一些,但又哪個方面都比不上專業工程師,慢慢工作起來就會迷失方向。其實維護工作也有本身的特點,就是什麼領域的技術都有機會學習與接觸,掌握的深淺程度主要取決於維護人員的努力,可以在多個技術領域做到精通。新一代數據中心讓維護工作帶來了更大挑戰,也使維護成為一個融合多學科的綜合性技術,提供了很好的個人能力與技術廣度的發展空間,維護工作的相關經驗變得越來越重要。正因為維護的工作面廣,維護人員轉到其它崗位也很容易,沒有太大的局限,而且只有維護工程師才有機會成為數據中心的系統架構師或者維護主管,這樣的職業發展前景也比較好。