IT部門魔咒:不怕壞、只怕慢!
IT運行維護工程師之間一直流傳著“不怕壞、只怕慢”的魔咒。如果是網絡發生資訊不通、網頁不能瀏覽等連續性故障,運行維護和排除錯誤的任務並不困難。可是當網絡連續性並無問題時,業務系統的回應和存取速度卻在一步一步變慢,IT運行維護人員就很難處理這種“Soft error”。
對此,管理員應用最大限度的保障Data Center的運行效率,不能讓“Soft error”成為阻礙使用者應用的障礙。管理者應站在業務應用的角度上指導運行維護細節,建立業務系統與基礎網路的相輔相成關係,使用更先進的IT運行維護管理分析方法,儘量縮短排除故障的時間,從而提升服務的品質和使用者的體驗效果。
案例分析:被“怪病”纏身的伺服器
小明,是一家大型企業的運行維護工程師,但他最近遇到了一種“網路怪病”。業務部門反映,已經用了4年多的CRM(客戶關係管理)系統常常出現連線異常緩慢,使用者的電腦需要反覆重新整理頁面,有時還會出現無法瀏灠(或超時)的問題。另外,還有些業務人員反映,在更新使用者聯繫資訊後,已經被更改的使用者資料沒有更新。而且,這些問題已經驚動集團老闆,IT運行維護部門的主管帶著一臉沮喪,要求他迅速查出原因,因為CRM系統的“怪病”嚴重影響了公司業務處理的效率。
小明採用多種方法徹查故障的源頭,例如:業務部門電腦是否故障、檢查伺服器的性能、找程式開發人員找BUG、檢查資料庫、檢查交換器、將伺服器殺毒、翻閱之前的所有log……花費了大量時間,最終也只是找到故障根源可能存在的方向。因為拔掉交換器上連接伺服器的Cables後,FCS fins就會瞬間減少。這應該是網卡損壞(包括協定、驅動、硬體)故障或者連接伺服器的Cables(包括RJ45頭)部分出現了問題,但排除問題所消耗的時間實在讓人無法忍受。
雖然小明已經知道了“方向”,但這種拖延的後果,無疑還是將矛頭指向了IT運行維護部門的服務品質。業務系統反應越來越慢的現象,對於系統維護部門的壓力將直接集中在故障恢復的時間性上。因此,IT運行維護管理應該利用主動發現的機制,以業務為核心建立整體的管理方式,才能避免這種“Soft error”在Data Center中的錯誤。
如今,IT運行維護整體化、智慧化管理已是大家普遍關注的熱門話題,那些傳統分散式、低效率的IT運行維護管理模式已經難以滿足大規模、多層級、全覆蓋的運行維護管理需求。所以,通過建立與IT架構、管理模式等適應的業務服務,不但能夠清晰地描述業務與IT之間的關係,更能讓主動運行維護的IT人不懼怕這種“Soft error”,進而説明IT管理人員和業務部門形成合作。