IT運維中的不良習慣
(1).治標不治本。IT設施故障往往是突發(fā)的、隨機的、不可預測、不可控制的.也很難自動提醒和警告。運維和管理人員成天處于高度緊張狀況,節(jié)假日也提心吊膽。一旦發(fā)生故障,往往手忙腳亂來不及仔細多方面觀察、分析原因,也無法很快準確定位。為了盡快恢復業(yè)務,只能采取重啟、清除等不可回朔操作。這種治標不治本的維護措施,不能根本解決問題,類似現象仍然可能再發(fā)生。
(2).沒有排錯記錄。我們的很多IT人員沒有排錯記錄的習慣,這樣當事后查找原因缺乏當時記錄,就算找到點痕跡也缺乏進一步分析數據。因為故障不能再現,很難有準備地捕捉有效信息。而要在生產環(huán)境模擬故障業(yè)務幾乎不允許。開發(fā)環(huán)境又很難模擬和再現。少量片面的系統(tǒng)日志很難看出問題癥結,缺乏自動實時捕捉問題關鍵點并忠實記錄工具。造成問題發(fā)生后無法回朔,問題解決無法找到頭緒。
(3).缺乏統(tǒng)一的規(guī)范要求。出現同題時解決辦法因人而異,缺乏方法和工具,無法制定統(tǒng)一的規(guī)范要求。在專家解決問題的經驗缺乏記錄、整理、積累和繼承。從保障穩(wěn)定看,必須高價保持足夠專業(yè)運維人員。工作安排松了不利于人員發(fā)展和穩(wěn)定,但安排太緊又無法保證及時響應和解決問題。
(4).應對危機太被動。對反映的問題和解決狀況缺乏統(tǒng)一管理和跟蹤,全靠個人素質和責任感。無法衡量、統(tǒng)計員工的業(yè)績貢獻,也無法發(fā)現哪些問題最影響系統(tǒng)穩(wěn)定.造成問題的因素是在積累還是在減弱,更缺少預警提醒機制.只能被動無序地等問題發(fā)生甚至很嚴重了才意識到。
IT運維管理的內容
IT運維管理是指單位IT部門采用相關的方法、手段、技術、制度、流程和文檔等,對IT運行環(huán)境(如硬軟件環(huán)境、網絡環(huán)境等)、IT業(yè)務系統(tǒng)和IT運維人員進行的綜合管理。如果進行細分的話,應該包括以下幾個方面:
(1).設備管理:對網絡設備、服務器設備、操作系統(tǒng)運行狀況進行監(jiān)控和管理;
(2).應用/服務管理:對各種應用支持軟件如數據庫、中間件、群件以及各種通用或特定服務的監(jiān)控管理。如郵件系統(tǒng)、DNS、Web等的監(jiān)控與管理;
(3).數據/存儲/容災管理:對系統(tǒng)和業(yè)務數據進行統(tǒng)一存儲、備份和恢復;
(4).業(yè)務管理:包含對企業(yè)自身核心業(yè)務系統(tǒng)運行情況的監(jiān)控與管理和對于業(yè)務的管理;
(5).目錄/內容管理:該部分主要對于企業(yè)需要統(tǒng)一發(fā)布或因人定制的內容管理和對公共信息的管理:
(6).資源資產管理:管理企業(yè)中各IT系統(tǒng)的資源資產情況;
(7).信息安全管理:企業(yè)安全組織方式、資產分類與控制、人員安全、物理與環(huán)境安全、通信與運營安全、訪問控制、業(yè)務連續(xù)性管理等;
(8).日常工作管理:該部分主要用于規(guī)范和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。
IT運維管理方案
(1).建立IT運維管理服務平臺
IT運維管理服務平臺幫助IT部門內部各專業(yè)部門以單點聯系窗口的形式對外服務,業(yè)務部門不必了解IT部門內部的運作流程。只需將故障報告給IT部門服務窗口的一線服務臺人員即可。由一線支持人員對故障進行分類以電子工單方式派發(fā)到相關的專業(yè)部門或相關人員處進行及時處理和響應,并向用戶及時進行反饋。用戶對不同專業(yè)部分的咨詢、問題和投訴都通過該窗口進行,以避免用戶與各級支持人員直接聯系帶來的種種弊病。如出現不同問題找不同支持人員、找不到人、問題得不到及時反饋和解決等等現象。
(2).實現IT監(jiān)控和統(tǒng)一展現
面向業(yè)務監(jiān)控和統(tǒng)一展現能夠評估各種IT基礎設施和服務在設定的某個時段是否發(fā)揮其應有的功能,同時實現對網絡、系統(tǒng)及應用服務等全方位監(jiān)控的統(tǒng)一呈現。統(tǒng)一告警平臺匯總、壓縮和關聯各種設備或服務的告警信息,實現統(tǒng)一監(jiān)控和展現。這樣,各專業(yè)部門可以協同作戰(zhàn)發(fā)揮更大的作用。
(3).構建科學、規(guī)范的服務流程管理
根據企業(yè)的實際組織架構,把故障支持劃分不同的類型和等級,形成梯隊化的故障處理流程,避免出現資源浪費。并且在每個級別的故障事件處理中,通過自動跟蹤機制實現故障的自動跳轉和升級,從而確保不同緊急程度的故障得到及時的響應和處理,幫助企業(yè)建立起一套科學規(guī)范的1T服務管理流程。企業(yè)環(huán)境下首次或者突發(fā)出現的事件、告警或故障通過事件工單進行處理;而對于多次出現、深層次、臨時恢復的告警事件,可通過問題管理進行解決,以便于協調優(yōu)勢資源攻關和徹底解決。通過層次化、標準化、科學化的管理,量化的評估每個技術人員的工作能力,減少了故障對業(yè)務的影響,避免出現責任不明晰,響應不及時的問題,提高客戶和用資源的使用更加合理。
(4).實施嚴謹、高效的變更審批流程
為基礎設施的變更提供快速的電子通道,減少變更過程中出現管理失控的風險和不必要的人為干擾,縮短審批時間,提高變更實施的效率。嚴謹的變更管理確保在變更實施過程中使用標準化的方法和流程,盡快和有效地實施變更,從而把由于變更所導致的事件對IT服務的影響減小到最低,同時改善了公司的日常運作。它包括一套完整的變更管理功能,包括變更的發(fā)起、審批、影響評估、派發(fā)實施等功能。以工單的形式在各部門和責任人之間流轉。
(5).IT資產配置完善管理
為企業(yè)建立完善的配置基線,為企業(yè)建立一套詳實的配置管理數據庫,小到主機內存、設備端口,大到網絡結構、部門或公司的建制,從有形的資產到無形的應用系統(tǒng)、人力資源等都能以電子方式準確記錄并長期保存。同時,資產配置管理與服務的事件、問題和變更流程相關聯。如變更流程審批完成之后增減的資產配置信息,將自動在資產配置管理數據庫中實現同步更新。
對IT運維實施有效管理,不僅能夠解放IT人員提高其工作效率,而且也是對企業(yè)業(yè)務部門的有力支持。