1 高校智慧校園建設(shè)目標(biāo)
提高高校智慧校園設(shè)備現(xiàn)代化、科學(xué)化管理水平,用新的、帶有超前意識(shí)的智能運(yùn)維管理方式來(lái)取代傳統(tǒng)的、滯后的管理方式,變被動(dòng)維修改為主動(dòng)、智能監(jiān)控,變無(wú)序管理為流程化高效管理,為高校智慧校園設(shè)施運(yùn)維提供一個(gè)智能化、流程化、可視化的集中、統(tǒng)一、高效、個(gè)性化的管理門戶平臺(tái)。
1)對(duì)省內(nèi)高校內(nèi)外網(wǎng)設(shè)備實(shí)行統(tǒng)一智能管理,系統(tǒng)自動(dòng)了解各設(shè)備的實(shí)時(shí)運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)設(shè)備的故障,完成運(yùn)維流程化記錄;
2)及時(shí)了解IT設(shè)施的運(yùn)行趨勢(shì),故障處理效率有待提高,故障處理的預(yù)見(jiàn)及趨勢(shì)分析;
3)對(duì)業(yè)務(wù)系統(tǒng)整體健康狀況和運(yùn)行趨勢(shì)的監(jiān)測(cè),判定業(yè)務(wù)系統(tǒng)是否存在運(yùn)行瓶頸及潛在運(yùn)行風(fēng)險(xiǎn),從而確定是否需要調(diào)優(yōu)或采取主動(dòng)防范風(fēng)險(xiǎn)的措施;
2 詳細(xì)方案描述
2.1 運(yùn)維管理中心
2.1.1 系統(tǒng)邏輯架構(gòu)
運(yùn)維管理中心采用模塊化設(shè)計(jì),有著最優(yōu)的數(shù)據(jù)處理性能及用戶體驗(yàn),得益于平臺(tái)采用了最前沿的技術(shù)及科學(xué)的系統(tǒng)架構(gòu)。平臺(tái)主要分為四層結(jié)構(gòu),分別是數(shù)據(jù)源接入層、采集層、數(shù)據(jù)處理層以及應(yīng)用管理層。
圖表:技術(shù)運(yùn)營(yíng)中心邏輯架構(gòu)圖
2.1.2 數(shù)據(jù)接入
數(shù)據(jù)接入層負(fù)責(zé)將機(jī)房環(huán)控系統(tǒng)、運(yùn)維監(jiān)控系統(tǒng)、及其他業(yè)務(wù)系統(tǒng)的告警數(shù)據(jù)整合,此外還提供更提供強(qiáng)大的 REST API 以及方便的 Email、短信集成方式,可將任何系統(tǒng)的告警數(shù)據(jù)快速接入到技術(shù)運(yùn)行中心。
2.1.3 采集層
運(yùn)維管理中心主要以被動(dòng)接收和主動(dòng)采集兩種方式,針對(duì)內(nèi)網(wǎng)中的數(shù)據(jù)可以通過(guò)運(yùn)維監(jiān)控工具進(jìn)行采集,并上傳給運(yùn)維管理中心;針對(duì)其他工具的告警及郵件、短信告警數(shù)據(jù)主要采取主動(dòng)抓取數(shù)據(jù)。
2.1.4 數(shù)據(jù)處理層
數(shù)據(jù)通過(guò)被動(dòng)接收或主動(dòng)采集到達(dá)運(yùn)維管理中心后,數(shù)據(jù)進(jìn)行閥值比較、告警觸發(fā)、通知觸發(fā)、以及性能數(shù)據(jù)存儲(chǔ)等一系列處理。
2.1.5 應(yīng)用層
數(shù)據(jù)經(jīng)過(guò)一系列處理后,運(yùn)維管理中心以項(xiàng)目的角度進(jìn)行數(shù)據(jù)集中展現(xiàn)、數(shù)據(jù)分析,并提供告警、通知、權(quán)限等的管理。
2.2 運(yùn)維監(jiān)控系統(tǒng)
2.2.1 對(duì)基礎(chǔ)IT架構(gòu)的全面監(jiān)控
2.2.1.1 對(duì)主機(jī)操作系統(tǒng)的監(jiān)測(cè)
對(duì)各種操作系統(tǒng)(Windows、Linux、Solaris、HP-UX、AIX、中標(biāo)麒麟、浪潮天梭K1)基本性能指標(biāo)的監(jiān)測(cè)。如 CPU 性能相關(guān)參數(shù),系統(tǒng)邏輯及物理磁盤性能相關(guān)管理參數(shù),系統(tǒng)內(nèi)存性能相關(guān)管理參數(shù)。對(duì)基礎(chǔ)應(yīng)用服務(wù)監(jiān)測(cè)??梢员O(jiān)測(cè)的指標(biāo)有:HTTP/HTTPS,SMTP/ POP3,F(xiàn)TP,DNS服務(wù),DHCP服務(wù),LDAP。
主要監(jiān)測(cè)指標(biāo)如下:
? CPU利用率:顯示系統(tǒng)、用戶、空閑時(shí)間的百分比
? 虛擬內(nèi)存(Virtual memory)利用率
? 文件系統(tǒng)使用情況:顯示監(jiān)測(cè)UNIX分區(qū)、Windows邏輯盤的剩余空間及使用率
? 物理內(nèi)存使用率:監(jiān)測(cè)內(nèi)存的使用率及剩余空間
? 監(jiān)視重要的文件:如發(fā)現(xiàn)文件被修改或文件大小迅速增長(zhǎng)時(shí),向系統(tǒng)管理員報(bào)警和產(chǎn)生相應(yīng)的動(dòng)作
? 端口監(jiān)測(cè):能夠定期監(jiān)測(cè)主機(jī)上TCP/UDP端口的狀態(tài)和占用進(jìn)程,監(jiān)測(cè)的端口可由用戶指定,并可以顯示系統(tǒng)所有的端口占有情況
? 進(jìn)程監(jiān)測(cè):能夠定期監(jiān)測(cè)進(jìn)程多個(gè)實(shí)例、子進(jìn)程、進(jìn)程對(duì)CPU/內(nèi)存的占用情況等等。當(dāng)重要進(jìn)程因意外原因終止時(shí),可根據(jù)需要自動(dòng)重啟,并將報(bào)警信息寫入事件日志
? 遠(yuǎn)程Ping監(jiān)測(cè):能夠指定遠(yuǎn)程IP設(shè)備,定期監(jiān)測(cè)主機(jī)和指定遠(yuǎn)程設(shè)備的ping響應(yīng)速度,丟包率等
? 對(duì)于UNIX操作系統(tǒng):可以監(jiān)測(cè)系統(tǒng)平均負(fù)載、IO讀寫情況以及虛擬內(nèi)存、交換空間、Paging Space等的使用情況。對(duì)于Windows操作系統(tǒng),可以監(jiān)測(cè)操作系統(tǒng)Event Log、NT服務(wù)
圖表:操作系統(tǒng)狀態(tài)監(jiān)控視圖
2.2.1.2 對(duì)網(wǎng)絡(luò)設(shè)備的監(jiān)控
運(yùn)維監(jiān)控系統(tǒng) 對(duì)網(wǎng)絡(luò)設(shè)備狀態(tài)監(jiān)測(cè)主要通過(guò)SNMP方式為主,能夠監(jiān)控國(guó)內(nèi)外主流廠商的網(wǎng)絡(luò)設(shè)備,可以監(jiān)測(cè)的相關(guān)參數(shù)有:CPU使用率、內(nèi)存使用率、端口管理和運(yùn)行狀態(tài)以及流入流出量、流入和流出使用率、單播接收和發(fā)送包數(shù)量、網(wǎng)絡(luò)流量(平均流量和最大最小值等)和帶寬、網(wǎng)絡(luò)鏈路聯(lián)通性等。還可以通過(guò)Syslog、Trap協(xié)議被動(dòng)接收網(wǎng)絡(luò)設(shè)備發(fā)送的告警,如安全設(shè)備一般都會(huì)主動(dòng)將其受到攻擊的信息通過(guò)Trap向管理平臺(tái)發(fā)送。還可以通過(guò)ICMP協(xié)議檢測(cè)線路的性能。監(jiān)控系統(tǒng)對(duì)網(wǎng)絡(luò)設(shè)備狀態(tài)監(jiān)測(cè)和管理包括以下重要的指標(biāo):
? 網(wǎng)絡(luò)設(shè)備 CPU 的使用率、網(wǎng)絡(luò)設(shè)備的內(nèi)存使用率、網(wǎng)絡(luò)設(shè)備接口的丟包率和誤包率、廣播包、非廣播包、網(wǎng)絡(luò)設(shè)備接口到對(duì)端設(shè)備接口的丟包率和網(wǎng)絡(luò)延遲。
? 提供網(wǎng)絡(luò)設(shè)備相關(guān)硬件信息及運(yùn)行狀態(tài)的數(shù)據(jù)報(bào)表
? 流入、流出廣域網(wǎng)、局域網(wǎng)的網(wǎng)絡(luò)流量監(jiān)測(cè)。
? 支持基于設(shè)備端口的實(shí)時(shí)性能分析,支持鏈路的實(shí)時(shí)性能分析。
? 為管理員提供Ping、Tracert、Nslookup、snmp 掃描、Ping掃描、MIB瀏覽器及MIB編譯器等檢測(cè)工具。
? 提供網(wǎng)絡(luò)歷史性能數(shù)據(jù)的記錄與分析管理,以按每分鐘、每五分鐘,每十分鐘、每天、每周、每月等間隔時(shí)間生成歷史數(shù)據(jù)分析報(bào)表,報(bào)表樣式分為柱形圖、線形圖、面積圖、儀表圖等,為用戶分析網(wǎng)絡(luò)運(yùn)行情況做出有力依據(jù)。
? VLAN 的監(jiān)測(cè),如 VLAN 端口的狀態(tài)和流量等。
? 支持端口的95值計(jì)費(fèi)功能;
圖表:網(wǎng)絡(luò)狀態(tài)監(jiān)控視圖
2.2.1.3 對(duì)數(shù)據(jù)庫(kù)的監(jiān)測(cè)
運(yùn)維監(jiān)控系統(tǒng) 通過(guò)JDBC,對(duì)主流數(shù)據(jù)庫(kù)進(jìn)行監(jiān)測(cè),包括Oracle、Oracle RAC、DB2、SQL Server、Mysql、達(dá)夢(mèng)數(shù)據(jù)庫(kù)等,能夠監(jiān)控?cái)?shù)據(jù)庫(kù)關(guān)鍵性能指標(biāo),如表空間、鎖狀態(tài)、會(huì)話狀態(tài),并且能夠把占用數(shù)據(jù)庫(kù)資源較多的SQL語(yǔ)句進(jìn)行排序,方便管理員查找數(shù)據(jù)庫(kù)瓶頸。
監(jiān)控系統(tǒng)對(duì)于數(shù)據(jù)庫(kù)可以監(jiān)測(cè)以下重要性能指標(biāo):
? 數(shù)據(jù)庫(kù)可用性監(jiān)控:能夠監(jiān)控?cái)?shù)據(jù)庫(kù)引擎的關(guān)鍵參數(shù)、數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)的文件存儲(chǔ)空間、系統(tǒng)資源的使用率、配置情況、數(shù)據(jù)庫(kù)當(dāng)前的各種鎖資源情況、監(jiān)控?cái)?shù)據(jù)庫(kù)進(jìn)程的狀態(tài)、進(jìn)程所占內(nèi)存空間等
? 用戶表空間和系統(tǒng)表空間使用率
? 數(shù)據(jù)庫(kù)事務(wù)日志空間的使用情況監(jiān)控
? 數(shù)據(jù)庫(kù)關(guān)鍵進(jìn)程的內(nèi)存使用以及關(guān)鍵進(jìn)程的狀態(tài)
? 能夠監(jiān)控可用的鎖資源狀態(tài)
? 對(duì)于Oracle RAC,能夠監(jiān)測(cè)到RAC狀態(tài)、集群的狀態(tài)、表決磁盤信息、TNS狀態(tài)、ASM狀態(tài)等,并通過(guò)一體化視圖進(jìn)行全局狀態(tài)展現(xiàn)
圖表:Oracle 數(shù)據(jù)庫(kù)狀態(tài)一體化視圖
圖表:Oracle Rac 集群環(huán)境狀態(tài)一體化視圖
2.2.1.4 對(duì)中間件的監(jiān)測(cè)
對(duì)于中間系統(tǒng)可以支持對(duì)于主流中間件的性能指標(biāo)監(jiān)測(cè),包括:Weblogic、Websphere、Tuxedo、Tomcat、Apache、IIS、東方通等。監(jiān)控指標(biāo)包括Thread Pools的狀態(tài)和監(jiān)測(cè)WebLogic服務(wù)器應(yīng)答時(shí)間,所有web應(yīng)用的指標(biāo),用戶會(huì)話等,主要性能指標(biāo)如下:
? 對(duì)所有web應(yīng)用的指標(biāo)的監(jiān)控
? 對(duì)日志文件的分析
? 對(duì)Jms目標(biāo)、會(huì)話,連接進(jìn)行監(jiān)控
? JDBC Pool、等待連接的時(shí)間 、正在使用的數(shù)據(jù)庫(kù)連接所占比例
? JTA事務(wù)錯(cuò)誤情況
? JMS消息服務(wù)狀況
? 自定義應(yīng)用Mbean (JMX) 屬性等
? 服務(wù)器線程池工作狀態(tài)
圖表:中間件狀態(tài)監(jiān)控
2.2.1.5 對(duì)存儲(chǔ)設(shè)備的監(jiān)測(cè)
運(yùn)維監(jiān)控系統(tǒng) 可以通過(guò)Agent、SNMP 、SMI-S或 Trap,對(duì)用戶架構(gòu)中核心智能存儲(chǔ)等進(jìn)行監(jiān)測(cè),如EMC系列存儲(chǔ)(VNX、DMX、CLARiion)、QuanTum 、HDS、IBM_DS、IBM_V系列、HP系列存儲(chǔ)(3PAR、EVA)、華為,浪潮AS系列等。
監(jiān)控系統(tǒng)對(duì)存儲(chǔ)設(shè)備狀態(tài)監(jiān)測(cè)和管理包括以下重要的內(nèi)容:
? 存儲(chǔ) IOPS;
? 磁盤空間,可用率,運(yùn)行狀態(tài);
? 電源,風(fēng)扇狀態(tài);
? 控制器狀態(tài);
? 對(duì)性能數(shù)據(jù)的采集支持自動(dòng)化調(diào)度的方式,支持Cluster、Array、Volume等不同級(jí)別的性能監(jiān)控,能展示設(shè)備歷史和實(shí)時(shí)的磁盤性能狀況以及Write I/O Rate、Read I/O Rate、Read Cache Hits、Write Cache Hits、Read Data Rate等性能指標(biāo);
? 支持存儲(chǔ)性能及磁盤、主機(jī)、盤籠之間的架構(gòu)圖展現(xiàn),如下圖:
圖表:HP 3PAR存儲(chǔ)性能視圖展現(xiàn)
2.2.1.6 對(duì)云計(jì)算的監(jiān)控
云計(jì)算所屬的虛擬化環(huán)境相對(duì)于傳統(tǒng)的物理環(huán)境,變得“看不見(jiàn)、摸不著”,對(duì)于管理也是一種新的挑戰(zhàn)。運(yùn)維監(jiān)控系統(tǒng) 云計(jì)算監(jiān)控管理通過(guò)圖形化方式構(gòu)建出宿主機(jī)、虛擬機(jī)、虛擬網(wǎng)絡(luò)、數(shù)據(jù)存儲(chǔ)間資源使用情況,從全局到局部的一體化視圖,便于用戶直觀全面了解當(dāng)前虛擬化環(huán)境的健康狀況。
運(yùn)維監(jiān)控系統(tǒng) 對(duì)于云計(jì)算架構(gòu)從物理層到虛擬層實(shí)現(xiàn)全面的監(jiān)控,將每個(gè)虛擬主機(jī)操作系統(tǒng)當(dāng)作獨(dú)立服務(wù)器,實(shí)時(shí)監(jiān)控虛擬機(jī)的資源性能,并在資源性能不足時(shí)發(fā)出警告,提醒管理員關(guān)注并及時(shí)從物理機(jī)資源池中分配更多的虛擬資源。對(duì)于Hyper-v虛擬化平臺(tái)的監(jiān)控,能夠?qū)崿F(xiàn)在虛機(jī)發(fā)生漂移后產(chǎn)生告警,提示用戶當(dāng)前虛機(jī)漂移的目的IP信息。
運(yùn)維監(jiān)控系統(tǒng) 能夠?qū)崟r(shí)監(jiān)控到不同物理機(jī)的整體資源性能,并在資源性能不足時(shí)發(fā)出警告,提醒管理員技術(shù)擴(kuò)容硬件資源。
運(yùn)維監(jiān)控系統(tǒng) 能夠動(dòng)態(tài)監(jiān)控物理機(jī)與虛擬機(jī)之間的動(dòng)態(tài)漂移,實(shí)時(shí)展現(xiàn)每一臺(tái)物理機(jī)上正在運(yùn)行哪些虛擬主機(jī)系統(tǒng),并以圖形化界面展現(xiàn)和查詢物理機(jī)IP與虛擬機(jī)IP的對(duì)應(yīng)關(guān)系,能夠監(jiān)控主流的虛擬平臺(tái),包括Vcenter、Vsphere ESX、KVM、XenServer、Hyper-V、OpenStack、Docker、FusionCompute。
? 宿主機(jī)的基礎(chǔ)信息
? 物理資源狀態(tài)及使用情況(CPU、內(nèi)存、存儲(chǔ)、網(wǎng)卡流量)
? 虛擬機(jī)一覽表
? 磁盤讀寫、網(wǎng)卡流量曲線圖
? 虛機(jī)漂移等,如下圖:
圖表:虛擬化平臺(tái)一體化視圖展現(xiàn)
2.2.1.7 服務(wù)器底層硬件監(jiān)控
運(yùn)維監(jiān)控系統(tǒng)通過(guò)帶內(nèi)、帶外方式兩種方式對(duì)PC服務(wù)器、小機(jī)及刀箱底層硬件狀態(tài)進(jìn)行全面的監(jiān)控,包括電源、風(fēng)扇、物理硬盤、Raid卡、插槽等硬件信息,代替管理員的日常機(jī)房巡檢工作,使管理員實(shí)時(shí)了解到服務(wù)器底層硬件的運(yùn)行情況,此種監(jiān)控方式不通過(guò)操作系統(tǒng),即使系統(tǒng)關(guān)機(jī)的狀態(tài)下仍可監(jiān)控服務(wù)器的基本硬件健康狀況。
對(duì)于X86服務(wù)器,運(yùn)維監(jiān)控系統(tǒng)能夠自動(dòng)采集到服務(wù)器的品牌、型號(hào)、SN、PN等資產(chǎn)配置信息,并且支持和CMDB對(duì)接,實(shí)現(xiàn)配置信息同步。
圖表:服務(wù)器硬件狀態(tài)一體化視圖展現(xiàn)
圖表:服務(wù)器資產(chǎn)配置信息采集
此外還能夠?qū)Ψ?wù)器的Errorlog、Eventlog硬件報(bào)錯(cuò)日志進(jìn)行監(jiān)控,從多個(gè)維度實(shí)現(xiàn)對(duì)服務(wù)器硬件信息的全面監(jiān)控。
圖表:對(duì)AIX服務(wù)器硬件errorlog監(jiān)控信息
能夠監(jiān)控到的服務(wù)器類型包括:IBM、DELL、HP、ThinkServer、AIX、虛擬化宿主機(jī)服務(wù)器及其他支持IPMI協(xié)議的服務(wù)器。能夠監(jiān)控到的指標(biāo)如下圖所示:
圖表:服務(wù)器底層硬件監(jiān)控信息
2.2.1.8 資源的監(jiān)控添加方式
運(yùn)維監(jiān)控系統(tǒng) 產(chǎn)品對(duì)被管資源的數(shù)據(jù)采集支持“自動(dòng)發(fā)現(xiàn)”和手工輸入兩種方式配置被監(jiān)測(cè)對(duì)象的配置參數(shù),并通過(guò)主動(dòng)輪巡機(jī)制,使用SNMP、Agent等多種采集方式來(lái)實(shí)現(xiàn)性能數(shù)據(jù)的采集。對(duì)于Agent采集,運(yùn)維監(jiān)控系統(tǒng)可以實(shí)現(xiàn)批量部署,節(jié)約部署時(shí)間成本。并且可以通過(guò)多種方式來(lái)集成和接收第三方管理工具和用戶私有系統(tǒng)的告警信息和數(shù)據(jù)。
圖例:自動(dòng)發(fā)現(xiàn)
2.2.1.9 數(shù)據(jù)獲取方式
支持的部分采集協(xié)議如下:
SNMP get (polling),SNMPtrap,Syslog,TCP,POP3,JDBC,ODBC,WMI,Shell,HTTP,HTTPS,ICMP,DNS,F(xiàn)TP,JMX,SMI-S等協(xié)議類型。
系統(tǒng)能夠依據(jù)管理的需要,定時(shí)向需要監(jiān)測(cè)的管理對(duì)象(可以是一個(gè)設(shè)備或者一項(xiàng)服務(wù))發(fā)出監(jiān)測(cè)請(qǐng)求,運(yùn)維監(jiān)控系統(tǒng) 監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)采集間隔可以靈活配置,支持最小5秒的輪巡間隔;并將記錄返回?cái)?shù)據(jù)作為告警和性能診斷的依據(jù)??梢灾С諷NMP輪巡的數(shù)據(jù)采集,SNMP協(xié)議支持V1、V2c和V3多種版本;可以支持在被管主機(jī)服務(wù)器上使用代理程序Agent的采集方式;系統(tǒng)可以提供兩種Agent分別用于Unix/Linux和Windows服務(wù)器平臺(tái);支持單一的Agent模式,即當(dāng)主機(jī)服務(wù)器上的被監(jiān)測(cè)應(yīng)用項(xiàng)目發(fā)生變更或增加時(shí),無(wú)需更換或添加額外Agent程序。使用Agent數(shù)據(jù)采集方式,可以對(duì)被管服務(wù)器進(jìn)行文件掃描、目錄檢測(cè)、接口調(diào)用等方法來(lái)擴(kuò)展監(jiān)測(cè)的范圍。監(jiān)測(cè)系統(tǒng)管理平臺(tái)支持對(duì)業(yè)務(wù)應(yīng)用系統(tǒng)自身關(guān)鍵性能點(diǎn)的自定義監(jiān)控;運(yùn)維監(jiān)控系統(tǒng) 提供界面配置的簡(jiǎn)易方式來(lái)擴(kuò)展自定義的個(gè)性化監(jiān)控器。如圖所示:系統(tǒng)支持用戶可以通過(guò)自定義Shell腳本、WMI腳本擴(kuò)展個(gè)性化的數(shù)據(jù)采集能力。同時(shí)個(gè)性化的數(shù)據(jù)采集能力能支持單位的換算以及比率或變化率能的計(jì)算。
圖例:自定義腳本指標(biāo)
可以支持其他多種協(xié)議進(jìn)行主動(dòng)式的數(shù)據(jù)采集,包括:
TCP端口探測(cè)、POP3、JDBC、ODBC、WMI、Shell、PerfMon、HTTP/HTTPS、Ping、DNS、FTP、JMX等。
2.2.2 資產(chǎn)管理
資產(chǎn)管理是IT運(yùn)維管理的核心樞紐,一個(gè)準(zhǔn)確的資產(chǎn)管理能幫助運(yùn)維人員更高效地管理IT基礎(chǔ)設(shè)施。從以往經(jīng)驗(yàn)來(lái)看,要想建設(shè)好資產(chǎn)管理,首先要降低數(shù)據(jù)錄入繁瑣性,其次是保證數(shù)據(jù)的準(zhǔn)確性,再者是提高易用性,可以靈活的為IT服務(wù)管理提供支撐。
2.2.2.1 精細(xì)化的資產(chǎn)分類
資產(chǎn)分類極大程度決定數(shù)據(jù)管理的顆粒度,科學(xué)的分類有利于維護(hù)資產(chǎn)管理的后續(xù)關(guān)系。運(yùn)維監(jiān)控系統(tǒng) 依據(jù)多年的運(yùn)維經(jīng)驗(yàn), 默認(rèn)的分類和現(xiàn)有的監(jiān)控分類無(wú)縫吻合,極大的方便了后續(xù)的數(shù)據(jù)自動(dòng)采集,定期更新等
圖表:資源分類及顯示參數(shù)
2.2.2.2 全面化的資產(chǎn)檔案
資產(chǎn)檔案管理數(shù)據(jù)不僅僅需要分類明確,對(duì)于每類資產(chǎn)信息的展現(xiàn)也需要深入全面,運(yùn)維監(jiān)控系統(tǒng)提供自動(dòng)發(fā)現(xiàn)配置信息功能,可以發(fā)現(xiàn)絕大部分的資產(chǎn)配置信息,包括網(wǎng)絡(luò)設(shè)備、服務(wù)器、操作系統(tǒng)、PC機(jī)等。
對(duì)于服務(wù)器硬件,系統(tǒng)可自動(dòng)發(fā)現(xiàn)制造廠商、型號(hào)、SN、PN等關(guān)鍵信息,并且可以自動(dòng)同步到相應(yīng)的資產(chǎn)記錄當(dāng)中;對(duì)于維保時(shí)間,可通過(guò)手動(dòng)自定義維保時(shí)間,當(dāng)維保到期,出現(xiàn)高亮或者告警提示,代替資產(chǎn)管理人員維護(hù)資產(chǎn)生命周期。
圖表:精細(xì)化的資產(chǎn)檔案
2.2.2.3 簡(jiǎn)易化的資產(chǎn)維護(hù)
當(dāng)在系統(tǒng)添加設(shè)備監(jiān)控時(shí),系統(tǒng)會(huì)自動(dòng)發(fā)現(xiàn)配置信息,根據(jù)關(guān)鍵字自動(dòng)創(chuàng)建每條資產(chǎn)數(shù)據(jù),后續(xù)會(huì)在間隔時(shí)間內(nèi)自動(dòng)檢查配置信息是否變更,如果出現(xiàn)變更,可及時(shí)發(fā)出告警;另外,還提供手動(dòng)輸入及資產(chǎn)導(dǎo)入功能,方便的初始化資產(chǎn)數(shù)據(jù)信息,降低初始化成本。
圖表:資產(chǎn)記錄詳細(xì)信息
2.2.3 對(duì)監(jiān)測(cè)數(shù)據(jù)的分析展現(xiàn)
運(yùn)維監(jiān)控系統(tǒng)提供統(tǒng)一的管理和展現(xiàn)頁(yè)面,同時(shí)支持靈活定義的管理視圖配置,為不同角度和層面的管理者提供不同的管理視圖。其中包括自定義Portal視圖、資源狀態(tài)視圖、業(yè)務(wù)關(guān)聯(lián)視圖、以及自動(dòng)拓?fù)湔宫F(xiàn)、走馬燈展現(xiàn)等。在各種類型的視圖中,可以方便地查看到被管資源的狀態(tài)、主要性能信息以及告警信息等。
2.2.3.1 我的關(guān)注Portal展現(xiàn)
運(yùn)維監(jiān)控系統(tǒng)對(duì)于我的關(guān)注頁(yè)面的顯示模塊、顯示位置、顯示內(nèi)容都能完全自定義,如下圖:
運(yùn)維監(jiān)控系統(tǒng) 首頁(yè)我的關(guān)注Portal展現(xiàn)
2.2.3.2 基礎(chǔ)數(shù)據(jù)大屏展現(xiàn)
運(yùn)維監(jiān)控系統(tǒng)大屏展現(xiàn)視圖以動(dòng)態(tài)模式為管理者提供全局業(yè)務(wù)狀態(tài)一覽。業(yè)務(wù)健康度視圖以動(dòng)態(tài)掃描的方式清晰的呈現(xiàn)業(yè)務(wù)的層級(jí)結(jié)構(gòu)以及健康度、故障信息,掃描到的業(yè)務(wù)區(qū)域能夠提供健康度信息、業(yè)務(wù)依賴的資源信息以及告警信息。業(yè)務(wù)狀態(tài)矩陣圖可以批量顯示多個(gè)業(yè)務(wù)的基本狀態(tài)信息。趨勢(shì)對(duì)比圖則很好的展現(xiàn)了核心關(guān)注指標(biāo)的歷史運(yùn)行信息。從整體到局部,運(yùn)維監(jiān)控系統(tǒng)的大屏展現(xiàn)無(wú)疑通過(guò)管理者的視角為業(yè)務(wù)進(jìn)行了一次健康體檢!
動(dòng)態(tài)可視化業(yè)務(wù)大屏展現(xiàn)視圖
運(yùn)維監(jiān)控系統(tǒng)不僅支持對(duì)業(yè)務(wù)健康度的大屏展現(xiàn),而且提供了資源的全局狀態(tài)展現(xiàn)。資源狀態(tài)統(tǒng)計(jì)能匯總監(jiān)控系統(tǒng)中全部的資源情況,并且可以通過(guò)餅圖統(tǒng)計(jì)出各類告警級(jí)別的資源占比。運(yùn)維監(jiān)控系統(tǒng)特有的資源狀態(tài)散點(diǎn)圖,能以動(dòng)態(tài)方式呈現(xiàn)海量資源健康狀態(tài)分布,方便運(yùn)維人員從全局觀看資源健康情況。
動(dòng)態(tài)可視化資源大屏展現(xiàn)視圖
2.2.3.3 資源狀態(tài)視圖
運(yùn)維監(jiān)控系統(tǒng)通過(guò)儀表盤、曲線圖等可視化的方式展現(xiàn)被監(jiān)控資源的主要指標(biāo)狀態(tài),如主機(jī)系統(tǒng)、云計(jì)算、weblogic中間件、數(shù)據(jù)庫(kù)、服務(wù)器硬件等等,如下圖所示。
資源視圖展現(xiàn)
2.2.3.4 業(yè)務(wù)拓?fù)湔宫F(xiàn)
運(yùn)維監(jiān)控系統(tǒng)提供了業(yè)務(wù)的管理視圖,業(yè)務(wù)的管理視圖以一個(gè)CIO的視角來(lái)查看和管理整個(gè)業(yè)務(wù)和基礎(chǔ)IT元素之間的關(guān)系。在一張業(yè)務(wù)視圖中就可以看到組成這個(gè)業(yè)務(wù)的各個(gè)基礎(chǔ)IT元素的運(yùn)行情況;
運(yùn)維監(jiān)控系統(tǒng)定義了IT架構(gòu)的四個(gè)層級(jí),通過(guò)監(jiān)控平臺(tái)梳理業(yè)務(wù)的層級(jí)關(guān)系,從用戶的視角展現(xiàn)出真實(shí)的業(yè)務(wù)流向及層級(jí)之間的依賴關(guān)系,實(shí)時(shí)了解到該業(yè)務(wù)系統(tǒng)包含有哪些資源,有故障的資源在哪個(gè)層級(jí),快速定位故障點(diǎn)。
底層的設(shè)備故障直接影響到上層業(yè)務(wù)的運(yùn)行,通過(guò)業(yè)務(wù)拓?fù)湟晥D,解決了故障定位不清晰,層級(jí)依賴不清晰的問(wèn)題,為“自上而下”排查故障提供依據(jù);
能夠?qū)崿F(xiàn)以下主要功能,包括:
· 在全面采集IT基礎(chǔ)架構(gòu)的基礎(chǔ)上,建立核心業(yè)務(wù)應(yīng)用系統(tǒng)與IT資源和指標(biāo)之間的邏輯拓?fù)潢P(guān)聯(lián)視圖
· 業(yè)務(wù)拓?fù)湟晥D支持同一個(gè)IT設(shè)備或指標(biāo)關(guān)聯(lián)多個(gè)業(yè)務(wù)對(duì)象,指標(biāo)的狀態(tài)能夠依據(jù)所定義的關(guān)聯(lián)關(guān)系,傳遞到多個(gè)業(yè)務(wù)拓?fù)浞种е小?/p>
· 業(yè)務(wù)拓?fù)湟晥D中實(shí)時(shí)刷新業(yè)務(wù)和相關(guān)IT資源的健康狀態(tài),以不同顏色顯示;可靈活定義刷新時(shí)間;
· 業(yè)務(wù)拓?fù)湟晥D支持靈活縮放比例顯示。
· 拓?fù)鋱D可以JPEG文件格式導(dǎo)出為圖片文件。
· 支持背景圖、圖標(biāo)文件的自定義設(shè)置。
· 業(yè)務(wù)拓?fù)湟晥D提供定義多個(gè)層次,比如一個(gè)復(fù)雜的業(yè)務(wù)可以定義多個(gè)子業(yè)務(wù)系統(tǒng)。
· 與管理員權(quán)限結(jié)合,可以實(shí)現(xiàn)不同管理權(quán)限的用戶登錄后查看到不同業(yè)務(wù)的邏輯拓?fù)浔O(jiān)控視圖。如下圖:
圖表:業(yè)務(wù)關(guān)聯(lián)拓?fù)湟晥D
2.2.3.5 自動(dòng)拓?fù)湔宫F(xiàn)
運(yùn)維監(jiān)控系統(tǒng)提供了自動(dòng)發(fā)現(xiàn)拓?fù)涔δ?,能夠發(fā)現(xiàn)全網(wǎng)拓?fù)洹⒅付ňW(wǎng)段拓?fù)?、路由拓?fù)洌軌蜃詣?dòng)關(guān)聯(lián)系統(tǒng)已經(jīng)監(jiān)控的設(shè)備的狀態(tài)在拓?fù)鋱D上實(shí)時(shí)顯示。系統(tǒng)還支持自定義拓?fù)涔δ?,管理員可以自行增加各種管理視圖,并以可視化圖形的方式展現(xiàn)各種管理視圖。每個(gè)管理視圖都將展現(xiàn)不同資源之間的關(guān)系、資源的當(dāng)前狀態(tài)和告警報(bào)警情況。每個(gè)管理視圖也可以設(shè)置不同的標(biāo)題和背景圖。在自定義拓?fù)漤?yè)面能夠顯示拓?fù)湓氐母婢畔⒑唾Y產(chǎn)信息等數(shù)據(jù)。
自定義拓?fù)湓黾雍途庉嫷姆绞揭卜浅7奖?,只需要將資源樹(shù)中的資源或指標(biāo)拖拉的方式就可以加入視圖中,所有的操作都是可見(jiàn)即可得,如下圖:
圖表:自動(dòng)發(fā)現(xiàn)拓?fù)?/p>
圖表:自定義拓?fù)湔宫F(xiàn)
2.2.3.6 “走馬燈”輪詢展現(xiàn)
運(yùn)維監(jiān)控系統(tǒng)對(duì)于不同用戶創(chuàng)建的自定義Portal視圖,可以通過(guò) “走馬燈”的方式進(jìn)行多Portal視圖的輪詢展現(xiàn)功能。通過(guò)對(duì)不同的自定義Portal視圖進(jìn)行間隔的切換展現(xiàn),能夠使相關(guān)的人員能夠知道當(dāng)前IT網(wǎng)絡(luò)環(huán)境中所關(guān)注資源的整體運(yùn)行狀態(tài),了解每個(gè)部門或者用戶重點(diǎn)關(guān)注的資源實(shí)時(shí)狀態(tài),如下圖:
圖表:“走馬燈”輪詢展現(xiàn)視圖
2.2.4 監(jiān)控?cái)?shù)據(jù)報(bào)表
2.2.4.1 運(yùn)維監(jiān)控報(bào)表
運(yùn)維監(jiān)控系統(tǒng)內(nèi)置二十多套統(tǒng)計(jì)報(bào)表默認(rèn)模板,管理員可以指定統(tǒng)計(jì)報(bào)表的時(shí)間區(qū)間,并選擇指定將哪些資源加入到統(tǒng)計(jì)報(bào)表中。
報(bào)表定支持定時(shí)發(fā)送功能,管理員可以設(shè)置報(bào)表統(tǒng)計(jì)類似,統(tǒng)計(jì)時(shí)間段,并設(shè)定報(bào)表定時(shí)發(fā)送時(shí)間,系統(tǒng)會(huì)在預(yù)定時(shí)間自動(dòng)發(fā)送統(tǒng)計(jì)報(bào)表到指定接收郵箱中,讓運(yùn)維人員無(wú)需操作系統(tǒng)頁(yè)面也能及時(shí)了解到自己關(guān)注的信息。
圖表:統(tǒng)計(jì)報(bào)表自動(dòng)發(fā)送郵件設(shè)置
同時(shí)系統(tǒng)還支持手動(dòng)發(fā)送報(bào)表至指定郵箱中,用戶在頁(yè)面瀏覽某項(xiàng)報(bào)表時(shí),如果想將此項(xiàng)報(bào)表發(fā)送到指定郵箱中,則即可在頁(yè)面進(jìn)行相應(yīng)操作:
圖表:手動(dòng)指定發(fā)送某項(xiàng)統(tǒng)計(jì)報(bào)
2.2.4.2 自定義運(yùn)維報(bào)告
用戶在報(bào)告模板中可以靈活排版,除了自己編寫文字報(bào)告,還可以嵌入動(dòng)態(tài)的數(shù)據(jù)對(duì)象,包括:被監(jiān)控的資源指標(biāo)數(shù)據(jù)、趨勢(shì)曲線、已經(jīng)存在的統(tǒng)計(jì)報(bào)表。 系統(tǒng)依據(jù)報(bào)告模板動(dòng)態(tài)生成的電子運(yùn)維報(bào)告,并以WORD格式呈現(xiàn)和導(dǎo)出。
用戶可以依據(jù)運(yùn)維管理的需要定義自己的運(yùn)維報(bào)告模板,比如日?qǐng)?bào)、周報(bào); 又比如:主機(jī)運(yùn)維報(bào)告、網(wǎng)絡(luò)運(yùn)維報(bào)告、數(shù)據(jù)庫(kù)運(yùn)維報(bào)告等等。
圖表:自定義運(yùn)維報(bào)告設(shè)置
2.2.5 告警事件管理
2.2.5.1 事件的集中管理
A. 運(yùn)維監(jiān)控系統(tǒng) 支持大集中的事件管理功能。
事件來(lái)源不僅包括監(jiān)測(cè)指標(biāo)違反門限閾值時(shí)產(chǎn)生的異常事件;還要支持通過(guò)SNMP Trap 和Syslog 接收的第三方系統(tǒng)產(chǎn)生的事件。
B. 運(yùn)維監(jiān)控系統(tǒng) 支持靈活的事件分類管理。
管理員可以定義事件的各項(xiàng)信息匹配條件實(shí)現(xiàn)對(duì)事件進(jìn)行任意的分類定義。并能依據(jù)自定義分類進(jìn)行查詢和統(tǒng)計(jì);
圖表:靈活自定義事件分類規(guī)則
根據(jù)事件信息的嚴(yán)重程度,將事件信息劃分為如下級(jí)別:緊急事件、主要事件、次要事件、警告事件、正常事件;不同級(jí)別的事件用不同顏色顯示。
D. 事件的集中展現(xiàn)
提供集中統(tǒng)一的界面顯示來(lái)自不同資源的事件信息;不同級(jí)別的事件用不同顏色顯示;異常事件發(fā)生時(shí),應(yīng)自動(dòng)將異常狀態(tài)顯示在各類監(jiān)控視圖中的相關(guān)資源和業(yè)務(wù)對(duì)象上。并實(shí)現(xiàn)從狀態(tài)監(jiān)控視圖到事件管理界面的跳轉(zhuǎn)。
E. 多用戶分權(quán)限的事件管理
事件管理與帳號(hào)權(quán)限相關(guān)聯(lián),不同管理員進(jìn)入事件展現(xiàn)界面,應(yīng)根據(jù)管理員帳號(hào)權(quán)限決定可以訪問(wèn)的事件范圍;
F. 管理員可以將最近的未處理事件列表加載到首頁(yè)P(yáng)ortal中重點(diǎn)關(guān)注;
2.2.5.2 事件的智能壓縮
運(yùn)維監(jiān)控系統(tǒng) 支持事件的屏蔽(黑名單)、壓縮和過(guò)濾策略,減少誤報(bào)。
支持對(duì)持續(xù)重復(fù)事件進(jìn)行壓縮顯示,避免大量重復(fù)事件造成信息擁堵;
支持連續(xù)N次采集違反閥值才生成異常事件;
支持M次采集中至少發(fā)生N次才產(chǎn)生事件等事件分析策略;
圖表:自定義事件屏蔽規(guī)
圖表:事件連續(xù)性閥值
圖表:事件間隔閥值
2.2.5.3 事件的處理流程
運(yùn)維監(jiān)控系統(tǒng) 提供事件確認(rèn)、反確認(rèn)、清除等規(guī)范的事件處理機(jī)制。
事件的管理應(yīng)能夠區(qū)分“未處理事件”和“已處理事件”。管理員只需關(guān)注未處理的事件
對(duì)于已經(jīng)確認(rèn)并清除的事件,將保存為已處理事件,供查詢和分析。
監(jiān)控平臺(tái)記錄每個(gè)事件從產(chǎn)生到確認(rèn)、清除的響應(yīng)時(shí)間都能夠記錄、統(tǒng)計(jì)、查詢,可以作為監(jiān)測(cè)人員崗位考核的指標(biāo)依據(jù)。
管理員可以將最近的未處理事件列表加載到首頁(yè)P(yáng)ortal中重點(diǎn)關(guān)注;
2.2.5.4 事件的報(bào)警通知策略
事件應(yīng)能夠通過(guò)聲音、郵件、短消息、微信、首頁(yè)提示等方式進(jìn)行報(bào)警通知;
為避免重復(fù)信息的干擾,報(bào)警發(fā)送策略支持靈活配置,進(jìn)行每次發(fā)送、只發(fā)送一次、最多發(fā)送N次的策略配置。
報(bào)警通知策略支持按事件分類發(fā)送到系統(tǒng)用戶/用戶組,也支持手工填寫系統(tǒng)帳號(hào)以外的郵件地址和手機(jī)號(hào)碼。
圖表:事件的通知方式
2.2.5.5 告警通知模板
監(jiān)控系統(tǒng)提供默認(rèn)的告警通知模板,也可以靈活的手動(dòng)設(shè)置告警通知模板,完全自定義設(shè)定通知的具體信息,方便發(fā)送郵件或短信,直接選擇填寫的模板就可以。
選擇通知方式后,點(diǎn)擊詳細(xì)信息按鈕就查看到發(fā)送給用戶的模板內(nèi)容,方便查看,如下圖:
圖表:告警通知模板設(shè)置
2.2.5.6 事件的分析和統(tǒng)計(jì)功能
運(yùn)維監(jiān)控系統(tǒng)提供趨勢(shì)曲線、未處理事件展現(xiàn)、已處理事件展現(xiàn)、事件報(bào)表、事件的郵件告警、事件的聲音告警、事件的短消息告警等幫助系統(tǒng)管理員進(jìn)行實(shí)時(shí)查詢、分析和統(tǒng)計(jì)。對(duì)于分析的結(jié)果可以進(jìn)行自定義時(shí)間的自動(dòng)刷新,日志實(shí)時(shí)分析支持在內(nèi)存中完成,提高反應(yīng)速度。
更多解決方案,請(qǐng)點(diǎn)擊