我國能源行業(yè)經(jīng)過多年的信息化建設(shè),信息化發(fā)展總體不僅快速而且深入。隨著ERP、郵件、OA辦公等信息系統(tǒng)不斷上線并向集中化、云化發(fā)展;信息中心網(wǎng)絡(luò)設(shè)施、安全設(shè)施、服務(wù)器存儲、基礎(chǔ)軟件等IT資源規(guī)模越來越大;云架構(gòu)、云計算、人工智能、大數(shù)據(jù)和物聯(lián)網(wǎng)等新技術(shù)的應(yīng)用使IT架構(gòu)日趨復(fù)雜;操作系統(tǒng)與服務(wù)器種類繁多,對網(wǎng)絡(luò)與系統(tǒng)的穩(wěn)定性要求與依賴程度也越來越高;業(yè)務(wù)部門對應(yīng)用系統(tǒng)的可用性、安全性和使用體驗等要求也越來越嚴格。日常IT運行維護和服務(wù)支撐壓力越來越大。當(dāng)業(yè)務(wù)故障發(fā)生之后,由于系統(tǒng)涉及到的服務(wù)廠商多,系統(tǒng)業(yè)務(wù)調(diào)用關(guān)系鏈復(fù)雜,系統(tǒng)開發(fā)語言不同、數(shù)據(jù)庫類型不同、網(wǎng)絡(luò)鏈路環(huán)境不同和管理部門不同,給IT運維帶來了巨大的挑戰(zhàn)。如何快速定位問題發(fā)生所處環(huán)節(jié)、快速解決故障、恢復(fù)系統(tǒng)服務(wù)是個非常困難的事情。 運維過程中如何確保操作合規(guī)且避免誤操作影響生產(chǎn)環(huán)境?服務(wù)管理數(shù)據(jù)

“監(jiān)、管、控、服、營”并非五個孤立的功能模塊,而是一個相互關(guān)聯(lián)、深度協(xié)同的有機整體。“監(jiān)”發(fā)現(xiàn)的問題,通過“管”定義的流程,觸發(fā)“控”的自動化動作,從而以“服”的形式體現(xiàn)價值,并由“營”來度量和優(yōu)化整個過程。例如,一次智能監(jiān)控發(fā)現(xiàn)的性能瓶頸(監(jiān)),可自動創(chuàng)建變更工單(管),觸發(fā)自動化擴容腳本(控),擴容完成后服務(wù)恢復(fù)并通知用戶(服),整個過程的數(shù)據(jù)被用于分析擴容效率與成本,優(yōu)化下次策略(營)。這種協(xié)同產(chǎn)生了“1+1>2”的聚合效應(yīng)。資產(chǎn)全生命周期管理必須對所有特權(quán)賬號實施全生命周期的自動化管理。

InforCube智能運維安全管理平臺(簡稱:SiCAP),由數(shù)據(jù)層、服務(wù)層、應(yīng)用層、展現(xiàn)層組成,其中,數(shù)據(jù)層,提供大數(shù)據(jù)存取能力與實時數(shù)據(jù)處理;服務(wù)層,包含基礎(chǔ)服務(wù)與業(yè)務(wù)服務(wù),可接入外部服務(wù),形成平臺基本能力,為上層提供服務(wù)支撐;應(yīng)用層,提供貼近用戶的業(yè)務(wù)處理,同時為展現(xiàn)層提供業(yè)務(wù)接口;展現(xiàn)層,以場景為中心,為用戶提供可視化展示及操作入口。平臺采用微服務(wù)架構(gòu),可劃分為業(yè)務(wù)微服務(wù)和數(shù)據(jù)微服務(wù),部署靈活;提供服務(wù)總線和數(shù)據(jù)總線,規(guī)范外部業(yè)務(wù)系統(tǒng)的功能接入、數(shù)據(jù)接入;平臺基于微服務(wù)技術(shù),具有高內(nèi)聚松耦合、易擴展和易維護等特性,各服務(wù)模塊按需橫向擴展,可快速支持并適應(yīng)單機、雙機、分布式、集群、私有云、共有云、容器等部署方式,輕松滿足客戶的高負載容災(zāi)需求,甚至兩地三中心的部署要求。
部署和運維堡壘機并非沒有挑戰(zhàn)。常見的挑戰(zhàn)包括:性能瓶頸:所有流量集中轉(zhuǎn)發(fā)可能帶來網(wǎng)絡(luò)延遲,尤其是圖形協(xié)議(RDP/VNC),需通過集群和負載均衡來優(yōu)化。單點故障:堡壘機自身成為關(guān)鍵單點,需采用高可用(HA)集群部署來維持業(yè)務(wù)連續(xù)性。用戶體驗:額外的登錄步驟可能引起運維人員抵觸,需通過單點登錄(SSO)集成、友好的客戶端等提升體驗。自身安全:堡壘機需進行安全加固(如嚴格的操作系統(tǒng)加固、密切的漏洞關(guān)注),并對其自身的操作進行嚴格審計。 是否支持多因素認證?能否集成企業(yè)現(xiàn)有身份源?

為實現(xiàn)上述能力,平臺背后是云原生、微服務(wù)化的彈性技術(shù)架構(gòu)。采用大數(shù)據(jù)平臺處理海量時序指標(biāo)、日志和事件數(shù)據(jù);利用規(guī)則引擎與工作流引擎驅(qū)動復(fù)雜的流程與自動化邏輯;集成AI/ML平臺提供智能分析能力;通過配置管理數(shù)據(jù)庫保障資源數(shù)據(jù)的準(zhǔn)確一致。所有組件松耦合、可擴展,通過統(tǒng)一的數(shù)據(jù)總線和API網(wǎng)關(guān)進行通信。這種架構(gòu)確保了平臺自身的高性能、高可用與高擴展性,能夠平滑支撐從數(shù)百到數(shù)百萬級資源的管理規(guī)模,是五位一體理念落地的技術(shù)保障。知識管理流程通過積累和共享解決方案,賦能運維人員支持并提升用戶呼叫解決率。運維管理
定期審查和審計特權(quán)賬號的使用情況是合規(guī)性要求的關(guān)鍵。服務(wù)管理數(shù)據(jù)
業(yè)務(wù)綜合監(jiān)控(IMP)模塊是智能運維安全管理平臺實現(xiàn)對關(guān)鍵應(yīng)用與基礎(chǔ)設(shè)施的全天候監(jiān)測的模塊。系統(tǒng)可采集CPU使用率、內(nèi)存占用、磁盤I/O、網(wǎng)絡(luò)流量等性能指標(biāo),并設(shè)置動態(tài)閾值告警。平臺支持自定義儀表盤,用戶可根據(jù)需要展示重點關(guān)注的數(shù)據(jù),冰可以自定義關(guān)注數(shù)據(jù),訂閱定時報表,獲取監(jiān)控信息。當(dāng)監(jiān)測到異常波動時,系統(tǒng)會自動關(guān)聯(lián)相關(guān)日志與事件,輔助根因分析。通過與告警通知系統(tǒng)集成,運維人員可及時獲知問題,提升響應(yīng)效率。服務(wù)管理數(shù)據(jù)