掃一掃
關注微信公眾號

以數據為驅動,建立全方位的業務可視化能力
2019-02-21   網絡安全和運維

  | 北京銀行系統運營部副總經理武威受邀參加“2019雙態IT用戶大會”,并于廣通軟件分會場與多位重磅嘉賓一同分享他們在運維領域的思考,本文根據其主旨演講整理而成,有刪節。
  
  北京銀行自1996年建行初期便開始了信息化方面的工作。迄今為止,銀行內部虛機/物理機數量已達2000-3000臺,業務系統約為260個左右。雖然與行業內同規模銀行的布局比較類似,但是北京銀行內部的應用系統及服務器的數量相較于其他行更多,數據庫和系統中間件的類型也更為復雜。
  
  基于以上背景,北京銀行在此前也進行了一系列針對應用層、系統層、網絡安全層等方面的監控工具建設。整體來看,無論是監控數量還是力度都是比較大的,但由于各個層面的監控產品不盡相同,也難以有效聯通協作,實際監控中依舊面臨著非常大的挑戰。
  
打通數據孤島,提升業務系統高可用性
  
  北京銀行從2016年開始進行整體的運維規劃布局與實施工作,包括但不僅限于監控工具以及其他IT軟件、系統均來自不同產商,這些軟件從界面到使用習慣均各有特點,如何將其各自效能發揮出來,成為了現如今北京銀行運維所面臨的最大的挑戰。
  
  以監控工具為例,最基本的是能發現問題,這件工作基本都已實現,各類監控產品推陳出新,靜態基線、動態閾值、SNMP、網絡旁路抓包等等。但是真的出現故障時,就會出現井噴式的報警信息。
  
  具體來講,我認為可以分為三個層次:一是在整個業務流程的鏈路上,某個節點系統出現不穩定情況,導致很多的業務系統處理時間、成功率等異常。需要明確哪個系統是根源;二是一個業務系統中,包含負載均衡、應用、數據庫、通訊、加密甚至各層級的網絡安全設備。明確了業務鏈條上哪個業務系統是故障根因后,需要明確由于哪個設備的異常導致的業務系統異常;三是在單個設備中,往往重啟服務是最快速的解決問題方法。但是當CPU升高、交易時間變長等異常狀態同時出現時,依舊需要依靠技術人員橫向分析才能判斷問題原因,但前提是監控系統詳細記錄了問題出現的過程和現象,并且在服務重啟過程中故障現場的各類數據能夠精準的保留下來。

 ·北京銀行系統運行情況分解圖·
  
  我們再以最典型的“手機銀行購買理財”業務場景作為例子。客戶的操作旅程大致為:登錄-余額查詢-理財查詢-購買理財-查詢是否購買成功-查詢余額等多個操作,而事實上,單純“購買理財”這一個操作,系統會從手機銀行端發起請求至ESB統一平臺,然后再發送到理財系統,由理財系統發送至核心系統進行響應。
  
  如果某個時間點該業務場景的任一環節出現遲緩等問題(比如手機端進行秒殺遲緩),在進行問題分析處理的時候就會涉及到各個不同的層面。例如,它可能會涉及到不同客戶手機所使用的APP,以及WEB服務器、手機應用、不同數據庫以及相關的網絡設備、防火墻等等。同時,這一個流程上又會涉及很多設備,每一個也都需要在自己的監控工具上才能拿到相關的數據。
  
  其次,即使就單單一個數據庫而言,它也有自己的硬件服務器、盤陣、網絡設備,有自己獨立的一套操作系統,系統本身還會有備份以及批處理作業,以上所有的設備以及過程一旦發生變動都會對業務處理產生很大的影響。
  
  例如,北京銀行內部曾經出現過一次故障,該故障不是在使用其他系統期間出現,表現為整個IT系統突然就變得緩慢,導致大量交易不成功。最后經運維人員層層篩查日志發現,是由于后臺程序自動的在某個點發起了一個備份作業,而且鑒于這個備份作業在后臺自動發起,非人工操作引起的,運維人員根本不知情。故障發生時,由于沒有全方位的監控數據能夠顯現,問題篩查過程耗費了大量的人力、物力。
  
  從上面的情況中,我們可以看到,即使有了全面的監控,但是如果數據依舊還是散落在各個監控系統內的,管理員在按照時間維度進行橫向比對,篩查可能的問題時是非常困難的。再者,后臺批處理作業的狀態、近期的變更都有可能導致系統的不穩定,因此有必要建立一體化的運維大數據平臺,進行全面的業務可視化管理。
  
構建業務可視化平臺,實現數據利用閉環
  
  基于以上原因,北京銀行IT運維的當務之急是進行業務可視化平臺的建設,以此做到數據的全方位管控與利用,提升運維效率,減少故障。

  
·可視化監控平臺建設目標·
 
  
  全面掌握數據,保障系統穩定運行
  
  通過可視化的監控平臺,將覆蓋十幾個監控系統的作業數據全面收集,統一納管,來實現系統運行狀況的實時掌握,保證生產系統穩定運行。并在此基礎上,保證業務連續性,給業務人員提供穩定的系統環境。
  
  數據質量轉換,使其標準化
  
  由于行內各個監控系統的使用習慣、規則等不盡相同,網絡之間分歧等原因,來源于不同路徑的數據往往在類型、格式上都不太一致,因此在進行統一納管的時候會非常困難,更別提對他們統一進行分析利用。因此,需要制定指標數據、事件數據的相關規范,將來源于不同系統的指標和事件數據進行數據轉換,使其標準化,便于后續利用。
  
  完善數據分析能力,提升系統穩健性
  
  面對龐大的業務量,銀行內部的數據增長呈指數級趨勢,巨大的數據如果僅僅只是被存儲起來,那么將變成累贅的包袱。而運維要想走向最終的“運營”,離不開數據的有效利用。在新的運維模式下,我們將一個生產事件分為三個部分,分別是“事前”、“事中”、“事后”,每一部分的數據都有其不同的角色價值。
  
  在“事前”,將數據分析與業務規劃結合起來,做到對流量、容量進行預測,有的放矢。在“事中”,將數據統一規劃進行分析,并快速進行對比問題、發現問題并關聯問題,最終做到故障告警智能去重,降低運維噪音。在“事后”,及時做好歸納總結,智能提供參考的故障排查路徑與解決方案。
  
  進行趨勢預測,防患于未然
  
  面對北京銀行每天數以億計的指標數據、事件數據、以及非關系型數據的采集納管,需要使用大數據技術進行相關的存儲和計算。與此同時,建設依賴于CMDB關系數據和二叉決策樹算法來判斷事件的相關性,再輔助以專家規則進行修正。
  
以核心業務價值,驅動IT精細化管理
  
  北京銀行通過搭建一體化的運維大數據平臺,進行全方面的業務可視化管理能力建設,目前平臺已經具備統一收集數據、數據轉換等功能,并在此基礎上,IT系統得以高效、穩定運行。但是,在關于數據兼容性、數據質量等方面,還有待后期建設完善。


·可視化監控平臺建設方案·
  
  北京銀行業務可視化運維監控平臺是以Kafka為基礎的數據交換平臺,具備數據接入、輸出的能力。數據接入來源有:服務器設備指標數據、事件數據數據庫、中間件指標數據、事件數據網絡、安全設備指標數據、事件數據業務監控指標數據、事件數據關鍵業務指標數據等不同來源,數據輸出包括可視化平臺和數據分析的平臺,由數據接入來的數據在數據輸出處進行分析、處理后,交由數據消費環節,這部分包括有:大屏展現、態勢感知、關聯事務查詢、業務系統看板、事件根因分析等等。
  
  通過實際建設,北京銀行可視化監控平臺能夠實現多種功能,其中包括通過將關鍵指標(如MQ隊列,http延時)可視化進行業務綜合概覽。并且,可視化平臺內設有健康度模型,運維人員能夠在后臺看到最近七天實時的系統健康程度,還可以通過內置的權重模型,設定業務健康度評估,權重值允許自定義調整,同時支持添加新的指標。與此同時,前期建設的自動化運維平臺可以和可視化關聯起來,當系統出現故障的時候,實現故障自愈的相關操作。
  
  北京銀行期待未來的IT支撐建設能夠從“運維”走向“運營”,站在銀行布局的戰略角度,希望實現的不單是業務數據、IT資源能夠有效納管,確保IT資產、業務數據,能夠實現“看得見,管的住”。還應當將統一收集到的有效數據進行高效的數據分析,比如銀行卡系統的成交率、理財購買人員的男女比例、年齡架構、資金來源等都能夠實現數據化的分析,進而對業務運營、決策做出一些指導意見。

熱詞搜索:廣通軟件 可視化

上一篇:西安建筑科技大學數據庫審計項目
下一篇:最后一頁

分享到: 收藏
評論內容
云南快乐十分开奖结果爱彩乐