隨著互聯網的發展進入下半場,數據的時效性對企業的精細化運營越來越重要。商場如戰場,在每天產生的海量數據中,如何實時挖掘有價值的信息并快速觸達客戶,對企業的運營決策調整、用戶體驗提升等都有很大幫助。為了讓數據更高效的反哺業務、更及時地支撐決策,最大化發揮數據價值,企業開始探索通過構建實時數倉來滿足快速獲取數據的需求。
實時數據倉庫集實時數據采集、實時數據處理、離線數據校正和數據定制化展示4大功能一體,可支持實時經營分析、實時營銷、實時風控等場景的需求。新場景的出現催產出新的技術,新一代實時計算引擎Flink的興起,在超高性能、數據一致性保障、SQL化編程方式等特點下也推動了實時數倉的發展。基于Flink架構的實時數倉為各類實時應用場景提供數據基礎,在數據中臺體系中起著至關重要的作用。
長亮科技作為金融科技領先企業,也對實時數倉建設做了大量的嘗試和實踐。本文將以長亮科技參與建設的某城商行實時數倉建設項目為引子,分享基于Flink技術組件建設實時數倉的經驗。
某城商行實時數倉建設方案
實時數倉建設在保證數據準確性的情況,最優先考慮的問題就是如何保證數據的實時性,因此Kafka、Hbase這類讀寫效率較高的技術組件成為實時數倉數據交換組件的首選。根據選型組件的特性以及實時性的要求,實時數倉架構分層需注意以下幾點:
· 簡化鏈路,盡可能縮減數據處理鏈路,最大化保證數據實時性;
· 實時數倉數據流轉在Kafka去結構化消息隊列,數倉各層需分工明確,方便操作人員對數據進行回溯、定位;
· 準備離線數據對實時數據的校驗,防止計算錯誤或者遺漏的情況;
· 因為實時數倉任務均為7x24不間斷運行,如果出現意外情況某一層鏈路終端,實時數倉就會出現斷數的情況,這時候需要離線數據保證查詢服務可以正常返回數據。
綜上所述,實時數倉構建分為4層,各層具體說明如下:
· RTL:技術解析層,通過數據采集工具收集各個業務源數據,數據結構保持一致;
· ROL:貼源層,分為實時區和離線區兩個區域,實時區存放經過一定清洗/標準化的數據,離線區存放每日同步的離線維度數據;
· RCL:匯總共享層,存放輕度匯總和可以共享的數據,數據按照一定規則進行分類,達到可以復用的目的;
· RDL:數據服務層,將RCL層數據進行指標化加工,包括分析、應用匯總類指標以及明細數據;分為實時區和離線區,實時區存放實時指標結果,離線區存放每日離線指標結果,用于數據保底與實時數據校驗。
不同場景下的實時數據處理鏈路
實時數據應用包含實時指標計算、流式傳輸、實時風控、實時營銷、實時對客等多種業務場景。基于FlinkSQL+OLAP的生產鏈路,實時數據通過采集工具同步至消息隊列進行承載,再經由實時數倉進行業務加工后,落地到各類存儲,最后由下游業務系統接收處理或者由數據服務平臺推送給各類終端進行展示,整條鏈路兼顧了數據的時效性與查詢的高效性。
在某城商行實時數倉建設項目中,其主要業務場景包括實時資產負債、實時管理駕駛艙以及實時監管數據監測等。
場景一:實時資產負債:實時獲取各業務系統用戶動賬后的余額,通過關聯相關維度信息補充數據到結果表,后續由前端查詢實時結果表返回數據;
通過構建實時、離線兩張Hbase結果表并實時比對的方式應對用戶對實時交易、不動帳的實時查詢需求,相比于采取“昨日離線余額+今日實時發生額”的原始查詢方案,更能提升查詢結果的時效性,規避了每日日切時間與跑批時間段的空窗期數據時效性的問題。
場景二:實時管理駕駛艙:通過實時獲取交易動賬,對全行級別的資金流入流出金額、客戶資產、申貸金額及人數等指標進行實時展示;
以實時資金流入流出統計為例,對當日交易動賬數據按照指標粒度進行分組聚合,保證每個粒度在RDL層rowkey相同,每獲取到一條動賬信息,計算出最新的資金金額后根據rowkey實時更新hbase表結果數據。
場景三:實時監管數據監測:根據制定的監管命中邏輯對當日交易流水進行監控,符合命中邏輯的數據發送到下游進行交易限制等處理;
以涉賭涉詐需求為例,監管命中邏輯為在非柜面系統中,連續發生涉及5個不同用戶名及以上的收款、轉賬等資金交易,且每筆交易間隔不超過3分鐘、每筆金額在0.01-10元。此類場景可基于Flink的over窗口功能與事件時間,通過計算交易流水前后一段時間內對手客戶數量及交易金額,判斷是否滿足命中邏輯,從而打上命中標記發往下游系統。
通過采用Flink技術構建實時數倉,我們將數據生產的各個環節抽象化形成實時數倉的各層架構,實現了全棧實時數據應用的數據源統一,保障了應用數據指標和維度的口徑一致,助力獲取實時數據的便捷性和時效性大大提升,從而提升客戶的整體運營效率。
結語:
在當前數字化轉型大潮中,實時數據倉庫的建設作為數據中臺體系的重要組成部分,對金融機構而言意義重大。而長亮科技在實時數據處理領域有豐富的實施經驗,已為中國銀行、南京銀行、柳州銀行等不同規模的銀行提供了實時數據處理解決方案。未來,長亮科技將在實時數倉領域探索更多新業務形態的落地,助力客戶高效挖掘數據價值、反哺業務發展!