1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

金融行業(yè)數(shù)據(jù)復(fù)雜 成本高 難獲取 看路孚特如何打破困局

 2019-11-27 12:44  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

嘉賓丨路孚特 RDP 研發(fā)總監(jiān)董玉棟,路孚特高級研發(fā)經(jīng)理趙儀,路孚特企業(yè)架構(gòu)總監(jiān)陳強

2018 年,湯森路透金融與風(fēng)險業(yè)務(wù)部門獨立成為 Refinitiv(路孚特)。路孚特在湯森路透金融數(shù)據(jù)和市場知識積累之上,利用領(lǐng)先的技術(shù)、信息和分析方法繼續(xù)為行業(yè)者提供著服務(wù)。如今路孚特推出金融數(shù)據(jù)平臺。(Refinitiv Elektron Data Platform,簡稱 RDP),進一步發(fā)揮其在行業(yè)積累的優(yōu)勢。InfoQ 記者專訪路孚特 RDP 研發(fā)總監(jiān)董玉棟、路孚特高級研發(fā)經(jīng)理趙儀、路孚特企業(yè)架構(gòu)總監(jiān)陳強,揭秘 RDP 的設(shè)計理念及技術(shù)亮點。

從傳統(tǒng)的金融數(shù)據(jù)管理到現(xiàn)代金融數(shù)據(jù)治理,金融行業(yè)迎來巨大的轉(zhuǎn)變。由于數(shù)據(jù)量增長形成的倒逼,以及要順應(yīng)監(jiān)管機構(gòu)和用戶的需求,越來越多的金融從業(yè)機構(gòu)開始意識到“數(shù)據(jù)驅(qū)動”的重要性,但全面釋放數(shù)據(jù)價值的過程并非一帆風(fēng)順。

金融行業(yè)在數(shù)據(jù)治理中面臨哪些痛點?

路孚特企業(yè)架構(gòu)總監(jiān)陳強表示,在金融行業(yè)里,數(shù)據(jù)來源非常復(fù)雜。面對不同的數(shù)據(jù)提供廠商、數(shù)據(jù)類型以及數(shù)據(jù)提供方式,企業(yè)要獲取所需的金融數(shù)據(jù)并作處理分析,成本并不低。而一些小型金融機構(gòu)即便獲取到數(shù)據(jù),也沒有足夠的技術(shù)能力去處理。

從另一個角度來看,路孚特高級研發(fā)經(jīng)理趙儀解釋,數(shù)據(jù)通常受到兩類人的關(guān)注:一類是數(shù)據(jù)提供商,另一類是數(shù)據(jù)消費者。對于數(shù)據(jù)提供商而言,數(shù)據(jù)的權(quán)限管理、再分發(fā)權(quán)限的機制、數(shù)據(jù)合規(guī)等始終是痛點;對于數(shù)據(jù)消費者而言,如何解決數(shù)據(jù)來源不同、格式不統(tǒng)一、不一致等問題迫在眉睫。

總體來看,金融從業(yè)機構(gòu)面臨的主要痛點如下:

數(shù)據(jù)來源復(fù)雜,且在不同部門、不同業(yè)務(wù)系統(tǒng)以及不同領(lǐng)域的機構(gòu)間,數(shù)據(jù)缺乏流動性和共享性。

數(shù)據(jù)標(biāo)準化程度低。來自不同業(yè)務(wù)、不同時期的數(shù)據(jù),在用途、結(jié)構(gòu)、價值和質(zhì)量水平等方面差異較大,導(dǎo)致數(shù)據(jù)的提取、整理、分析和使用的難度加大。

成本問題。隨著用戶量和數(shù)據(jù)量的增加,訪問和使用數(shù)據(jù)的成本也在大幅提升。

目前金融機構(gòu)大部分可利用的數(shù)據(jù)依然是傳統(tǒng)業(yè)務(wù)產(chǎn)生的數(shù)據(jù),而外部數(shù)據(jù)源拓展不足,缺乏更高層面的統(tǒng)籌協(xié)調(diào)來支持全面的數(shù)據(jù)分析和使用。

基于以上原因,路孚特推出了自主研發(fā)的金融數(shù)據(jù)平臺 RDP。該平臺應(yīng)用統(tǒng)一的存儲層能力匯集來自全球的海量金融數(shù)據(jù),通過完整的清洗、分析和增值處理流程后,集中分發(fā)給用戶。

RDP 研發(fā)總監(jiān)董玉棟提到,路孚特已經(jīng)與全球的證券交易所、期貨交易所等機構(gòu)建立了合作關(guān)系,從數(shù)據(jù)生產(chǎn)端獲取到一手數(shù)據(jù),面向全球發(fā)布到數(shù)據(jù)消費的一端。簡單來講,就是“收之全球,發(fā)之全球”。

可以說,RDP 相當(dāng)于一個全球金融行業(yè)數(shù)據(jù)的統(tǒng)籌協(xié)調(diào)中心,其目的是方便金融從業(yè)者獲取更全面的行業(yè)數(shù)據(jù),同時盡可能減少用戶成本,增加數(shù)據(jù)價值。

RDP 如何幫助金融從業(yè)者以較低的成本訪問和使用數(shù)據(jù)?

據(jù)了解,企業(yè)在數(shù)據(jù)傳輸過程中,除了從上游不同業(yè)務(wù)數(shù)據(jù)庫中實時、定時傳輸?shù)较掠蜗到y(tǒng)之外,還需要從外部合作商、供應(yīng)商中獲取業(yè)務(wù)數(shù)據(jù)。RDP 具有大數(shù)據(jù)級別的行業(yè)數(shù)據(jù),那么,它是如何幫助金融從業(yè)者以較低的成本便捷地訪問和使用這些數(shù)據(jù)?

RDP 的解決思路是:將其核心數(shù)據(jù)存儲在 AWS 上,為用戶提供基于元數(shù)據(jù)驅(qū)動的統(tǒng)一的 API 接口。RDP 的數(shù)據(jù)和 API 接口可以通過所有主流的公有云產(chǎn)品、私有云設(shè)施,以及企業(yè)自有數(shù)據(jù)中心訪問。

從用戶角度來看,基于元數(shù)據(jù)的訪問大大簡化了客戶對數(shù)據(jù)的使用。但是,數(shù)據(jù)訪問越便捷意味著開發(fā)難度越高。董玉棟也提到,統(tǒng)一的 API 背后,需要理解客戶不同類型的請求,并能夠高效執(zhí)行,但云原生的 API 網(wǎng)關(guān)并不能完全實現(xiàn)這種特性。

API 網(wǎng)關(guān)處于客戶端與各個微服務(wù)之間,擔(dān)任著反向代理的角色,負責(zé)將不同的請求路由到相對應(yīng)的微服務(wù)中去。API 網(wǎng)關(guān)可以解決客戶端需求和每個微服務(wù)暴露的細粒度 API 不匹配、部分服務(wù)使用的協(xié)議非 Web 友好協(xié)議等問題。

為了提升 API 性能,滿足用戶不同類型的訪問請求,路孚特自主研發(fā)了 API 網(wǎng)關(guān)以及用戶數(shù)據(jù)權(quán)限管理系統(tǒng)。AWS 中的 API 網(wǎng)關(guān)會注冊其所有的 RDP API,包括內(nèi)部消費的 API 和面向客戶的 API。用戶請求到達以后,API 網(wǎng)關(guān)會自動驗證用戶的權(quán)限,并保證后續(xù)的合法數(shù)據(jù)請求快速遞交給相應(yīng)的服務(wù),而超出服務(wù)范圍的請求會自動拒絕。董玉棟表示,所有在 RDP 上的產(chǎn)品設(shè)計都是從 API 定義開始,這有助于實現(xiàn)把客戶需求放到第一位的目標(biāo),并最大化各種 API 及服務(wù)的重用性,避免重復(fù)實現(xiàn)相同的功能。

在數(shù)據(jù)分發(fā)上,RDP 統(tǒng)一了流式處理、批量處理和基于請求的數(shù)據(jù)提供方式。對于流式數(shù)據(jù)的訪問,董玉棟提到,這類數(shù)據(jù)即時性很重要,RDP 通過在中間做多層緩存將數(shù)據(jù)持續(xù)且高速地推送給客戶。

批量數(shù)據(jù)請求分為“定制批量請求”和“隨機批量請求”兩種情況。對于定制批量請求,RDP 按照約定時間定時打包推送給用戶;對于隨機批量請求,則采用異步打包,然后將數(shù)據(jù)提取位置發(fā)送給用戶的方式處理。

對于面向搜索的數(shù)據(jù),董玉棟介紹:“這類訪問基本都是同步請求,實時訪問我們的數(shù)據(jù)庫返回給客戶。有時候用戶基于搜索的數(shù)據(jù)量特別大,RDP 系統(tǒng)會進行職能預(yù)測,自動將這一類請求轉(zhuǎn)變成隨機批量數(shù)據(jù)請求來處理。”

那么,如何應(yīng)對諸如跨洋實時交易這類對時效性要求非常高的超低時延數(shù)據(jù)訪問?

趙儀解釋:“跨洋實時交易本身存在地理位置上的時延,再加上系統(tǒng)帶來的時延,通過云服務(wù)訪問無法滿足超低時延的需求。即便是快到 70ms 的時延,對于實時交易來講,也是一種延遲。”路孚特的做法是在全球部署數(shù)據(jù)中心,以此提高時效性。此外,目前公有云還無法提供具有超高時效性的數(shù)據(jù),因此,比較合適的做法是將數(shù)據(jù)通過專線直接部署到用戶所在地。

元數(shù)據(jù)驅(qū)動的價值與挑戰(zhàn)

從簡單的庫表到整個數(shù)據(jù)平臺,再到服務(wù)管理,元數(shù)據(jù)管理的范圍正在擴大,不斷突破傳統(tǒng)管理的范疇,并在大數(shù)據(jù)治理中發(fā)揮著關(guān)鍵作用。而 RDP 的整個系統(tǒng)便是由元數(shù)據(jù)驅(qū)動的。

簡單來講,元數(shù)據(jù)是對數(shù)據(jù)本身進行描述的數(shù)據(jù),如描述數(shù)據(jù)的格式、映射關(guān)系、語義、權(quán)限等。元數(shù)據(jù)管理具有以下三方面的價值:

可以為數(shù)據(jù)管理提供統(tǒng)一的視圖,方便數(shù)據(jù)交互共享;

實現(xiàn)數(shù)據(jù)自動關(guān)聯(lián)分析,為數(shù)據(jù)分析、問題定位等提供支撐;

便于建立數(shù)據(jù)標(biāo)準,統(tǒng)一交換、存儲、應(yīng)用口徑,減少共享壁壘,降低應(yīng)用出錯幾率,提升質(zhì)量。

在大數(shù)據(jù)時代,數(shù)據(jù)的容量、多樣性等在持續(xù)擴充,元數(shù)據(jù)管理也面臨著挑戰(zhàn)。目前,元數(shù)據(jù)仍然沒有統(tǒng)一的標(biāo)準,如何用一套統(tǒng)一的語義去描述種類繁多的金融數(shù)據(jù)間的特征,并且真正和數(shù)據(jù)管理系統(tǒng) / 微服務(wù)之間緊密集成而不是割裂的存在,是行業(yè)中普遍存在的問題。

企業(yè)首先需要集中化管理元數(shù)據(jù),由一個專門且人數(shù)較少的架構(gòu)師團隊定義元數(shù)據(jù),并進行統(tǒng)一管理。其次,研發(fā)團隊要讓軟件能夠支持元數(shù)據(jù)體系,并與之融為一體,而非割裂存在。最后,不僅內(nèi)部的系統(tǒng)要實現(xiàn)元數(shù)據(jù)驅(qū)動,系統(tǒng)間的相互訪問以及對外開放也需要遵循同一套體系。

隨著元數(shù)據(jù)驅(qū)動的數(shù)據(jù)管理、API 訪問和增值業(yè)務(wù)能力的增加,元數(shù)據(jù)實質(zhì)上已經(jīng)成為了更高級別抽象的代碼,這就帶來了一個難題:如何進行數(shù)據(jù)的生命周期管理。確切地說,這類復(fù)雜的問題沒有單一的解決方案,必須從系統(tǒng)級架構(gòu)、可重用的代碼和服務(wù)、DevOps 和自動化測試、代碼安全掃描等多個方面來解決問題。

對此,陳強分享了以下幾點經(jīng)驗:

(1)如何在權(quán)限管理系統(tǒng)中定義“誰”可以“管理”哪些“元數(shù)據(jù)”?可以把整個系統(tǒng)中的“誰”、“管理(行為)”、“元數(shù)據(jù)”這些業(yè)務(wù)概念也都元數(shù)據(jù)化,由統(tǒng)一的身份及權(quán)限系統(tǒng)通過共享服務(wù)進行統(tǒng)一管理。

(2)對于可以在線修改并實時生效的元數(shù)據(jù),尤其是決定數(shù)據(jù)存儲和表現(xiàn)形式的元數(shù)據(jù),如何保證由其驅(qū)動的數(shù)據(jù)系統(tǒng)的健壯性、穩(wěn)定性和可控性?首先,在線元數(shù)據(jù)的修改和發(fā)布是獨立的異步流程,可由相應(yīng)的權(quán)限進行控制;其次,對元數(shù)據(jù)的前后變化進行快照,并以版本號作為快照的唯一標(biāo)識符,在發(fā)布和回滾元數(shù)據(jù)版本時可以明確地識別具體的快照內(nèi)容;最后,發(fā)布和回滾的過程中,可以根據(jù)業(yè)務(wù)特點,根據(jù)需要輔以各種在線的自動化功能測試和發(fā)布策略。

(3)某些業(yè)務(wù)及技術(shù)實現(xiàn)的復(fù)雜度導(dǎo)致一些元數(shù)據(jù)的修改無法真正進行熱加載和實時生效,或者實現(xiàn)熱加載 / 部署的代價過高,但仍然需要業(yè)務(wù)管理專家而非研發(fā)人員控制和實施元數(shù)據(jù)修改的部署。RDP 在應(yīng)用中會盡量利用公有云的彈性,對版本化后的元數(shù)據(jù)進行修改,并進行 CI/CD 持續(xù)集成和自動化測試,同時輔助以藍 / 綠部署策略。這樣,元數(shù)據(jù)的版本控制與代碼的版本控制流程及部署策略就可以非常接近。不同的是,元數(shù)據(jù)的修改是通過易于使用的控制界面,主要由業(yè)務(wù)專家進行管理。在這背后,路孚特所有由業(yè)務(wù)專家使用的功能都會經(jīng)過充分的測試,確保界面上可以操作的功能是健壯有效的。

隨著數(shù)據(jù)量的增長,RDP 如何平衡性能與成本?

隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)平臺難免要面對數(shù)據(jù)或作業(yè)爆發(fā)式增長所帶來的挑戰(zhàn)。RDP 的用戶量和數(shù)據(jù)量每年都會大幅增長,相應(yīng)的成本投資增長不容小覷。在這種數(shù)據(jù)量和計算量不斷增長的情況下,如何去平衡性能和成本?趙儀表示,這一問題的核心在于每個用戶計算成本的控制,即如何保證每個用戶計算成本不隨用戶數(shù)量和數(shù)據(jù)量的增加而顯著增加。RDP 在控制成本方面可借鑒的方法有:

(1)盡可能地在用戶間共享可以共享的計算,只需支付對用戶的分發(fā)成本;

(2)控制熱點數(shù)據(jù)的規(guī)模,在 API 級區(qū)分熱點訪問和冷數(shù)據(jù)訪問;

(3)基于微服務(wù)的管理,方便用戶管理自己的數(shù)據(jù)需求;

(4)用戶輸入不同的數(shù)據(jù)源不盲目整合,避免在一個對象模型下產(chǎn)生巨量的數(shù)據(jù)集,從而降低用戶增加對單個用戶計算復(fù)雜度的影響;

(5)數(shù)據(jù)壓縮 / 訪問本地化 / 算法優(yōu)化等傳統(tǒng)方法。

對于大數(shù)據(jù)平臺而言,區(qū)分冷熱數(shù)據(jù)并安排不同的存儲方式是非常重要的一項工作,對存儲成本和計算性能至關(guān)重要。對于冷數(shù)據(jù),由于調(diào)用頻率相對較低,可以通過冷壓縮,將數(shù)據(jù)壓縮到最小,再存儲起來的方式節(jié)省存儲成本;對于熱數(shù)據(jù),則需要增加 Cache 或者采用一些優(yōu)化策略,讓用戶能快速調(diào)用,從而提升計算性能。

數(shù)據(jù)本身并不產(chǎn)生價值,基于數(shù)據(jù)的計算才能帶來價值。為了保證上層計算的有效性,通常將數(shù)據(jù)放在距離計算最近的地方,否則會帶來傳輸?shù)难舆t。數(shù)據(jù)的統(tǒng)一存儲并非是將數(shù)據(jù)都放在同一個地方,這里的統(tǒng)一存儲其實是一個邏輯概念。不同的數(shù)據(jù)應(yīng)該放在不同的存儲中,才能使數(shù)據(jù)上層的計算最有效,并將數(shù)據(jù)延遲降到最低。RDP 會針對不同的訪問請求提供不同的數(shù)據(jù)訪問緩存,并輔以共享計算的方式對數(shù)據(jù)傳輸進行優(yōu)化。

路孚特金融數(shù)據(jù)平臺的未來發(fā)展趨勢

科技帶給金融行業(yè)的影響顯而易見,在金融機構(gòu)進行各種互聯(lián)網(wǎng)創(chuàng)新的同時,也將金融科技的重要性提升到了戰(zhàn)略高度,通過 AI、大數(shù)據(jù)、云計算、區(qū)塊鏈等新興技術(shù)不斷提升金融效率和競爭力,建立新的金融生態(tài)。

而大數(shù)據(jù)技術(shù)從最初的“新奇”發(fā)展到如今的“普惠”階段,用戶的關(guān)注點也發(fā)生了很大的改變。早期用戶比較關(guān)注“靈活”、“快”,現(xiàn)在更關(guān)心的是企業(yè)級能力,同時降低成本也變得越來越重要。目前,企業(yè)級數(shù)據(jù)平臺普遍存在的困難是高速增長的數(shù)據(jù)和計算量與成本之間的矛盾。如何用更低的成本獲取更多的信息,不僅是金融從業(yè)機構(gòu)的迫切需求,也是數(shù)據(jù)平臺的核心競爭點。

談及 RDP 未來的發(fā)展重點,趙儀表示:“RDP 的目標(biāo)主要集中在加強數(shù)據(jù)的統(tǒng)一存儲和分發(fā)能力,降低客戶獲取數(shù)據(jù)的復(fù)雜度和成本。未來將用更低的成本擴大數(shù)據(jù)覆蓋范圍。”與此同時,RDP 會繼續(xù)獲取更多的用戶需求,并把這些需求統(tǒng)一到 RDP 數(shù)據(jù)分發(fā)機制里,更好地為客戶提供存儲和分發(fā)的能力。

用科技普惠金融,這是路孚特技術(shù)團隊研發(fā) RDP 的初心。未來,隨著 5G、AI 等新興技術(shù)的發(fā)展,路孚特也將打造更加智能高效的平臺,給用戶提供更好的體驗。

除了在技術(shù)上不斷精益求精,路孚特也在積極推動金融科技的生態(tài)發(fā)展。11 月 29 日,由路孚特主辦,以“引領(lǐng)科技變革,洞見金融未來”為主題的 ReFinTech 金融科技峰會將在北京舉行。本次大會邀請了金融界知名專家和金融科技企業(yè)技術(shù)專家,深度探討行業(yè)發(fā)展思路和技術(shù)演進趨勢,分享最前沿創(chuàng)新實踐,共同打造“創(chuàng)新、聚力、發(fā)展、共贏”的金融科技生態(tài)平臺。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

編輯推薦