國產(chǎn)數(shù)據(jù)庫領(lǐng)域有人“破世界紀錄”了 ,創(chuàng)紀錄達7.6倍!
最近中國軟件網(wǎng)注意到一份數(shù)據(jù)庫前沿技術(shù)領(lǐng)域的測試報告——《TuGrpah基于LDBC-SNB的測試報告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf
這是國際圖數(shù)據(jù)非盈利組織針對國內(nèi)的一款圖數(shù)據(jù)庫產(chǎn)品發(fā)布的一份專業(yè)報告,是備受關(guān)注的圖數(shù)據(jù)庫領(lǐng)域的權(quán)威基準測試報告。
就是在這份報告,費馬科技用數(shù)據(jù)證明:他們公司推出的圖數(shù)據(jù)庫產(chǎn)品——TuGraph,在嚴格準守LDBC-SNB規(guī)范中的測試中,比LDBC官網(wǎng)目前排名第一的圖數(shù)據(jù)庫產(chǎn)品要好得多。
報告結(jié)果顯示,TuGraph的得分接近或超過5000。這一結(jié)果遠高于目前LDBC-SNB已經(jīng)公布的最高紀錄(由Virtuoso保持),約為當前紀錄的7.6倍。
圖1. 審計測試成功的聲明頁截圖(含認證審計員,LDBC SNB任務(wù)組主任和費馬科技CTO的簽名)
數(shù)據(jù)庫一直是我國IT核心技術(shù)中內(nèi)心深處的痛。圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域非常重要的一個發(fā)展方向,也是很多新興數(shù)據(jù)庫廠商希望能成為獨角獸的土壤。正是圖數(shù)據(jù)庫、正是這個結(jié)果,引起了中國軟件網(wǎng)的關(guān)注。
關(guān)于LDBC與SNB測試
關(guān)聯(lián)數(shù)據(jù)基準委員會(LDBC,Linked Data Benchmark Council)是由廠商成員、非盈利組織成員、個人成員共同組成的,匯聚了各界圖數(shù)據(jù)領(lǐng)域的學者,共同推進圖數(shù)據(jù)發(fā)展。就像TPC(Transaction Processing Performance Council,事務(wù)處理性能委員會)是制定商務(wù)應(yīng)用基準程序的標準規(guī)范、性能和價格度量,并管理測試結(jié)果發(fā)布的機構(gòu)。LDBC是圖(Graph)和RDF數(shù)據(jù)管理的基準指南制定者與測試結(jié)果發(fā)布機構(gòu)。
社交網(wǎng)路基準(SNB,Social Network Benchmark)是關(guān)聯(lián)數(shù)據(jù)基準委員會(LDBC)發(fā)布的基準測試程序之一。它通過兩個典型場景來評價圖數(shù)據(jù)庫。這兩個場景分別是:
•交互場景(interactive), 事務(wù)查詢?nèi)蝿?wù)(transaction query workload),類似OLTP。
•商務(wù)智能場景(business intelligence),統(tǒng)計查詢?nèi)蝿?wù)(analytical query workload) ,類似OLAP。
目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是數(shù)據(jù)庫業(yè)界權(quán)威的衡量圖數(shù)據(jù)庫和圖數(shù)據(jù)管理系統(tǒng)的重要參照標準。LDBC采用開源的做法,遵循GPLv3。它的基準(Benchmark)標準文檔,評估基準要用到軟件和工具的源碼,以及問題跟蹤、技術(shù)文檔都發(fā)布在開源網(wǎng)站上。
關(guān)于測試過程
費馬科技從測試環(huán)境準備,測試數(shù)據(jù)生成和導入,測試例程序(Plugins)的安裝和執(zhí)行,以及結(jié)果正確性的驗證,整個過程由LDBC指定的第三方在亞馬遜公有云上進行,過程中所使用的所有程序和腳本都是公開的,并且整個測試流程由第三方人員完成,保證測試過程的公正、公平、公開。測試結(jié)果和測試代碼需交由LDBC執(zhí)行委員會審核通過。
測試的目標包括圖數(shù)據(jù)的數(shù)據(jù)加載速度,數(shù)據(jù)存儲規(guī)模,功能正確性和性能指標。本次測試,費馬科技用LDBC的數(shù)據(jù)生成工具(datagen)生成了SF30,SF100,SF300三個大小不同的數(shù)據(jù)集,分別代表大小為30G,100G和300G的社交網(wǎng)絡(luò)數(shù)據(jù),充分反映數(shù)據(jù)庫在不同數(shù)據(jù)規(guī)模下的表現(xiàn)的穩(wěn)定性。
下表列出了交互場景的測試結(jié)果,其中的吞吐率(OPS)的意思是每秒完成的操作次數(shù)。
表1. 不同數(shù)據(jù)規(guī)模SF30(30GB),SF100(100GB)和SF300(300GB)的測試結(jié)果
上表是交互場景(interactive)的測試結(jié)果,每項持續(xù)時間超過兩個小時,操作數(shù)達到數(shù)千萬,而TuGraph在保證100%的查詢及時率的前提下,吞吐率達到5000上下,實屬不易。這里的查詢及時率指的是每一個查詢結(jié)果均能在給定的延遲要求里返回,院高于標準要求的95%,展現(xiàn)了TuGraph穩(wěn)定的運行效率。就吞吐率而言,TuGraph為當前紀錄的7.6倍,這在商業(yè)數(shù)據(jù)庫中非常難能可貴。
幫助銀行識別個人信貸詐騙團伙
TuGraph的主要貢獻者之一,費馬科技CTO朱曉偉是清華大學圖數(shù)據(jù)庫研究方向的博士。在朱曉偉看來,這是值得驕傲的成績。這表明費馬科技在數(shù)據(jù)庫發(fā)展的最新前沿——圖數(shù)據(jù)庫方面走在了世界前列,將國內(nèi)自主研發(fā)的技術(shù),推向了世界。
更重要的是,正是有這樣突出的性能表現(xiàn),費馬圖數(shù)據(jù)庫產(chǎn)品和技術(shù)為客戶創(chuàng)造了真正的價值,幫助客戶解決了一些長期以來難以著手的問題。
陳亮是沅啟融安的CTO。沅啟融安是一家專注于從事風險控制領(lǐng)域的專業(yè)咨詢與技術(shù)服務(wù)公司,他們的主營業(yè)務(wù)是為大型銀行風險管理部提供深度服務(wù)。
他向中國軟件網(wǎng)介紹了一個用圖數(shù)據(jù)解決的金融風控場景——信用卡等銀行個人信貸團伙詐騙。
詐騙團伙會用非法渠道獲取的大量身份證向銀行提出信用卡申請。這些身份證所代表的人員信息銀行系統(tǒng)并不全部掌握,以致部分有潛在風險的申請會被銀行通過。詐騙者將通過的部分進行提現(xiàn)或消費,但不還款。一旦出現(xiàn)這種情況,該項消費大概率會成為銀行的壞賬。
為此,銀行的風險管理部門一直希望能有一項技術(shù),在信用卡申請時,就能從申請時提交的相關(guān)信息中發(fā)現(xiàn)蛛絲馬跡,將這些具有詐騙意圖的人識別出來。
傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫的分析方法一直沒有很好地解決這個問題。因為傳統(tǒng)數(shù)據(jù)分析方法涉及的數(shù)量太大,算法也比較復雜,因此分析所需要的時間太長,無法在信用卡申請的時限內(nèi)完成分析。
為此,陳亮他們和費馬科技一起,為銀行提供了一種特別有效的解決方案——基于圖數(shù)據(jù)庫和圖計算平臺進行分析。
通過建立圖數(shù)據(jù)庫,并對圖數(shù)據(jù)庫進行相應(yīng)的計算分析,可以對信用卡申請人的電話號碼、地址等信息進行關(guān)聯(lián)和聚類分析。根據(jù)這些相關(guān)性,銀行可以從中會發(fā)現(xiàn)一些具有團伙性質(zhì)的蛛絲馬跡。
相比傳統(tǒng)的數(shù)據(jù)分析方法,他們的系統(tǒng)效率提升了60倍,從原來的需要10個時到現(xiàn)在只用10分鐘解決,可用性大大增強。
一個空間巨大的市場
業(yè)界普遍認為,對于圖數(shù)據(jù)庫和計算技術(shù)的研究,最早可追溯至20世紀四五十年代。但圖數(shù)據(jù)庫、圖計算逐漸進入人們視野,則是因2010年谷歌發(fā)布的一篇圖計算論文引起。隨著數(shù)字經(jīng)濟的迅速發(fā)展,目前圖數(shù)據(jù)庫已進入臨近爆發(fā)的前夜。
在這個全媒體社交、萬物互聯(lián)的時代,具有很多的應(yīng)用場景。例如,在金融領(lǐng)域,可用圖數(shù)據(jù)庫通過建立賬戶(客戶)的關(guān)系圖,根據(jù)其社會關(guān)系、交易情況,分析客戶的還款能力、還款意愿、抗風險能力等,提升金融行業(yè)小貸授信、信貸審核、貸后追蹤等風控能力,并根據(jù)資金交易圖譜實現(xiàn)反洗錢、反欺詐等系統(tǒng)。在社交領(lǐng)域,人與人在線上和線下的聯(lián)系天然形成了一張圖,匯集海量的關(guān)系數(shù)據(jù)后,能夠做社區(qū)發(fā)現(xiàn)、輿論追蹤、用戶推薦等應(yīng)用;在電信領(lǐng)域,人與人的通信是一個非常強的聯(lián)系,通信的時間和頻率則代表了這種聯(lián)系的強弱。電信運營商在通信圖上進行拓展騷擾電話阻斷、經(jīng)營分析等業(yè)務(wù)……
根據(jù)Gartner研究報告,2019~2022年,圖數(shù)據(jù)庫市場將會以每年100%的增長率增長;而在過去的2018年,圖數(shù)據(jù)庫市場大概是5億美元,到2022年保守估計至少80億美元。
圖中可知,從2013年1月起至2020年8月,圖數(shù)據(jù)庫的發(fā)展一直屬于急速上升的模式。可得,越來越多的人開始關(guān)注圖數(shù)據(jù)庫。數(shù)據(jù)來源:https://db-engines.com/en/ranking_categories
當前,越來越多的應(yīng)用場景需要在海量異構(gòu)數(shù)據(jù)中提出復雜問題,使用現(xiàn)有的數(shù)據(jù)庫(比如關(guān)系型數(shù)據(jù)庫)實現(xiàn)相關(guān)分析是不切實際、甚至完全不可能的。而圖數(shù)據(jù)存儲可以跨越數(shù)據(jù)孤島、并有效地建模、探索和查詢數(shù)據(jù),能非常方便地解決這類問題。因此,圖數(shù)據(jù)庫的需求將會越來越多,但是目前擁有相關(guān)專業(yè)技能人才缺乏的限制了其采用。
巨頭還未全心入局,一場還未真正打響的戰(zhàn)爭
看上去的誘人前景,吸引了很多廠商殺入到圖數(shù)據(jù)庫市場。尤其是近幾年,新興廠商開始增多。
中國軟件網(wǎng)調(diào)查發(fā)現(xiàn),當前圖數(shù)據(jù)庫領(lǐng)域主要有兩類提供商:一類是開源軟件,一類是新興公司,還有一些巨頭推出的產(chǎn)品。
從當前的競爭態(tài)勢來看,目前處于剛起步的階段,還沒有形成穩(wěn)定的競爭格局。
但從業(yè)界口碑來看,已初步顯露出三大梯隊的態(tài)勢。
處在第一梯隊的是Neo4j和費馬科技等新興公司。其中Neo4j是開源軟件,它當前應(yīng)用最廣泛。費馬科技成立時間相對較晚,但技術(shù)上更先進。
第二梯隊的主要由JanusGraph等開源項目,以及Virtuoso等公司。這些公司往往都和圖數(shù)據(jù)庫領(lǐng)域知名的開源項目Titan相關(guān)。好多國內(nèi)外有圖數(shù)據(jù)庫產(chǎn)品的公司,最早的代碼都是源自于Titan。
第三梯隊的主要是一些巨頭推出的產(chǎn)品,以及一些初創(chuàng)公司。例如,百度、騰訊云、阿里云、華為、AWS等都有相關(guān)產(chǎn)品。這些巨頭或基于開源、或收購,或自己研發(fā)推出了一些產(chǎn)品,但基本上都屬于探索期,現(xiàn)在還沒有真正大規(guī)模投入。
國內(nèi)知名的數(shù)據(jù)庫廠商南大通用副總裁杜國旺在授受中國軟件網(wǎng)采訪時說,他非常看好圖數(shù)據(jù)庫市場的前景。他認為,無論是圖數(shù)據(jù)庫廠商,還是依托圖數(shù)據(jù)庫提供知識圖譜等增值服務(wù)的廠商,都大有發(fā)展前途,完全有可能產(chǎn)生獨角獸。
不過,也有業(yè)內(nèi)人士對圖數(shù)據(jù)庫的前景不那么看好。例如,國內(nèi)大數(shù)據(jù)領(lǐng)域的知名專家、柏睿數(shù)據(jù)創(chuàng)始人劉睿民就告訴中國軟件網(wǎng),他不那么看好圖數(shù)據(jù)庫的市場潛力。他認為,圖數(shù)據(jù)庫的應(yīng)用場景目前比較窄,有一定的市場空間,關(guān)系型數(shù)據(jù)庫仍然會占主導地位。
不過,記者發(fā)現(xiàn),不管未來市場容量有多大,圖數(shù)據(jù)庫都引起了國產(chǎn)數(shù)據(jù)庫廠商的深厚興趣,并開始了大量的探索與實踐。
費馬科技在產(chǎn)品技術(shù)上的突破,讓我們看到了國產(chǎn)品牌在數(shù)據(jù)庫領(lǐng)域核心技術(shù)的希望。
費馬科技官網(wǎng):https://fma-ai.cn/
作者:中國軟件網(wǎng) 曹開彬
編輯:費馬科技
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
中國經(jīng)濟周刊-經(jīng)濟網(wǎng)訊(記者宋杰)4月27日,第六屆數(shù)字中國建設(shè)峰會在福州開幕,同期舉行的還有數(shù)字中國建設(shè)成果展覽會,本屆峰會以“加快數(shù)字中國建設(shè),推進中國式現(xiàn)代化”為主題,集中展示數(shù)字中國建設(shè)最新成果和優(yōu)秀實踐案例,分享發(fā)展經(jīng)驗。其中,作為央企中國電科集團旗下的數(shù)據(jù)庫國家隊,人大金倉今年展出面積從
近日,由中國團隊研發(fā)的“一種基于共享內(nèi)存和多進程的支持高并發(fā)的分布式數(shù)據(jù)庫架構(gòu)”通過美國商標專利局審查核準。這是易鯨捷年內(nèi)第三次獲得美國商標專利局授權(quán)專利,再次驗證了易鯨捷多年來在分布式數(shù)據(jù)庫領(lǐng)域的自研成果
近日,國內(nèi)知名數(shù)字化市場研究咨詢機構(gòu)愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
伴隨數(shù)字經(jīng)濟時代的到來,數(shù)據(jù)成為企業(yè)的核心資產(chǎn),數(shù)據(jù)安全的受重視程度不斷提升。近些年,大量網(wǎng)絡(luò)攻擊、邏輯故障、人為誤操作、刪庫跑路造成的數(shù)據(jù)安全事故更是給全社會敲響了警鐘
9月16日,國內(nèi)知名數(shù)字化市場研究咨詢機構(gòu)——愛分析,正式發(fā)布《2022愛分析·數(shù)據(jù)智能廠商全景報告》。愛分析選取了13個特定市場進行重點分析,旨在幫助企業(yè)更清晰地了解數(shù)據(jù)智能領(lǐng)域發(fā)展形勢
把脈中國數(shù)據(jù)智能化
2023年,幾乎可以被定義為中國互聯(lián)網(wǎng)公司的“大模型元年”。ChatGPT的全球爆紅,徹底點燃國內(nèi)的大模型賽道,曾經(jīng)的“創(chuàng)業(yè)英雄”、如今的商業(yè)領(lǐng)袖們親自下場,接連發(fā)布生成式人工智能產(chǎn)品與大模型布局。大模型火了,沉寂許久的互聯(lián)網(wǎng)行業(yè)又有了新的“戰(zhàn)事”。同時,大模型的快速發(fā)展也改變了云市場的現(xiàn)狀,企業(yè)對
近日,數(shù)字化市場研究咨詢機構(gòu)愛分析發(fā)布了《2022愛分析·數(shù)據(jù)智能廠商全景報告》,愛分析從技術(shù)研發(fā)能力、服務(wù)客戶數(shù)量、收入規(guī)模等維度對廠商進行了全面專業(yè)的評估
2022年11月18日,首個國家級大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新賽事——2022第一屆中國大數(shù)據(jù)大賽圓滿落幕。工業(yè)和信息化部信息技術(shù)發(fā)展司數(shù)字經(jīng)濟推進處處長張建倫,中國電子技術(shù)標準化研究院副院長孫文龍出席頒獎典禮并致辭
2022年11月17日,在廈門市工業(yè)和信息化局的指導下,以“數(shù)據(jù)確權(quán)”為主題的2022數(shù)據(jù)資產(chǎn)(廈門)論壇在廈門成功舉辦。本次論壇以“數(shù)據(jù)確權(quán)”為主題,由廈門市互聯(lián)網(wǎng)域名應(yīng)用服務(wù)產(chǎn)業(yè)協(xié)會和構(gòu)信網(wǎng)(公信.中國)聯(lián)合主辦
近日,國內(nèi)知名數(shù)字化市場研究咨詢機構(gòu)愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報告》(以下簡稱“報告”)。報告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數(shù)博會執(zhí)委會主辦、數(shù)據(jù)觀(北京)傳媒科技有限公司承辦、貴陽大數(shù)據(jù)交易所協(xié)辦的第四期數(shù)博思享會“實踐先行觀公共數(shù)據(jù)價值與應(yīng)用”活動成功舉辦。
近日,由中國國際數(shù)字經(jīng)濟博覽會組委會主辦,中國電子技術(shù)標準化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數(shù)據(jù)大賽”(簡稱大數(shù)據(jù)大賽)正式啟動。
廣州光點信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺產(chǎn)品GI大數(shù)據(jù)中臺V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標準的中臺產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺。
廣州光點信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺產(chǎn)品GI大數(shù)據(jù)中臺V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標準的中臺產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺