1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

十億級(jí)數(shù)據(jù),秒級(jí)響應(yīng) | 觀遠(yuǎn)數(shù)據(jù)重磅發(fā)布「極速分析引擎」黑科技

 2020-04-21 18:31  來源:A5專欄  我來投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

從Excel、報(bào)表系統(tǒng)到傳統(tǒng)BI,企業(yè)數(shù)據(jù)分析工具進(jìn)化的同時(shí),背后需要支持的數(shù)據(jù)承載量也在以更快的速度一路攀升。

(各數(shù)據(jù)分析工具適合承載的數(shù)據(jù)量)

以一家連鎖零售企業(yè)為例,如果門店有2000家,在售SKU有5000個(gè),一天單店單品庫存數(shù)據(jù)量就達(dá)到了1000萬,一周就可能破億。

為了能讓性能跟上企業(yè)數(shù)據(jù)發(fā)展的速度,確保用戶在億級(jí)、十億級(jí)數(shù)據(jù)集的基礎(chǔ)上還能做絲滑的拖拽式數(shù)據(jù)分析和動(dòng)態(tài)查詢,同時(shí)又不會(huì)給IT人員帶來額外的數(shù)據(jù)管理與運(yùn)維壓力。觀遠(yuǎn)數(shù)據(jù)在2019開始研究基于海量數(shù)據(jù)計(jì)算查詢的加速組件,并于2020年3月正式推出“極速分析引擎”黑科技功能,真正做到十億級(jí)數(shù)據(jù)秒級(jí)響應(yīng)。

“極速分析引擎”是嵌入在觀遠(yuǎn)一站式智能數(shù)據(jù)分析平臺(tái)中的一套計(jì)算查詢加速組件,在集群模式下最快支持十億級(jí)以上數(shù)據(jù)秒級(jí)響應(yīng)速度。適用于零售行業(yè)大數(shù)據(jù)量、大寬表、高并發(fā)的數(shù)據(jù)分析情況,比如海量庫存數(shù)據(jù)聚合分析與查詢、訂單分析、商品分析等場(chǎng)景。可以滿足業(yè)務(wù)人員持續(xù)的探索式自助分析、即席查詢、動(dòng)態(tài)分析的需求,保持連貫的分析思路,打造沉浸式分析體驗(yàn),深挖數(shù)據(jù)價(jià)值,高效洞悉業(yè)務(wù)。

“極速分析引擎”到底有多快?我們?cè)趯?shí)驗(yàn)室環(huán)境下做了一個(gè)性能測(cè)試。測(cè)試的機(jī)器為16核128G內(nèi)存的單節(jié)點(diǎn),未做加速組件的獨(dú)立部署(實(shí)際上加速組件可單獨(dú)部署,加速效果更明顯)。

Demo1:極速查詢演示視頻演示-https://v.qq.com/x/page/u09471ficps.html

以上案例中,我們模擬了某零售客戶基于訂單商品明細(xì)數(shù)據(jù)的任意時(shí)間區(qū)段銷量、銷售額、成本的聚合分析。

可以看到,左右兩張表都是基于同一張1億行的訂單明細(xì)表進(jìn)行聚合分析。區(qū)別在于左邊的表是使用的是Guan-Index數(shù)據(jù)集,是利用Spark計(jì)算引擎來進(jìn)行計(jì)算的。而右邊的表則是使用“高性能查詢表”,利用“極速分析引擎”來做加速查詢的。不難發(fā)現(xiàn),在切換日期區(qū)間時(shí),右側(cè)表格基本上能夠在2~3秒內(nèi)返回計(jì)算結(jié)果,而左側(cè)表格則需要10秒才能返回,整體的性能提升達(dá)到3~5倍,真正做到億級(jí)數(shù)據(jù)秒級(jí)響應(yīng)。

Demo2:一億行數(shù)據(jù)自由拖拽式分析-https://v.qq.com/x/page/a094711g02i.html

還是基于以上數(shù)據(jù),我們?cè)僮鲆幌伦杂赏献降臄?shù)據(jù)分析進(jìn)行測(cè)試。從Demo中可以看到,基于1億行訂單明細(xì)數(shù)據(jù)的自由拖拽分析,也可以做到秒級(jí)響應(yīng),絲滑體驗(yàn)。

如此強(qiáng)大的功能要怎么使用?

當(dāng)用戶導(dǎo)入千萬級(jí)以上Guan-Index數(shù)據(jù)集,或者通過Smart ETL生成同等體量的數(shù)據(jù)集后,想要使用“極速分析引擎”來進(jìn)行查詢加速時(shí),我們可以大致分三步進(jìn)行操作。

1、配置數(shù)據(jù)集

我們可以進(jìn)入到數(shù)據(jù)集詳情頁“高級(jí)選項(xiàng)”欄,將數(shù)據(jù)集配置為“高性能查詢表”。

2、設(shè)置分區(qū)字段

用戶需要設(shè)置分區(qū)字段——分區(qū)是為了數(shù)據(jù)在存儲(chǔ)時(shí)能合理地分片,以減少數(shù)據(jù)查詢時(shí)的數(shù)據(jù)掃描。一般建議使用日期字段來做分區(qū),分區(qū)方式建議設(shè)置為“月”或者“日”。使用日期字段做分區(qū),可以有效地控制分區(qū)數(shù)量,不至于把分區(qū)做得過粗或者過細(xì)。如果沒有日期字段,也可以謹(jǐn)慎選擇其他字段進(jìn)行分析,這時(shí)需要控制好分區(qū)字段的枚舉數(shù)量,一定不要選擇類似訂單ID之類的流水號(hào),或者數(shù)值類字段作為分區(qū)字段。

3、確認(rèn)執(zhí)行

配置完分區(qū)字段后,點(diǎn)擊“確認(rèn)”即可以開始模式切換。數(shù)據(jù)集數(shù)據(jù)量大的時(shí)候,數(shù)據(jù)導(dǎo)入需要花費(fèi)一定的時(shí)間,請(qǐng)耐心等候。內(nèi)部測(cè)試,3億行*26列的數(shù)據(jù)集導(dǎo)入花費(fèi)12min左右。數(shù)據(jù)集更新也會(huì)觸發(fā)數(shù)據(jù)重新導(dǎo)入,因此一般建議高性能查詢表更新頻率不超過一天一次。

以下就是一個(gè)配置了“高性能查詢表”的ETL輸出數(shù)據(jù)集,我們看到表面看起來它似乎與一般的ETL輸出數(shù)據(jù)集并無二異。但我們?cè)谑褂盟鼊?chuàng)建卡片時(shí),卻是利用“極速查詢引擎”來查詢數(shù)據(jù),能夠提供飛一般的體驗(yàn)。

“極速分析引擎”適用于哪些場(chǎng)景?

目前,“高性能查詢表”適用于數(shù)據(jù)量大于等于1000萬行以上的數(shù)據(jù)集,可大大加速卡片端數(shù)據(jù)查詢的效率。并且特別適合海量數(shù)據(jù)下的OLAP查詢,適合在大寬表上做任意維度的數(shù)據(jù)聚合、切片(篩選),也可以做明細(xì)數(shù)據(jù)的查詢。這些查詢相比直接使用Spark作為計(jì)算引擎,一般都能提供3~5倍的性能提升,如果硬件資源寬裕,將加速組件獨(dú)立部署,將能獲得更為優(yōu)越的極速體驗(yàn)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • 進(jìn)博看點(diǎn)|數(shù)據(jù)分析管控供應(yīng)鏈風(fēng)險(xiǎn)

    第六屆進(jìn)博會(huì)期間,全球數(shù)據(jù)和分析驅(qū)動(dòng)的決策賦能機(jī)構(gòu)鄧白氏(Dun&Bradstreet)以“共創(chuàng)可持續(xù)發(fā)展的未來”為主題亮相服務(wù)貿(mào)易展區(qū)。作為連續(xù)四年參加進(jìn)博會(huì)的“老朋友”,鄧白氏于此次參展期間,在中國(guó)首發(fā)“供應(yīng)鏈ESG解決方案”,并展示一系列數(shù)字化解決方案,賦能中國(guó)企業(yè)構(gòu)建可持續(xù)發(fā)展的韌性供應(yīng)鏈。

    標(biāo)簽:
    數(shù)據(jù)分析
  • 神策分析 2.5 上線經(jīng)營(yíng)分析,可視化分析能力重磅升級(jí)

    近日,神策數(shù)據(jù)發(fā)布了全新的神策分析2.5版本,該版本以經(jīng)營(yíng)分析為主題,支持分析模型與外部數(shù)據(jù)的融合性接入,構(gòu)建全域數(shù)據(jù)融合模型,并提供統(tǒng)一、便捷的指標(biāo)及可視化能力,實(shí)現(xiàn)從用戶到經(jīng)營(yíng)的全鏈路、全場(chǎng)景分析。經(jīng)營(yíng)分析可以幫助企業(yè)更深入了解用戶的需求,構(gòu)建從用戶到經(jīng)營(yíng)的業(yè)務(wù)指標(biāo)體系,尤其針對(duì)需要加強(qiáng)數(shù)據(jù)融合

    標(biāo)簽:
    數(shù)據(jù)分析
  • 全國(guó)生物相分離和相變學(xué)術(shù)研討會(huì)圓滿落幕 榮聯(lián)科技集團(tuán)亮相頂尖學(xué)術(shù)盛會(huì)

    2023年6月1日至4日,第三屆全國(guó)生物相分離和相變學(xué)術(shù)研討會(huì)暨中國(guó)生物物理學(xué)會(huì)生物大分子相分離與相變分會(huì)年會(huì)在上海成功舉辦,榮聯(lián)科技集團(tuán)攜冷凍電鏡數(shù)據(jù)分析整體解決方案亮相活動(dòng),云生數(shù)據(jù)副總經(jīng)理田鳳進(jìn)行了精彩的報(bào)告分享。本次盛會(huì)由中國(guó)生物物理學(xué)會(huì)生物大分子相分離與相變分會(huì)主辦,中國(guó)科學(xué)院上海有機(jī)化學(xué)

    標(biāo)簽:
    數(shù)據(jù)分析
  • 有哪些免費(fèi)且強(qiáng)大的數(shù)據(jù)分析BI工具?

    如今,諸多企業(yè)開始進(jìn)入數(shù)據(jù)應(yīng)用階段,開始追求數(shù)據(jù)對(duì)業(yè)務(wù)的實(shí)質(zhì)性提升。然而,一些企業(yè)雖然認(rèn)識(shí)到了數(shù)據(jù)的價(jià)值,卻由于缺乏一套高效好用的數(shù)據(jù)分析工具,導(dǎo)致數(shù)據(jù)應(yīng)用效果并不理想。在一些企業(yè)中,尤其是中小企業(yè),由于缺乏預(yù)算,仍然在使用Excel等傳統(tǒng)工具進(jìn)行數(shù)據(jù)分析和可視化展現(xiàn),需要手動(dòng)整合和處理數(shù)據(jù),耗時(shí)耗

    標(biāo)簽:
    數(shù)據(jù)分析
  • Oxylabs 首席執(zhí)行官:了解靜態(tài)和動(dòng)態(tài)數(shù)據(jù)

    數(shù)據(jù)收集的操作行為受到越來越多的關(guān)注,也變得越來越復(fù)雜。網(wǎng)絡(luò)抓取以及自動(dòng)獲取過程總體來說極大地改變了數(shù)據(jù)收集的性質(zhì),舊的挑戰(zhàn)得到解決,而新的問題也隨之浮現(xiàn)出來。

    標(biāo)簽:
    數(shù)據(jù)分析