當前位置:首頁 >  科技 >  IT業(yè)界 >  正文

合合信息TextIn發(fā)布“大模型加速器2.0”,文檔單頁處理耗時降低超30%

 2025-03-24 15:42  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

隨著大模型在社會應用中逐漸普及,人們在享受便利的同時,也面臨著“AI 幻覺”產(chǎn)生的風險。訓練數(shù)據(jù)是影響大模型“認知能力”的關鍵要素,近期,上海合合信息科技股份有限公司(簡稱“合合信息”)TextIn“大模型加速器 2.0”版本正式上線,基于領先的智能文檔處理技術,對復雜文檔的版式、布局和元素進行精準解析及結構化處理,從數(shù)據(jù)源頭降低大模型“幻覺”風險,讓大模型在與人類的溝通中“更靠譜”。

圖說:“大模型加速器 2.0”文檔解析引擎助力知識庫理解手寫筆記示意圖

據(jù)悉,升級后的“大模型加速器”在復雜版面理解、表格及圖表處理、內(nèi)容溯源等能力上實現(xiàn)新突破,可精準識別上千種文檔中的跨頁表格、合并單元格、密集表格、手寫字符及公式,解析穩(wěn)定率達99.99%,單頁處理耗時較行業(yè)可比產(chǎn)品降低超30%;可“逆還原”十余種專業(yè)圖表數(shù)據(jù),并將其轉(zhuǎn)化為大模型可理解的結構化數(shù)據(jù)。此外,“大模型加速器 2.0”版本新增知識庫系列開源組件,助力醫(yī)療、制造、教育等行業(yè)開發(fā)者構建個性化的知識庫。

文檔解析技術助力教育大模型建設

大模型需要不斷“吸收”正確的專業(yè)知識,才能應對實際應用問題。合合信息技術團隊成員表示,在處理年報、論文、實驗室報告等專業(yè)文檔的過程中,一個符號的解析失誤,便可能“誤導”大模型,得出與事實相悖的結論??尚判缘娜笔В仓萍s了大模型在實際應用場景中的縱深拓展。

賽爾教育科技發(fā)展有限公司(簡稱“賽爾教育”)系“中國教育和科研計算機網(wǎng)CERNET”的運營公司賽爾網(wǎng)絡的重要子公司,是教育國際化、教育信息化、數(shù)字化教育方案的提供商。賽爾教育CTO、教育數(shù)字化事業(yè)部總經(jīng)理楊林提到,教育行業(yè)中所涉及的文檔格式多樣,在內(nèi)容上也包含了表格、公式、手寫字符、多語言文字等信息。如何高效準確地提取各類文檔中的文本信息,并非易事。

“教育行業(yè)的大模型建設工作中,數(shù)據(jù)的數(shù)量和質(zhì)量起著決定性作用。我們做了很多嘗試,模型的速度和準確性都達不到要求,嚴重影響科研工作的進展。”楊林表示,行業(yè)知識庫的構建基于大量文檔的文本信息提取,需要高效率、高準確率的工具。合合信息文檔解析技術提供了專業(yè)的技術支持和服務,有效解決了文檔處理過程中的問題。

在“大模型加速器”的支持下,合合信息與賽爾教育共同協(xié)作,提升大模型對復雜版面、元素的“理解力”,使其按照人類正常的閱讀順序識別文檔結構,智能劃分標題、段落、表格和圖表等內(nèi)容塊,幫助大模型理解版面、內(nèi)容間的對應關系,減少AI“幻覺”現(xiàn)象。

圖說:圖表解析模塊將圖表還原為表格數(shù)據(jù)

除了復雜的版面布局,種類繁多、空間結構復雜的圖表元素也是解析難點所在。“大模型加速器2.0”圖表解析模塊可智能提取多種圖表中的關鍵數(shù)據(jù)點、坐標軸信息、圖例說明等,在精準解析不同類型圖表數(shù)據(jù)的基礎上,將其還原為一組完整的Excel表格數(shù)據(jù),作用于教育行業(yè)大模型微調(diào),學科知識庫建設、智能審閱等環(huán)節(jié)。

智能溯源讓大模型用得更“安心”

近期,多家券商機構紛紛宣布接入大模型,幫助分析師、行業(yè)研究員等專業(yè)人士提高工作效率。為幫助用戶簡化專業(yè)文檔數(shù)據(jù)篩選和數(shù)據(jù)抽取流程,提升文檔內(nèi)容解讀效率與準確率,“大模型加速器 2.0” 上線了知識庫產(chǎn)品組件,支持復雜文檔的智能問答、總結與檢索。

為了讓行業(yè)“安心”使用大模型,知識庫產(chǎn)品推出溯源功能,通過在“投喂”給知識庫的Markdown及JSON文件中標記頁碼、坐標等空間位置信息,實現(xiàn)對句子、段落的精確溯源,為用戶提供了一個快速檢驗的路徑。以財務分析為例,大模型在多份高達上千頁的財報文件中找到收入、利潤等關鍵數(shù)據(jù)后,券商分析師可利用溯源功能定位原表格,對信息進行復核,防止錯誤、遺漏。

圖說:知識庫對財報數(shù)據(jù)所在表格進行精準溯源

目前,知識庫組件已面向開發(fā)者開源,幫助其根據(jù)自身需要快速構建個性化行業(yè)知識庫。此前,合合信息已開源智能文檔處理“百寶箱”系列產(chǎn)品,解決文檔解析精度低、解析效果評估難等問題,開發(fā)者可根據(jù)研發(fā)需求靈活搭配使用。未來,“大模型加速器”將持續(xù)優(yōu)化迭代,助力大模型在各行各業(yè)中“百花齊放”。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦