在數(shù)字化轉(zhuǎn)型深度推進(jìn)的當(dāng)下,知識(shí)庫建設(shè)已成為技術(shù)密集型企業(yè)提升核心競(jìng)爭(zhēng)力的關(guān)鍵支撐。這類企業(yè)的研發(fā)創(chuàng)新高度依賴海量學(xué)術(shù)文獻(xiàn)、技術(shù)報(bào)告、行業(yè)標(biāo)準(zhǔn)等專業(yè)文檔,而這些文檔多以非結(jié)構(gòu)化PDF、掃描件形式存在,傳統(tǒng)人工整理與簡(jiǎn)單OCR工具已難以滿足大規(guī)模、高質(zhì)量的知識(shí)轉(zhuǎn)化需求,成為企業(yè)智能知識(shí)庫構(gòu)建的核心瓶頸。
科創(chuàng)板上市公司合合信息推出的TextIn文檔解析解決方案,可高效破解非結(jié)構(gòu)化文檔解析難題,將海量學(xué)術(shù)論文高效轉(zhuǎn)化為機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù),成為企業(yè)構(gòu)建可信AI知識(shí)庫的“數(shù)據(jù)基座”。
學(xué)術(shù)論文作為企業(yè)技術(shù)預(yù)研、產(chǎn)品迭代與專利布局的核心信息源,版式規(guī)范復(fù)雜、元素種類繁多,雙欄排版、密集公式、復(fù)雜表格、專業(yè)圖表等場(chǎng)景,對(duì)解析工具的精準(zhǔn)度和兼容性提出極高要求。傳統(tǒng)解析工具常出現(xiàn)正文與圖注錯(cuò)位、公式識(shí)別亂碼、表格結(jié)構(gòu)丟失、圖表無法數(shù)據(jù)化等問題,導(dǎo)致核心知識(shí)流失,直接影響后續(xù)檢索與大模型問答的準(zhǔn)確性。

針對(duì)上述痛點(diǎn),TextIn文檔解析提供了有效解決方案。在多欄布局解析方面,其基于版面分析技術(shù),智能識(shí)別欄區(qū)域、段落區(qū)塊及浮動(dòng)元素,輸出內(nèi)容嚴(yán)格遵循原始閱讀順序,清晰標(biāo)注標(biāo)題層級(jí)、保留圖文關(guān)系;在專業(yè)公式識(shí)別上,支持印刷體與手寫體公式精準(zhǔn)識(shí)別,可將各類復(fù)雜公式轉(zhuǎn)換為L(zhǎng)aTeX標(biāo)準(zhǔn)格式;針對(duì)復(fù)雜表格,能還原表頭嵌套層級(jí)與合并單元格,自動(dòng)合并跨頁長(zhǎng)表,完整保留數(shù)據(jù)關(guān)聯(lián);在圖表處理上,可提取多種圖表的坐標(biāo)軸、圖例及數(shù)據(jù)點(diǎn),將視覺圖表轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);同時(shí),通過圖像預(yù)處理模塊解決文檔傾斜、水印等質(zhì)量問題,支持50多種語言及多格式文檔統(tǒng)一處理。
實(shí)踐中,TextIn已獲得頭部技術(shù)密集型企業(yè)認(rèn)可。某頭部醫(yī)藥企業(yè)引入該解決方案后,成功破解臨床試驗(yàn)報(bào)告、生物醫(yī)學(xué)文獻(xiàn)的解析難題,支撐研發(fā)、供應(yīng)鏈與質(zhì)量等五大知識(shí)庫構(gòu)建;某頭部半導(dǎo)體企業(yè)則借助其精準(zhǔn)的密集文本、公式及表格解析能力,為模擬電路設(shè)計(jì)知識(shí)庫提供了可靠的數(shù)據(jù)輸入。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!




