1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

開發(fā)框架與基礎(chǔ)硬件攜手,AI的社會(huì)價(jià)值在文化領(lǐng)域深度彰顯

 2023-01-13 13:14  來源:A5專欄  我來投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

語言是人類進(jìn)行溝通交流的表達(dá)方式,其儲(chǔ)存著豐富的文化信息,傳承著民族血脈,也支撐著文明的發(fā)展與演進(jìn)。然而,一些少數(shù)民族語言、方言卻正在無聲無息地消失,與之密切相連的地域文化、歷史文化也正面臨瀕危風(fēng)險(xiǎn)。

“大約平均兩周就會(huì)有一種語言消亡“,聯(lián)合國(guó)教科文組織的這一調(diào)查數(shù)據(jù)讓人觸目驚心,且世界上正在使用的約6,000種語言,至少有43%面臨瀕危[1]。而在中國(guó),也有25種語言使用人口已不足千人[2]。

搶救瀕危少數(shù)民族語言對(duì)保持漢語的豐富性、多元性,保護(hù)文化記憶、文化基因意義重大。因此,中國(guó)早在2015年就啟動(dòng)了語言資源保護(hù)工程,借助田野調(diào)查,建立起龐大的口語語料庫(kù),保存了原始聲音文件和國(guó)際音標(biāo)標(biāo)注等豐富素材。

[1] 如欲了解更多詳情請(qǐng)?jiān)L問:https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多詳情請(qǐng)?jiān)L問:https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm

然而,僅僅依靠這些單語數(shù)據(jù),研究者難以獲知其背后所傳達(dá)的語義,無法有效開展相關(guān)學(xué)習(xí)與研究,更罔論留存這些少數(shù)民族瀕危語言與背后地方文化的生命力。

人工智能技術(shù)為復(fù)活這些語言,挖掘多元文化價(jià)值,傳承璀璨的歷史文化,提供了新思路和新手段。2022年國(guó)際母語日也將“利用技術(shù)促進(jìn)多語言學(xué)習(xí):挑戰(zhàn)與機(jī)遇”作為主題,指出了技術(shù)對(duì)推進(jìn)多語言教育以及文化傳承與保護(hù)的作用。

百度飛槳深度學(xué)習(xí)平臺(tái)攜手英特爾,基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器進(jìn)行深度優(yōu)化,通過完善的模型壓縮方法和量化加速技術(shù),支持全自動(dòng)生成大規(guī)模“漢語-少數(shù)民族語言”雙向詞典,對(duì)用技術(shù)幫助保護(hù)瀕危少數(shù)民族語言,推動(dòng)民族互通互融,做出了積極探索,展現(xiàn)了“科技向善”的現(xiàn)實(shí)意義和歷史價(jià)值。

采用百度飛槳深度學(xué)習(xí)平臺(tái),全自動(dòng)構(gòu)建大規(guī)模雙向詞典

構(gòu)建雙向詞典項(xiàng)目,采用了規(guī)模大、范圍廣、語種多、內(nèi)容豐富的瀕危語言博物館館藏源語料庫(kù),語料全部來自于田野調(diào)查與實(shí)地采集。

通過分析,項(xiàng)目研發(fā)人員選取了中國(guó)少數(shù)民族語言中的獨(dú)龍、爾蘇、嘉絨、撒拉這四種數(shù)據(jù)較為豐富的語言作為實(shí)驗(yàn)對(duì)象。

為基于百度飛槳實(shí)現(xiàn)對(duì)齊算法,項(xiàng)目團(tuán)隊(duì)首先開發(fā)了民間故事漢語數(shù)據(jù)集。開發(fā)過程中,充分利用飛槳PaddleOCR開發(fā)套件識(shí)別精度高、推理速度快等特性,對(duì)跨度8年的《故事會(huì)》雜志掃描樣本進(jìn)行數(shù)據(jù)化處理,構(gòu)建出規(guī)模達(dá)950萬字的文本數(shù)據(jù)集,也是全球首個(gè)民間故事漢語數(shù)據(jù)庫(kù),且具有很強(qiáng)的口語化風(fēng)格,適合與少數(shù)民族語言語料進(jìn)行對(duì)齊。

然后,實(shí)施低資源詞向量訓(xùn)練,應(yīng)對(duì)四個(gè)少數(shù)民族語料句子數(shù)量普遍不足五千條的挑戰(zhàn),以及《故事會(huì)》語料小于二十萬條句子的問題,為下游的雙語對(duì)齊提供了強(qiáng)有力的支持。

繼之,依據(jù)拓?fù)涮卣鳎瑢?duì)兩種語言的詞向量進(jìn)行旋轉(zhuǎn)和對(duì)齊,實(shí)施雙語詞典自動(dòng)化抽取,最終導(dǎo)出了獨(dú)龍、爾蘇、嘉絨、撒拉這四種語言和漢語的雙向詞典。

目前,這四部雙向詞典已在中國(guó)社科院民族學(xué)和人類學(xué)研究所志愿者的協(xié)助下,進(jìn)行了內(nèi)部評(píng)測(cè),僅發(fā)現(xiàn)含有少量誤差。這一可喜成果,驗(yàn)證了基于百度飛槳深度學(xué)習(xí)平臺(tái),智能生成大規(guī)模漢語-少數(shù)民族語言詞典的可行性和便捷性,展現(xiàn)了人工智能對(duì)于應(yīng)對(duì)語言瀕危日益嚴(yán)峻挑戰(zhàn)的高效性和高價(jià)值。

英特爾與百度飛槳軟硬協(xié)同優(yōu)化,用智能探索文化保護(hù)新路

雙向詞典項(xiàng)目依托飛槳深度學(xué)習(xí)技術(shù),高效實(shí)現(xiàn)了瀕危語言詞典的自動(dòng)化生成,極大減輕了語保工作者的負(fù)擔(dān)。而其背后是英特爾所提供的英特爾® 至強(qiáng)® 可擴(kuò)展平臺(tái)具備的強(qiáng)勁算力和多種優(yōu)化措施,為飛槳平臺(tái)高效支撐項(xiàng)目運(yùn)作提供了基礎(chǔ)能力和量化加速。

業(yè)界盡知,人工智能應(yīng)用不僅需要高算力作為支撐,而且源于大多數(shù)深度學(xué)習(xí)模型使用32位浮點(diǎn)精度(FP32)構(gòu)建,復(fù)雜度高,模型參數(shù)量大,限制了其在一些場(chǎng)景和設(shè)備進(jìn)行部署,需要實(shí)施軟硬結(jié)合優(yōu)化,才能突破性能瓶頸,高效承載諸如上文雙向詞典生成等多類應(yīng)用。

針對(duì)上述問題,英特爾攜手百度飛槳,基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器、英特爾® oneAPI工具套件等軟硬件組合,在為飛槳平臺(tái)提供充裕算力的同時(shí),也對(duì)整個(gè)深度學(xué)習(xí)流程實(shí)施全方位優(yōu)化,幫助加速各類應(yīng)用開發(fā)和量化部署。

第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器依托出色的微架構(gòu),發(fā)揮多核心、多線程和大容量高速緩存等特性,很好地滿足了飛槳平臺(tái)對(duì)通用算力的苛刻需求,同時(shí)加持以其內(nèi)置的英特爾® AVX-512提供的增強(qiáng)矢量處理能力,提升AI 推理和訓(xùn)練效率,為圖像分類、自然語言處理、語音識(shí)別、語音翻譯等廣泛的應(yīng)用開發(fā)和部署提供穩(wěn)健基石。而最新一代的第四代英特爾® 至強(qiáng)® 可擴(kuò)展處理器更內(nèi)置一系列加速器,包括全新的AI加速器——英特爾®高級(jí)矩陣擴(kuò)展(英特爾®AMX),覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場(chǎng)景,可以為不斷變化且要求日益增高的應(yīng)用提供更為可觀的計(jì)算性能。

為滿足模型快速“瘦身”之需,百度飛槳打造了PaddleSlim深度學(xué)習(xí)模型壓縮工具庫(kù),以及為用戶提供靈活的壓縮策略,而英特爾® 至強(qiáng)® 可擴(kuò)展處理器內(nèi)置的AI加速技術(shù)--英特爾® 深度學(xué)習(xí)加速(英特爾® DL Boost),可通過矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)充分提高計(jì)算資源和緩存的利用率,減少潛在的帶寬瓶頸,為INT8等低精度計(jì)算提供優(yōu)化支持,顯著加速AI 推理。由此,幫助飛槳PaddleSlim所支持的量化訓(xùn)練和靜態(tài)離線量化方法,更好地適用于計(jì)算機(jī)視覺(CV)和自然語言處理 (NLP)等模型優(yōu)化過程,這無疑也為雙向詞典AI方案的開發(fā)提供了便利,同時(shí)提高了項(xiàng)目運(yùn)作效率。

同時(shí)為激活 VNNI 加速功能,百度飛槳深度學(xué)習(xí)平臺(tái)在量化方案實(shí)施中還廣泛使用英特爾® oneAPI 工具套件,如英特爾® oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫(kù) (Intel® oneAPI Deep Neural Network Library,英特爾® oneDNN)。借助其統(tǒng)一、簡(jiǎn)化的編程模型,飛槳用戶得以在CPU、GPU和FPGA等不同的架構(gòu)上方便地調(diào)用通用接口來使用平臺(tái)內(nèi)置的AI加速技術(shù),而無需擔(dān)心平臺(tái)兼容問題。

得益于英特爾® 至強(qiáng)® 可擴(kuò)展平臺(tái)與多項(xiàng)優(yōu)化工具的支持,百度飛槳深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)了深度優(yōu)化,并不斷豐富模型資源及應(yīng)用開發(fā)套件,為用戶提供了優(yōu)異的模型及硬件加速體驗(yàn)。而雙向詞典項(xiàng)目在推動(dòng)少數(shù)民族語言保護(hù)領(lǐng)域展現(xiàn)的神奇魔力,就是其典型案例。

“十四五”規(guī)劃把“強(qiáng)化重要文化和自然遺產(chǎn)、非物質(zhì)文化遺產(chǎn)系統(tǒng)性保護(hù)、推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”,作為提高社會(huì)文明程度的重要舉措;今年的工作報(bào)告也強(qiáng)調(diào)了“傳承中華優(yōu)秀傳統(tǒng)文化,滿足人民日益增長(zhǎng)的精神文化需求”,對(duì)鑄就文化新輝煌的重要作用。

英特爾攜手百度飛槳踐行“科技向善”,優(yōu)化開源平臺(tái),促進(jìn)瀕危語言保護(hù),不僅延續(xù)和發(fā)揚(yáng)了語言背后蘊(yùn)含的文化、知識(shí)遺產(chǎn)及其價(jià)值,更探索出智能技術(shù)賦能的新路;也是英特爾繼用人工智能助力長(zhǎng)城修繕,通過計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)全棧優(yōu)化解決方案幫助云岡石窟文物保護(hù)等,持續(xù)展現(xiàn)創(chuàng)新技術(shù)對(duì)挖掘與傳承璀璨歷史文化、實(shí)現(xiàn)創(chuàng)新創(chuàng)造的新動(dòng)能的又一成功實(shí)踐,有助于在讓歷史智慧照進(jìn)未來,讓寶貴文化遺產(chǎn)豐富人們精神世界的同時(shí),進(jìn)一步加速人工智能的拓展應(yīng)用,助力擁抱數(shù)字化浪潮,創(chuàng)造更美好的生活。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
ai技術(shù)

相關(guān)文章

  • 匯聚中國(guó)AI頂尖力量 云天勵(lì)飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(huì)(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會(huì)的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊(duì)”,云天勵(lì)飛作為中國(guó)人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運(yùn)營(yíng)商、科研院所等優(yōu)秀團(tuán)隊(duì)

    標(biāo)簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時(shí)代,讓人力資源回歸本質(zhì)

    這幾個(gè)月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個(gè)名詞重回C位。過去在AI1.0時(shí)代,主要通過訓(xùn)練模型來實(shí)現(xiàn)圖像識(shí)別、聲音識(shí)別、語言處理等特

    標(biāo)簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個(gè)新故事。6月29日,涂鴉智能在開發(fā)者大會(huì)上,發(fā)布了企業(yè)級(jí)戰(zhàn)略PaaS2.0,希望通過一個(gè)平臺(tái)+四大開發(fā)服務(wù),建立起IoT生態(tài)。對(duì)于這場(chǎng)發(fā)布會(huì),市場(chǎng)的態(tài)度是積極的。美東時(shí)間6月29日收盤,涂鴉智能美股股價(jià)上漲5.6%,來到1.87美元/股。近日股價(jià)穩(wěn)定

    標(biāo)簽:
    ai技術(shù)
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團(tuán)曾經(jīng)的二號(hào)人物王慧文對(duì)標(biāo)OpenAI的創(chuàng)業(yè)項(xiàng)目光年之外,以20億賣給美團(tuán),再度引發(fā)市場(chǎng)對(duì)大模型的熱議。

    標(biāo)簽:
    ai技術(shù)
  • 拾起王慧文的AI夢(mèng),美團(tuán)沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時(shí),外界本以為這位伴隨中國(guó)互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺(tái)。但是,一個(gè)曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標(biāo)簽:
    ai技術(shù)
  • 全球AI巨頭正在賭:誰搞定MCP,誰就是未來老大

    我不是危言聳聽,現(xiàn)在全球的AI巨頭都在做MCP,毫不夸張的說:誰能把MCP做起來,誰就擁有AI生態(tài)控制權(quán),誰就是AI圈的老大。你們有沒有發(fā)現(xiàn),MCP在2025年初開始特別火爆,互聯(lián)網(wǎng)技術(shù)大廠都在強(qiáng)推MCP。(1)阿里云百煉搞了個(gè)MCP平臺(tái),提供50+預(yù)置MCP服務(wù)。不過大都只面向阿里系產(chǎn)品。(2)騰

    標(biāo)簽:
    ai智能
  • 對(duì)話李軍:人工智能是“第五范式革命”

    2025國(guó)際人工智能程序設(shè)計(jì)精英挑戰(zhàn)賽(IAEPC)在香港中文大學(xué)成功舉辦。作為主辦方之一,歐美同學(xué)基金會(huì)理事長(zhǎng)李軍接受了大賽主持人艾誠(chéng)采訪。在采訪中,李軍認(rèn)為IAEPC不僅是一場(chǎng)“冠軍中的冠軍”對(duì)決,更是一次全球AI人才的線下交流盛會(huì)。大賽“史無前例”的吸引了全球青年科技精英匯聚香港,更加推動(dòng)和普

  • 對(duì)話施韓原與杜瑜皓:與參賽選手一起改變世界

    2025國(guó)際人工智能程序設(shè)計(jì)精英挑戰(zhàn)賽(IAEPC)在香港中文大學(xué)成功舉辦。作為大賽發(fā)起人方之一及裁判委員會(huì)負(fù)責(zé)人,施韓原與杜瑜皓接受了大賽主持人艾誠(chéng)采訪。裁判委員會(huì)主席施韓原分享了此次大賽的亮點(diǎn),IAEPC首次引入創(chuàng)新賽道,探索選手如何與AI合作進(jìn)行答題。裁判委員會(huì)副主席杜瑜皓認(rèn)為,選手最終目標(biāo)并

  • 吳林林專訪IAEPC冠軍:與全球參賽者交流是最重要的一課

    2025國(guó)際人工智能程序設(shè)計(jì)精英挑戰(zhàn)賽(IAEPC)在香港中文大學(xué)成功舉辦。來自深圳的學(xué)生吳林林作為主辦方記者團(tuán)成員,采訪了大賽冠軍選手之一。在吳林林的采訪中,選手認(rèn)為與來自全球的參賽者交流是自己學(xué)到的最重要的一課。在科技與AI之前,選手們可以平等、開放、友好的交流。以下是采訪實(shí)錄(有刪節(jié)):吳林林

  • 吳林林專訪黃錦輝:年輕人要像懂中文一樣懂A

    2025國(guó)際人工智能程序設(shè)計(jì)精英挑戰(zhàn)賽(IAEPC)在香港中文大學(xué)成功舉辦。來自深圳的學(xué)生吳林林作為主辦方記者團(tuán)成員,采訪了大會(huì)嘉賓:全國(guó)政協(xié)委員、香港特別行政區(qū)立法會(huì)議員、香港中文大學(xué)工程學(xué)院副院長(zhǎng)、IAEPC聯(lián)合發(fā)起人黃錦輝先生。在吳林林的采訪中,黃錦輝教授勉勵(lì)年輕人要像懂中文和英語一樣懂AI,

  • 本以為DeepSeek天下無敵了,沒想到Manus更猛

    昨天新出了一個(gè)AI,據(jù)說比DeepSeek還牛,而截止到今早,已經(jīng)有10萬人在排隊(duì)申請(qǐng)Manus邀請(qǐng)碼了,而且它邀請(qǐng)碼已經(jīng)炒到10萬了。這是北京的一家人工智能公司蝴蝶科技,創(chuàng)始人是一名來自華中科技大學(xué)的90后畢業(yè)生肖弘,突然向全球宣布:世界上第一款真正的人工智能、通用智能體產(chǎn)品出現(xiàn)了,名叫Manus

    標(biāo)簽:
    ai智能

編輯推薦