11月20日,愛數(shù)智慧發(fā)布中文普通話真·萌童聲語音合成(TTS)開源數(shù)據(jù)集。該數(shù)據(jù)集由真童聲錄制,為中文童聲語音合成數(shù)據(jù)集子集,時長為15分鐘,文本主要為日常用語。據(jù)了解,數(shù)據(jù)集全集包含2235句話,時長超2小時。這也是該童聲第一次用于TTS錄制。
隨著智能終端市場的擴張,人機交互逐漸成為與智能世界對話的入口。在人機互動過程中,語音合成(TTS)的自然度和表現(xiàn)力是用戶最能直觀感受到的部分。用戶使用智能設備的頻率增加,對合成語音的期望值也不斷提高。
TTS數(shù)據(jù)是影響語音合成效果的重要因素。由于TTS數(shù)據(jù)的采集和標注要求嚴格,因而成品數(shù)據(jù)集較少。從采集環(huán)節(jié)來看,錄音需要在專業(yè)的錄音棚中進行,并嚴格控制噪聲水平,才能最大限度還原發(fā)音人聲音。錄音過程中還需要有專業(yè)的錄音師和監(jiān)聽人在場,便于及時矯正錄音過程中的錯誤。從標注環(huán)節(jié)來看,TTS數(shù)據(jù)標注分為4個層級,包括發(fā)音校對、韻律層級、音素邊界切分和分詞詞性。為了充分保留發(fā)音人的語義表達和發(fā)音習慣,標注準確率要求一般在99%左右。
智能設備使用者“低齡化”趨勢明顯,從而帶動了童聲數(shù)據(jù)的需求。受制于兒童識字水平和配合情況,市面上童聲TTS數(shù)據(jù)庫數(shù)量較少,且多為成年人模仿。童聲TTS語料庫呈現(xiàn)出明顯的供需不平衡。
本次愛數(shù)智慧發(fā)布的TTS童聲開源數(shù)據(jù)集采集環(huán)境為符合NC-20標準的錄音間并根據(jù)兒童發(fā)音習慣對數(shù)據(jù)進行轉(zhuǎn)寫和全鏈條標注。考慮到句內(nèi)停頓和句間停頓對聽感的影響,在音素邊界切分環(huán)節(jié),標注人員除了對聲韻母邊界進行切分外,還對句中靜音段和句首尾進行精準切分。
發(fā)音人是影響TTS數(shù)據(jù)質(zhì)量的重要因素。該數(shù)據(jù)集的發(fā)音人為4歲小朋友妞妞。2019年初,發(fā)音韻律好的妞妞在上百位4-6歲小朋友中脫穎而出。因為發(fā)音韻律好能為用戶帶來更好的聽感。
在與愛數(shù)智慧工作人員接觸中,我們了解到妞妞性格活潑開朗,喜歡看冰雪奇緣和小馬寶莉。在錄制休息期間,想要看動畫片時,就會黏著工作人員撒嬌。錄制工作已經(jīng)結束很久,工作人員在提起妞妞時,言語間還是充滿著濃濃的不舍與贊賞。這份由衷的贊賞,也讓我們對這個真·萌童聲充滿期待!
為智能世界提供充足的數(shù)據(jù)生產(chǎn)力是這家公司創(chuàng)立的初衷。我們也期待愛數(shù)智慧用更多高質(zhì)量的數(shù)據(jù)解鎖更多應用場景,服務更廣域的客戶。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
在信息技術持續(xù)革新與市場競爭日趨激烈的行業(yè)環(huán)境下,本地生活服務領域正經(jīng)歷著深刻的智能化轉(zhuǎn)型。這一轉(zhuǎn)型過程不僅涉及技術層面的升級迭代,更關乎服務模式與行業(yè)生態(tài)的系統(tǒng)性重構。閱北科技通過持續(xù)推進算法技術的優(yōu)化與應用,在提升服務精準度和用戶滿意度方面進行了積極探索。閱北的算法系統(tǒng)建立在持續(xù)優(yōu)化的技術架構之
2025年10月17日,上海在人工智能技術加速演進、產(chǎn)業(yè)生態(tài)持續(xù)升級的關鍵時期,由上海市漕河涇新興技術開發(fā)區(qū)發(fā)展總公司聯(lián)合天罡智算交易平臺共同發(fā)起成立的“漕河涇天罡人工智能研究院”(以下簡稱“研究院”)正式揭牌。研究院將依托漕河涇的產(chǎn)業(yè)資源與平臺優(yōu)勢,聯(lián)合上海交通大學、上海社會科學院等權威機構,聚焦
“AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞,百川智能的聯(lián)合創(chuàng)始人離職,這是王小川入局AI的第一道大坎。接下的成敗非常關鍵:(1)拿下河北(2)學習科大訊飛百川智能離職高端概覽:(1)2025年7月10日,百川智能技術聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的
人工智能作為引領新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術,正在加速融入千行百業(yè),便利千家萬戶。
來自路透社等媒體報道的最新消息:DeepSeek未發(fā)布的V4Lite模型遭泄露上網(wǎng),華為獲得早期訪問權限,英偉達被排除在外。近期,谷歌發(fā)表了2篇Multi-Agent協(xié)作學習新論文有網(wǎng)友提供了更加詳細的信息,DeepSeekV4Lite:100萬token上下文窗口(V3為128K)內(nèi)置原生多模態(tài)推
春節(jié)紅包會結束,但AI已融入數(shù)億人生活里
性能、商業(yè)、生態(tài)詮釋開源模型的最佳姿態(tài)
2026年剛開年,全世界最狂的那個男人,穿著他的經(jīng)典黑皮衣,在CES舞臺上發(fā)出了未來十年的信號。他搞了個“能吃飽套餐”:6個包子+一碟小菜+一碗粥=肉包子套餐,這樣以后你只要買一個套餐就能吃飽了。(Rubin平臺)同時他們店里還免費提供的筷子、勺子、蘸料、醬油、醋、水果、零食等等。(開放10萬億語言
12月12日-14日,2025全球開發(fā)者先鋒大會暨國際具身智能技能大賽(GDPS2025)于上海張江科學會堂舉行,大會以具身智能競技為核心,融合了技術比拼、產(chǎn)業(yè)展示與科普體驗,為全球觀眾呈現(xiàn)出具身智能的現(xiàn)在與未來。上海開普勒機器人有限公司(以下簡稱"開普勒機器人")攜明星產(chǎn)品K2"大黃蜂"亮相,并參
在數(shù)字化與智能化深度交織的時代浪潮中,安全的邊界不斷延展,技術的演進正引領產(chǎn)業(yè)邁向新一輪變革。10月24日,以“弈動Dynamic·數(shù)智躍遷博弈無界”為主題的2025TechWorld智慧安全大會在北京盛大召開。來自國家部委、院士學者、高??蒲袡C構和企業(yè)的權威專家與業(yè)界精英齊聚北京,共議AI安全、數(shù)
2025年10月25日,2025世界青年科學家峰會之人工智能(AI)融合創(chuàng)新發(fā)展論壇在浙江溫州成功舉辦。本次論壇由國際院士科創(chuàng)中心主辦,中國投資協(xié)會能源投資專業(yè)委員會、溫港院士科創(chuàng)中心承辦,中國電工技術學會、中科先進技術溫州研究院與溫州市電力工程學會提供支持,以“甌江論道-AI賦能綠色發(fā)展”為主題,
我覺得我們AI的目標是:從芯片設計到軟件生態(tài),全鏈路自主開發(fā),建立可控的世界級AI體系。所以這是俺對未來5年中國AI圈的展望和判斷。(1)2026年,英偉達造車、國產(chǎn)開車26年國產(chǎn)芯片會在推理和垂直場景上發(fā)力。以DeepSeek為代表,大多數(shù)AI大模型會以軟件彌補硬件不足,所以訓練和推理分開,訓練就
文/道哥在深陷“后門”風波、接受網(wǎng)信辦問詢之后,英偉達的“特供版”H20芯片,又有了新消息。近日,美國科技媒體《TheInformation》援引知情人士消息稱,英偉達已悄然向其關鍵供應商——包括負責封裝的安靠科技、供應高帶寬內(nèi)存的三星電子、以及承擔后端處理的富士康發(fā)出指令,要求暫停所有與H20AI