关闭广告

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集

科技行者1583人阅读


科技发展到今天,人工智能已经能够模仿人类的声音说话了。然而,如果你曾经尝试过让AI说其他语言,比如让一个英语AI说中文,你可能会发现它的口音怪异,发音不准,甚至完全听不懂在说什么。这就像是一个只会说英语的人硬要说中文,结果说得让人啼笑皆非。这背后的根本问题是什么呢?缺乏高质量的多语言语音数据。

由国际数字经济研究院(IDEA)主导的研究团队最近发表了一项突破性成果,这项研究发表于2025年1月的arXiv预印本服务器上,论文编号为arXiv:2601.04233v1。感兴趣的读者可以通过这个编号查询完整论文。研究团队构建了一个名为LEMAS的庞大语音数据集,包含超过15万小时的多语言语音数据,覆盖10种主要语言,并且每个词都有精确的时间戳标注。基于这个数据集,他们还开发了两个强大的AI模型:LEMAS-TTS和LEMAS-Edit,前者专门负责语音合成,后者专门负责语音编辑。

为了理解这项研究的重要性,我们可以把语音AI比作一位多语言播音员。传统的播音员要想掌握多种语言,需要大量的训练素材和精确的指导。同样,AI要想说好多种语言,也需要海量的高质量语音数据作为"教材"。但现有的多语言语音数据存在许多问题:要么

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

突破“手”的瓶颈,具身智能正加速迈向“实干”

上观新闻 浏览 1946

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 2794

塞内西:只想为阿根廷效力,不想去唱毫无认同感的意大利国歌

懂球帝 浏览 1465

蔚来李斌:“降低事故率”和“使用时长”是衡量智驾能力的核心指标

澎湃新闻 浏览 3321

“恐龙院士”徐星:在朝阳,孩子们可以近距离与化石对话

新华社 浏览 2868

里瑟:利物浦的排名会比曼联更高,但后者也需要重返英超前列

懂球帝 浏览 1968

64岁关之琳现身南京眼镜店,与老板娘喝下午茶

涵豆说娱 浏览 2818

DO:热刺若降级,绝大多数球员薪资将被削减约50%

懂球帝 浏览 797

拉什福德渴望永久转会愿大幅降薪!暗讽曼联,称巴萨让他重获新生

罗米的曼联博客 浏览 2735

缅甸突袭KK园区后引发"招聘潮" 有人被7万美元"转卖"

红星新闻 浏览 15168

医生手术时涉诈停机 20多天未能复机无法与病人联系

中国新闻周刊 浏览 9340

埃迪-豪联赛对前东家伯恩茅斯7场不胜,并列英超最长纪录

懂球帝 浏览 3469

暗示亨特被裁?杨鸣:下一场对阵山西我们只有两名外援出战

懂球帝 浏览 1515

"老虎"高以忱被开除党籍:大搞政商勾连 大肆收钱敛财

界面新闻 浏览 11138

不变应万变!曼城连续3场首发不变,为瓜帅执教以来第三次

直播吧 浏览 3341

无显示屏、靠Siri控场?苹果首款眼镜核心功能全曝光

环球网资讯 浏览 1985

落地11万,现在的速腾还能买吗?

正在说车 浏览 1967

特朗普:芝加哥市长和伊利诺伊州州长都该入狱

新华社 浏览 17988

养老金增速领跑 险资投资版图更新

北京商报 浏览 2127

联合国安理会通过决议,将对海地制裁延期一年

界面新闻 浏览 2262

陈浩民夫妇滞留阿联酋 妻子:人生第二次收到轰炸警报

极目新闻 浏览 36408
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1