关闭广告

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家1680人阅读

IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化

据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据难以适应新任务达到类人智能

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准

这款模型的具体创新点如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

39万手封单,“AI大牛股”浪潮信息一字跌停,年内涨幅一度超200%

界面新闻 浏览 15538

马杜罗:美国对委内瑞拉威胁是"老调重弹"

国际在线 浏览 408

贝尔巴托夫:我希望鲁尼攀登教练之路,未来他想执教曼联

直播吧 浏览 12857

陈冠希邀老师来家中为女儿庆生,秦舒培全场最美

扒虾侃娱 浏览 18845

光伏普遍亏损!TCL中环业绩跳水,存货损失何时休?

星空财富bj 浏览 11281

小米SU7成都事故惨烈 "打不开的门"问题在哪儿

网易汽车 浏览 1082

半两财经|首款eSIM手机发售 国内运营商加速“无卡化”

北青网-北京青年报 浏览 891

不惧油价上涨 成都车展这些混动车型值得关注

车市红点 浏览 20206

Reddit下周开启美股IPO前路演,目标估值65亿美元,预计3月21日登陆纽交所

独角兽早知道 浏览 12457

铖昌科技:相控阵T/R芯片高维布局,卫星市场爆发元年将至

爱集微 浏览 11567

特朗普TikTok粉丝超290万 控告他的艳星在美国走红

新民周刊 浏览 67693

《长相思》暗斗?檀健次关直播回放疑遭杨紫粉攻击

萌神木木 浏览 14905

另有安排 大众ID.Polo暂无引入中国计划

车质网 浏览 697

菲防长:若中美在南海开火将参战美国赠予菲律宾军火武器

趣看热点 浏览 25831

今年双11,搞出了点新意思

虎嗅APP 浏览 599

比不会打扮更可怕的是"精致土"

时尚搭配师Nicole 浏览 15346

俄军出动2500兵力在远东地区开展实弹射击演练

环球网 浏览 26016

Meta再瘦身 至少60名Instagram技术项目经理被裁

IT之家 浏览 12503

新增多个反腐重点领域 中央纪委重要会议透露新信号

政知新媒体 浏览 74941

三国最幸运的武将!他二度反杀孙吴当权者惨遭孙权围剿

趣看热点 浏览 26248

泽连斯基称德国已向乌交付“爱国者”防空导弹系统

环球网资讯 浏览 720
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1