关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19075人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

问界新M5 Ultra全新一轮OTA升级 ADS 4全面上车

网易汽车 浏览 1550

中央高度重视 中央政法委秘书长到国家反诈中心调研

政知新媒体 浏览 86379

晋武帝司马炎的“太康之治”是怎么一回事?西晋开国皇帝对政治上的改造

趣看热点 浏览 25751

这次黄一鸣 没给王思聪留体面?

可乐谈情感 浏览 268

特朗普:以色列须立即停止轰炸加沙

央视新闻客户端 浏览 1039

网曝大S不止一次流产 因汪小菲不堪对话而离婚

网易娱乐 浏览 19257

哈登得偿所愿被交易至篮网,三巨头聚首剑指联盟总冠军

趣看热点 浏览 25537

适合女生长期不换的微信头像!

Yuki女人故事 浏览 12675

日赚超1.16亿元!宁德时代预计去年净利同比增长逾三成

澎湃新闻 浏览 12399

俄军缴获的西方装备展览在俄罗斯莫斯科州开幕

看看新闻Knews 浏览 14515

小鹏汽车增程车型矩阵加速落地 构建"纯电+增程"双线格局

海南车小二 浏览 263

菲律宾发布48页国安文件:除了南海还对台海表关切

看看新闻Knews 浏览 14715

重磅数据出炉!美联储发声

中国基金报 浏览 14403

中国第三艘航空母舰福建舰入列

新华社客户端 浏览 627

连续3天逆跌,全球票房破76亿,沈腾都压不住,暑期档诞生大黑马

靠谱电影君 浏览 10624

美著名主持人发推:拜登曾称有“毁灭台湾计划”

枢密院十号 浏览 92176

理想i6“涨价”:现金减免从1万元调整为5000元

电动知家 浏览 805

汪小菲最重要的两个女人,一个爱,一个适合

半身Naked 浏览 1612

国家统计局:就业形势总体改善 青年失业率处在高位

界面新闻 浏览 91740

张恒远被曝因黑色素瘤扩散为喉癌去世,灵堂照公开

好丹 浏览 16269

小米 WiFi 7 路由器 BE 3600 2.5G 版开售,首发249元

IT之家 浏览 12133
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1