关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19070人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

中国4大领域纳入出口管制,又把对手甩身后

浏览 11156

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 1424

155亿债务压垮豪门?继母长子内斗两年,双双出局!72岁“中国民营船王”拟入主杉杉股份

经理人杂志 浏览 1076

香港这一夜,62岁刘德华的“江湖地位”被展现得淋漓尽致

娱乐白名单 浏览 10843

比亚迪奖励21位线索提供人:初步奖励最高30万元

快科技 浏览 10482

消息称一加性能新机搭骁龙 8 系旗舰芯 + 超高刷屏、有很酷的联名

IT之家 浏览 651

未来五年什么样?速来查阅“十五五”规划建议,蓝图清晰!

国是直通车 浏览 770

活塞125-107大胜篮网豪取5连胜,坎宁安34+10,杜伦30分

懂球帝 浏览 715

李亚鹏宣布离婚!跟海哈金喜结婚不到5年,网友质疑是为了躲债

萌神木木 浏览 983

特斯拉两周内市值下降940亿美元,马斯克施压董事会寻求更多控制权

蓝鲸财经 浏览 12574

看完《热辣滚烫》,对塑料古偶应激了!满屏假肌肉的痛,尽数爆发

娱乐圈笔娱君 浏览 12785

天猫微信内上线天猫优品小程序,仅支持微信支付

Tech星球 浏览 16083

综合续航超1400公里 奇瑞风云T9是你的菜吗?

汽车经纬网 浏览 13061

加拿大德比:巴雷特37-3碾压维金斯创3项纪录 成灭勇士头号英雄

醉卧浮生 浏览 12669

距地球 5400 万光年,NGC 4535 棒旋星系新图公布

IT之家 浏览 12319

"中原黄哥"直播喝酒身亡 妻子欲起诉平台:没掐断直播

上游新闻 浏览 90623

特斯拉与迪士尼合作引争议:车机引入《创:战神》车模被指广告

IT之家 浏览 999

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 1077

米体:尤文希望在冬窗引进新后卫,目标包括什克和金玟哉

懂球帝 浏览 994

哈马斯称将把加沙地带行政控制权移交临时委员会

环球网资讯 浏览 778

掘金工作人员妥善保管着约基奇的FMVP奖杯 为夺冠游行做好了准备

直播吧 浏览 15899
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1