关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19084人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

红色最时髦的4种穿法,大气又高级

小西的穿搭日记 浏览 13294

特斯拉得州锂精炼厂破土动工:可满足每年100万辆汽车所需锂

网易科技报道 浏览 18308

核酸检测企业开始打官司讨债了

界面新闻 浏览 15750

英媒抛出谬论:中国的空气质量改善 加速了全球变暖

环球时报国际 浏览 7054

小鹏开启“甩卖”模式,为明年开路?

汽车头条APP 浏览 13173

Apple Intelligence助推 苹果将下一代芯片的订单增加

威锋网 浏览 11076

欧盟《数字服务法》正式生效,社交媒体平台忙着改算法推荐

澎湃新闻 浏览 14431

丰富个性化选择,吉利银河L7新增“星瀚绿”配色

天天汽车 浏览 12481

一人讲一个瞒着表友的手表知识!都太炸裂了!

万表世界 浏览 13492

马斯克xAI污水处理厂破土动工,每年可为孟菲斯节约近190亿升水

IT之家 浏览 1067

最近流行的4件针织 这样搭配最好看

小西的穿搭日记 浏览 15309

王暖暖花6年才离掉婚 男方母亲曾带女子探监和他相亲

新京报 浏览 1075

银行存款利率下调 年轻人跨城存钱:50万能多赚6000元

上观新闻 浏览 116620

已伤缺一个多月!Shams:加兰计划在周四对阵活塞的比赛中复出

直播吧 浏览 12434

全运科技盛宴11月7日天河启幕

环球网资讯 浏览 677

Sora是马良“神笔”还是超级怪物?

中国新闻周刊 浏览 11274

外媒:卢浮宫失窃珠宝现身黑市 窃贼提议在暗网交易

环球网资讯 浏览 6706

美英空袭胡塞武装:典型的外科手术式打击

环球网资讯 浏览 13024

45岁潘玮柏好福气!34岁老婆宣云温柔又独立

体育小柚 浏览 604

美军宣称截获伊朗运送给胡塞武装的先进常规武器

环球时报 浏览 12884

这条绝美的“奶油裙”超适合夏天

In风尚 浏览 18830
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1