关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻19083人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

东方财富实控人其实的妻子和父亲近期套现约93亿

YOUNG财经 浏览 993

IBM最新量子算法,运行速度提升约10倍,带动AMD市值暴涨近2000亿

DeepTech深科技 浏览 793

想花钱的欲望到达next level(白日梦版)

YOKA网 浏览 11252

媒体:中方已经明确不出席“乌克兰和平峰会” 并给出理由

新民周刊 浏览 67800

姚期智:“AI+量子”将极大拓展人类计算能力边界

文汇报 浏览 1638

“AI原生”骗局江湖:真的真视频、假的真视频、真的假视频、假的假视频

钛媒体APP 浏览 12468

岳云鹏高考祝福翻车,微博改三次文案,暴露自己的文化水平

趣看热点 浏览 27994

万亿豪赌:OpenAI结盟芯片、云巨头,AI生态闭环了吗?

澎湃新闻 浏览 1016

亏损超10.6亿,中美观众差评出奇一致,好莱坞年度票房惨案来了

靠谱电影君 浏览 930

欧盟批准为芯片研究提供80亿欧元的国家补贴

界面新闻 浏览 16549

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 717

妈妈辈如何穿出“贵气感”?4个打扮习惯,轻松提升优雅气质

静儿时尚达人 浏览 1030

男子租车遇划痕被车主索赔900元 报警后赔偿立减400元

大风新闻 浏览 33167

复旦大学法学院学生在毕业典礼上挥拳打老师 院方通报

复旦大学法学院 浏览 63091

全球首创!西安造创新医疗器械获批上市

上游新闻 浏览 998

微博之夜2024已官宣,85花90花咖位再洗牌,多个名场面已预定!

缘木不求娱 浏览 12850

没想到这3个小习惯,给我生活带来这么大的变化

黎贝卡的异想世界 浏览 956

小试牛刀!塔图姆13中8拿到20分&填满数据栏

直播吧 浏览 12340

专家:普京释放强烈信号 要将特别军事行动"进行到底"

看看新闻Knews 浏览 94969

日本前外相:高市言论"可能开启一条通往战争的道路"

参考消息 浏览 15272

这5件衣服尽量舍弃 谁穿谁掉价

形象设计师飞飞 浏览 19140
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1