奇客Solidot | 研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

登录注册

文章
往日文章往日投票
皮肤
蓝色橙色绿色浅绿色

关注我们：

solidot新版网站常见问题，请点击这里查看。

消息

本文已被查看 6098 次

研究称百度弱智吧中文训练效果高于知乎豆瓣小红书

Wilson (42865)发表于 2024年04月06日 00时46分星期六

来自总门谷

最近取得重大突破的大模型主要专注于英语，为了弥补中文的差距，中科院深圳先进技术研究院、北大、中科大以及李开复的零一万物等学术机构和企业的研究人员推出了 COIG-CQIA 中文高质量指令微调数据集，旨在为中文自然语言处理社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA 的中文语料来自于知乎高赞回答、豆瓣、小红书和以及百度贴吧如弱智吧高赞贴。研究人员使用该数据集对零一万物的 Yi-34B 模型进行微调，结果发现弱智吧的语料表现最出色。研究人员推测可能与弱智吧的内容风格有关，弱智吧的高赞贴通常具有双关、多义等语言特色，可能有助于改进模型的逻辑推理。

https://arxiv.org/pdf/2403.18058.pdf
https://huggingface.co/datasets/m-a-p/COIG-CQIA

首先他们无视于你，而后是嘲笑你，接着是批斗你，再来就是你的胜利之日。--甘地

本站提到的所有注册商标属于他们各自的所有人所有，评论属于其发表者所有，其余内容版权属于 solidot.org(2009-) 所有。

京ICP证161336号京ICP备15039648号-15 北京市公安局海淀分局备案号：11010802021500

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　网上有害信息举报专区：https://www.12377.cn