网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

“弱智贴吧”的数据，居然是最强中文语料库

2024-04-07 13:36:57　来源: AIGC开放社区

北京举报

0

分享至

中国科学院、北大、中国科技大学、滑铁卢大学、01.ai等10家机构联合推出了，专用于中文的高质量指令调优数据集——COIG-CQIA。

在大模型领域英语一直是训练数据最重要的语言，但由于中英文的结构和文化差异,直接将英文数据集翻译成中文并不理想。所以，为了填补高质量中文数据集的空白，研究人员开发出了COIG-CQIA数据集。

COIG-CQIA几乎抓取了中文互联网的论坛、网站、百度贴吧、问答社区等高质量数据集。用COIG-CQIA对Yi-6B、Yi-34B进行指令调优，再用GPT4在BELLE-EVAL上评估在各种数据集上训练的大模型性能。

有趣的一幕出现了，“弱智贴吧”的数据质量，居然大幅度超过知乎、豆瓣、是否等知名知识社区，还真是大智若愚啊~

数据集地址：https://huggingface.co/datasets/m-a-p/COIG-CQIA

论文地址：https://arxiv.org/abs/2403.18058

为了验证“弱智贴吧”的数据质量，「AIGC开放社区」特意去实地考察了一下，果然名不虚传有将近300万的“病友”，找几个典型问答给大家鉴赏一下。

变形金刚买保险，是买车险还是人险？
雷公电母放的是，直流电还是交流电？
秃头的人洗头，用洗头膏还是洗面奶？
如果猪肾虚，那它的腰子还补吗？
吃止痛药去打架，算开挂吗？
鞋子买好了，怎么才能在冰箱里溜冰？

用这样的数据去微调中文大模型，那还不得稳超GPT-4立刻觉醒成为“病友”啊~

COIG-CQIA数据集介绍

研究人员从中文互联网精心挑选了涵盖通识百科、STEM、人文领域的22个高质量数据源,包括问答社区、百科网站、内容创作平台、考试题库等种类。

社交媒体、论坛数据方面,研究人员从知乎、小红书、豆瓣、是否等热门中文社区精心甄选了高质量问答和长文本内容。

针对不同社区的特点,分别采取了筛选高赞回答、评分过滤、人工审核等方式,确保所保留的数据贴合真实场景。

通识百科方面,从百科、维基解答等知名中文百科网站收集了广泛的概念解释和指导性文章,内容涉及自然科学、人文社科等多个领域。再通过解析HTML并设计多种提示模板,将原始数据得以转化为高质量的指令-输出对。

专业知识部分则从金融、电子、医学、农业等专业垂直网站采集了结构化数据,然后按照人工设计的提示模板构造出专业性指令-输出对。

此外,国内中学生、研究生的历年入学考试真题也被COIG-CQIA纳入在数据集中,可显著提升模型的逻辑推理和知识综合能力。

在完成数据收集和分类整理后,研究人员对每一类数据进行深度清洗、重构和人工审查,以确保数据质量、多样性和对真实人机交互的贴合度。

包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集。

为了测试数据集性能，用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调，结果显示，COIG-CQIA比现有开源中文数据集对大模型的帮助更好。

什么是指令微调

指令微调是一种在大模型上进行微调的方法，通过提供指令和输出来指导模型更准确地完成内容输出。

指令微调通过构建专业的指令格式的实例，通常包含任务描述、输入和输出等，然后以有监督的方式对大型语言模型进行精细化微调。

简单来说，指令微调像是一种“妈妈教孩子”的方法，按照特定格式帮助大模型更好地学习、输出拟人化内容。

需要注意的是，指令微调和数据预训练是两回事。预训练是大模型在大规模无监督数据上进行的基础数据训练，其目的只是让大模型学习通用知识，不会针对任何特定领域进行数据微调。

所以，高质量的指令微调数据集对于大模型的拟人化输出、内容的精准性非常重要。

本文素材来源COIG-CQIA论文，如有侵权请联系删除

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

男子线上30元预约开锁线下被开锁商家收16000元

奔流新闻 2025-01-10 08:03:44
6047 跟贴 6047
俄罗斯一夜暴富，夺取欧洲“命脉”，损失惨重的，不只是乌克兰

空天力量 2025-01-10 16:09:53
1623 跟贴 1623

牛弹琴：中日关系又传来两个好消息

现代快报 2025-01-10 13:49:35
113 跟贴 113

山东舰遭外舰抵近侦察 00后舵手出手

央视新闻客户端 2025-01-09 15:55:07
763 跟贴 763
泽连斯基决定参加下届总统选举向主要竞争对手提条件

环球网资讯 2025-01-10 06:24:22
2867 跟贴 2867

笑死了！39岁C罗在禁区内触电式倒地引热议，球迷：演技浮夸

侧身凌空斩 2025-01-10 03:54:59
1489 跟贴 1489

深圳小学期末试卷火了！家长感到抽象：学的一粒沙，考的撒哈拉

鲁中晨报 2025-01-10 00:20:26
161 跟贴 161
又见证历史了，港元马上追上人民币了

金石随笔 2025-01-10 00:18:52
187 跟贴 187

一觉醒来，知名月子中心人去楼空！有宝妈没来得及撤离，有孕妈交了几万元还一天没住

每日经济新闻 2025-01-10 01:03:08
2686 跟贴 2686
网友晒出村里白事习俗一个接一个趴在地上为老人抬轿

动态新闻 2025-01-10 16:10:58
1354 跟贴 1354
武王墩一号墓出土1万余件文物确认墓主人身份为楚考烈王

央视新闻客户端 2025-01-09 15:29:18
1938 跟贴 1938
重庆到北京火车票仅44元，业内人士：对部分非紧张时段和方向实行优惠票价

上游新闻 2025-01-10 12:40:37
280 跟贴 280
广西百色市发布倡议书倡议过年压岁钱不超过20元

玉林晚报 2025-01-10 18:09:45
113 跟贴 113
今日，股市又崩盘了，超4800只下跌，成了个大笑话！

兵哥闲聊 2025-01-10 15:10:33
0 跟贴 0
刘强东母亲穿上儿媳妇给买的衣服给现场工作人员做饭

动态新闻 2025-01-10 16:54:55
493 跟贴 493
国家体育总局排球运动管理中心原主任李全强被查

澎湃新闻 2025-01-10 16:05:58
4 跟贴 4
库里17+10+6勇士击败活塞康宁汉姆32+6+8

网易体育 2025-01-10 10:44:05
1529 跟贴 1529
北大毕业生进烟厂当一线操作员员工:吃饱肚子更重要

上游新闻 2025-01-10 15:41:04
628 跟贴 628
4万5的LV羽绒服，穿了4天多处起毛？回应：产品正常损耗

环球网资讯 2025-01-10 19:29:41
8 跟贴 8
江苏大学教师吐槽考核“一刀切”：新增800余门课程，有理科老师为教学学时达标去教军事理论

红星新闻 2025-01-10 12:30:12
324 跟贴 324
日落大道成废墟！洛杉矶16万亩土地被烧毁！消防栓全部没水！海水灭火可能对环境造成破坏

红星新闻 2025-01-10 11:15:15
0 跟贴 0
中国互联网联合辟谣平台2024年12月辟谣榜

网易号社区管理员 2025-01-10 22:04:14
0 跟贴 0
好消息！许好宁林美玲已顺利回国，家人公布细节，差点营救失败！

古希腊掌管松饼的神 2025-01-10 22:27:36
0 跟贴 0
【注意】“网红打卡点”突发！一名大学生已不幸遇难

潮州玩家 2025-01-10 22:40:11
0 跟贴 0
曝光一种不太新的新型骗局

电脑吧评测室 2025-01-10 22:39:09
0 跟贴 0
辽宁险胜北控：弗格41+7三分单节24分萨林杰33+18丢绝平三分

醉卧浮生 2025-01-10 21:52:20
0 跟贴 0

霍启刚夫妇看刘德华演唱会，郭晶晶穿百元风衣，被大屏拍到好恩爱

霍启刚夫妇看刘德华演唱会，郭晶晶穿百元风衣，被大屏拍到好恩爱

娱乐圈圈圆

2025-01-10 10:09:02

男子每月交8000后续！视频流出，妻子开房记录被曝，威胁网友负责

男子每月交8000后续！视频流出，妻子开房记录被曝，威胁网友负责

阿矗论古今

2025-01-08 15:17:19

开盘大跌！900亿市值超算龙头，第一大股东拟减持

开盘大跌！900亿市值超算龙头，第一大股东拟减持

21世纪经济报道

2025-01-10 10:43:19

突发！老胡宣布告别股海？难道回本又被套住了？

突发！老胡宣布告别股海？难道回本又被套住了？

风风顺

2025-01-10 04:29:06

金华市人民政府关于邱凌云等职务任免的通知

金华市人民政府关于邱凌云等职务任免的通知

浙中在线

2025-01-10 15:18:35

CBA战报：吉伦沃特36分，韦瑟斯庞29分10助攻，广东105-96青岛

CBA战报：吉伦沃特36分，韦瑟斯庞29分10助攻，广东105-96青岛

雷速体育

2025-01-10 21:56:24

又一园区遭突击检查！各大老板提前跑路，最少30辆警车包围了现场

又一园区遭突击检查！各大老板提前跑路，最少30辆警车包围了现场

跳跳历史

2025-01-10 16:22:07

WTT一波未平一波又起！林高远事件怎么解决？成难题，你怎么看？

WTT一波未平一波又起！林高远事件怎么解决？成难题，你怎么看？

小淇言说

2025-01-10 00:06:26

老兵不死韩德君出场数达684次超越朱芳雨独占CBA历史第3位

老兵不死韩德君出场数达684次超越朱芳雨独占CBA历史第3位

直播吧

2025-01-10 20:24:27

云南鸵鸟肉案凶手被判死刑，当地曾多人购买，这些人后来怎样了

云南鸵鸟肉案凶手被判死刑，当地曾多人购买，这些人后来怎样了

林林故事揭秘

2025-01-03 17:30:21

乌克兰反击匈牙利：如果匈牙利退出欧盟和北约，我们将接替其位置

乌克兰反击匈牙利：如果匈牙利退出欧盟和北约，我们将接替其位置

飞狼

2025-01-09 17:33:00

CBA：徐杰17+6，替补奇兵打爆杨瀚森，国手末节3三分

CBA：徐杰17+6，替补奇兵打爆杨瀚森，国手末节3三分

体娱荒原

2025-01-10 22:14:31

深圳小学数学题让网友震惊！当地老师说……

深圳小学数学题让网友震惊！当地老师说……

南阳家长汇

2025-01-10 21:07:56

苏炳添喜提极氪009，小米公关总经理回应选国产车都不错

苏炳添喜提极氪009，小米公关总经理回应选国产车都不错

中关村在线

2025-01-09 11:35:15

琼瑶罕见生活细节曝光：不做家务，平鑫涛下厨，每天凌晨四点才睡

琼瑶罕见生活细节曝光：不做家务，平鑫涛下厨，每天凌晨四点才睡

古装影视解说阿凶

2025-01-10 19:38:03

中国又将沦陷的专业，高校疯狂招生，毕业生就业前景堪忧！

中国又将沦陷的专业，高校疯狂招生，毕业生就业前景堪忧！

教育导向分享

2025-01-09 20:57:13

巴萨对27岁核心出狠招：转会续约2选1！否则坐看台封杀1年

巴萨对27岁核心出狠招：转会续约2选1！否则坐看台封杀1年

叶青足球世界

2025-01-10 20:10:39

就在刚刚！岛内传出消息，马英九一举轰动两岸！大陆态度很明确！

就在刚刚！岛内传出消息，马英九一举轰动两岸！大陆态度很明确！

星辰故事屋

2025-01-09 16:40:28

伊朗第一超模：跟你想的不一样，这才是沙漏身材！

伊朗第一超模：跟你想的不一样，这才是沙漏身材！

华人星光

2025-01-10 12:53:03

2025抖音第一个千万粉顶流，被永久封禁！

2025抖音第一个千万粉顶流，被永久封禁！

TOP电商

2025-01-08 19:10:00

AIGC开放社区

AIGC开放社区是专注于AIGC（生成式人工智能）领域的开放性社区

438文章数 53关注度

往期回顾全部

科技要闻

王啸：我看好应用层，一直没投基础大模型

头条要闻

英伟达批拜登离任之际管制AI芯片：正中美国对手下怀

头条要闻

英伟达批拜登离任之际管制AI芯片：正中美国对手下怀

体育要闻

28岁冷板凳!阿森西奥被抛售千万年薪无人接

娱乐要闻

鬼鬼吴映洁未婚生女当妈

财经要闻

财政部发声！2025年财政政策将非常积极

汽车要闻

10万元级无图智驾悦也PLUS全路况实测

态度原创

游戏

艺术

家居

旅游

健康

就梦幻西游这神兽价格，今年的神兜兜礼包还值得抢么？

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

家居要闻

深浅搭配放大视觉空间

旅游要闻

在泰旅游从业者称有中国游客取消订单！

抑郁症患者称好的“乌托邦”宝地

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版