网易首页 > 网易号 > 正文 申请入驻

大语言模型的自我改进与推理验证丨周六分享·大模型2.0读书会

0
分享至


导语

AI 前首席科学家Ilya Sutskever在NeurIPS 2024上指出,数据的增长已接近瓶颈,未来的AI发展将从拓展模型和数据规模转向推理和自我意识的探索。随着大语言模型(LLMs)在推理能力上的不断提升,如何使模型具备自我改进和推理验证的能力成为研究的热点。

旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的第四期分享将由香港科技大学(广州)的吴杰民带领大家集中探讨LLMs如何通过自我验证和迭代优化来提升推理能力,并结合近期前沿研究,分析推理验证的技术细节及其在缓解模型幻觉,提高推理表现上的效果。此外,还将简要讨论如何通过强化学习和过程奖励模型优化推理过程,提供一些理解前沿模型o1,o3可能的思路。

分享内容简介

本次分享将围绕大语言模型(LLMs)的自我改进与推理验证展开,首先从微软最新发布的Phi-4预训练模型出发,了解高质量标注数据短缺的情况下使用大语言模型辅助生成和改进训练数据的细节,其次深入关注模型在推理时的自我验证技术,这包括根据模型内部状态解码,使用模型输出一致性检查以及使用外部验证工具验证的方式提高模型推理能力并缓解幻觉。然后我们将简要讨论如何将强化学习方法引入到推理过程中以应对复杂问题。最后就一些前沿开放问题一起探讨。

分享内容大纲

  1. 训练时:LLM生成数据

    1. 微软Phi-4

    2. 自生成数据

    3. 自改进数据

  2. 推理时:LLM自我验证

    1. 内部状态解码缓解幻觉

    2. 模型输出一致性检查

    3. 外部数据RAG验证

    4. 内部验证与外部验证对比

  3. 强化学习优化难题推理

    1. 强化学习基础概念

    2. 蒙特卡洛树搜索和过程奖励模型

    3. ReST-MCTS∗方法简介

  4. 前沿研究进展和讨论

    1. 自我改进消除推理错误的能力上界在哪?

    2. 数据不足时,如何保证推理的可靠性?

    3. 自我改进是否会带来新的安全风险?

主讲人介绍

吴杰民,香港科技大学(广州)博士生,曾任加州大学戴维斯分校研发工程师。

研究兴趣为概率图模型,神经信号处理,强化学习与控制系统,大语言模型推理优化。

主要涉及到的参考文献

  • Tao Z, Lin T E, Chen X, et al. A survey on self-evolution of large language models[J]. arXiv preprint arXiv:2404.14387, 2024.

  • Zelikman E, Wu Y, Mu J, et al. Star: Bootstrapping reasoning with reasoning[J]. Advances in Neural Information Processing Systems, 2022, 35: 15476-15488.

  • Madaan A, Tandon N, Gupta P, et al. Self-refine: Iterative refinement with self-feedback[J]. Advances in Neural Information Processing Systems, 2024, 36.

  • Lightman H, Kosaraju V, Burda Y, et al. Let's verify step by step[J]. arXiv preprint arXiv:2305.20050, 2023.

  • Zheng R, Dou S, Gao S, et al. Secrets of rlhf in large language models part i: Ppo[J]. arXiv preprint arXiv:2307.04964, 2023.

  • Wang B, Zheng R, Chen L, et al. Secrets of rlhf in large language models part ii: Reward modeling[J]. arXiv preprint arXiv:2401.06080, 2024.

  • Yuan W, Pang R Y, Cho K, et al. Self-rewarding language models[J]. arXiv preprint arXiv:2401.10020, 2024.

  • Lu J, Zhong W, Huang W, et al. Self: Language-driven self-evolution for large language model[J]. arXiv preprint arXiv:2310.00533, 2023.

  • Zhao Z, Lee W S, Hsu D. Large language models as commonsense knowledge for large-scale task planning[J]. Advances in Neural Information Processing Systems, 2024, 36.

  • Stechly K, Valmeekam K, Kambhampati S. On the self-verification limitations of large language models on reasoning and planning tasks[J]. arXiv preprint arXiv:2402.08115, 2024.

  • Tian Y, Peng B, Song L, et al. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing[J]. arXiv preprint arXiv:2404.12253, 2024.

  • Zhang D, Huang X, Zhou D, et al. Accessing gpt-4 level mathematical olympiad solutions via monte carlo tree self-refine with llama-3 8b[J]. arXiv preprint arXiv:2406.07394, 2024.

  • Zhang D, Zhoubian S, Hu Z, et al. Rest-mcts*: Llm self-training via process reward guided tree search[J]. arXiv preprint arXiv:2406.03816, 2024.

  • Snell C, Lee J, Xu K, et al. Scaling llm test-time compute optimally can be more effective than scaling model parameters[J]. arXiv preprint arXiv:2408.03314, 2024.

  • Qi Z, Ma M, Xu J, et al. Mutual reasoning makes smaller llms stronger problem-solvers[J]. arXiv preprint arXiv:2408.06195, 2024.

  • Kumar A, Zhuang V, Agarwal R, et al. Training language models to self-correct via reinforcement learning[J]. arXiv preprint arXiv:2409.12917, 2024.

  • Setlur A, Nagpal C, Fisch A, et al. Rewarding progress: Scaling automated process verifiers for llm reasoning[J]. arXiv preprint arXiv:2410.08146, 2024.

  • Zhang D, Wu J, Lei J, et al. Llama-berry: Pairwise optimization for o1-like olympiad-level mathematical reasoning[J]. arXiv preprint arXiv:2410.02884, 2024.

  • LLM Reasonable 知乎专栏 https://zhuanlan.zhihu.com/column/c_1852087980463886337

分享信息

分享时间:

2024年12月28日(本周六)晚上19:00-21:00

扫码参与,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:

大模型2.0读书会启动

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。

从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!

详情请见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
门框飞上天,WZ9“神雕”无人预警机首次被拍到

门框飞上天,WZ9“神雕”无人预警机首次被拍到

三叔的装备空间
2024-12-28 17:02:09
拿到日本10年多次往返签证,需要多少存款!

拿到日本10年多次往返签证,需要多少存款!

东京在线
2024-12-28 21:49:44
中美艾滋病患者差距断崖:美国120万,日本2.4万人,中国令人意外

中美艾滋病患者差距断崖:美国120万,日本2.4万人,中国令人意外

阿纂看事
2024-12-28 09:46:56
俄军炸出大事了,俄罗斯又给我们上了一课:敌人不投降就停水停电

俄军炸出大事了,俄罗斯又给我们上了一课:敌人不投降就停水停电

星光历史
2024-12-28 11:24:50
在沪央企一公职人员被查

在沪央企一公职人员被查

鲁中晨报
2024-12-28 17:24:07
北京一退休阿姨晒出住了12年的家,因太干净而走红,令人称奇

北京一退休阿姨晒出住了12年的家,因太干净而走红,令人称奇

美居说说
2024-12-28 09:15:09
久违的手感!河村勇辉37分钟7记三分生涯新高 砍生涯第二高23分

久违的手感!河村勇辉37分钟7记三分生涯新高 砍生涯第二高23分

直播吧
2024-12-28 14:31:39
日本皇室穷疯了?最美公主3个月连出4本写真集狂捞钱,日本人怒批浪费钱!

日本皇室穷疯了?最美公主3个月连出4本写真集狂捞钱,日本人怒批浪费钱!

东京新青年
2024-12-27 18:48:15
24岁易烊千玺爆改脑瘫患者,造型惊呆粉丝,他离影帝还差多远?

24岁易烊千玺爆改脑瘫患者,造型惊呆粉丝,他离影帝还差多远?

夏聊史
2024-12-28 09:50:45
山西航空听着像个笑话。只有一架波音737,居然能养活600多人!

山西航空听着像个笑话。只有一架波音737,居然能养活600多人!

猫小狸同学
2024-12-23 21:05:02
冯唐:不和底层人讲逻辑,不和中层人谈理想,不和上层人谈感情

冯唐:不和底层人讲逻辑,不和中层人谈理想,不和上层人谈感情

清风拂心
2024-12-27 15:15:03
41分大胜!广东106-65吉林,谁是本场最大功臣,数据一目了然!

41分大胜!广东106-65吉林,谁是本场最大功臣,数据一目了然!

体坛热消息
2024-12-28 22:26:01
尘埃落定,尹锡悦被“抄家”,韩国党首通知抓人,三句话斩钉截铁

尘埃落定,尹锡悦被“抄家”,韩国党首通知抓人,三句话斩钉截铁

深析古今
2024-12-28 09:22:34
吃到个无语瓜!某大厂HR准备裁一个36岁男员工,突然得知他刚离婚被出轨,孩子不是亲生,不裁了……

吃到个无语瓜!某大厂HR准备裁一个36岁男员工,突然得知他刚离婚被出轨,孩子不是亲生,不裁了……

毯叔盘钱
2024-12-28 09:29:38
12月28日俄乌:菲佐威胁报复乌克兰,朔尔茨称俄罗斯将全面失败

12月28日俄乌:菲佐威胁报复乌克兰,朔尔茨称俄罗斯将全面失败

山河路口
2024-12-28 23:44:55
交警提醒:私家车或将实施2+3新式严查,已经有不少车主被罚了!

交警提醒:私家车或将实施2+3新式严查,已经有不少车主被罚了!

爱论历史
2024-12-27 22:51:44
医生劝诫:上了岁数,宁可出门遛弯喝茶,也不要随便在家做这2事

医生劝诫:上了岁数,宁可出门遛弯喝茶,也不要随便在家做这2事

游古史
2024-12-28 17:56:46
苏联“人猿杂交”实验:5名女孩与11只猩猩参与,最终结局如何?

苏联“人猿杂交”实验:5名女孩与11只猩猩参与,最终结局如何?

游古史
2024-12-28 17:54:38
天塌了!37个跌停后又来18个跌停,股民:想死的心都有了

天塌了!37个跌停后又来18个跌停,股民:想死的心都有了

八百者也
2024-12-28 20:05:45
金正恩对于朝鲜军队在库尔斯克的惨败非常愤怒,损失高达1000多人

金正恩对于朝鲜军队在库尔斯克的惨败非常愤怒,损失高达1000多人

环球热点快评
2024-12-24 11:36:19
2024-12-29 00:51:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
4854文章数 4619关注度
往期回顾 全部

科技要闻

特朗普要求,暂停执行TikTok强制出售令

头条要闻

保姆一声吼保住东家900万养老钱:老板给包5000元红包

头条要闻

保姆一声吼保住东家900万养老钱:老板给包5000元红包

体育要闻

63岁传奇羽毛球解说员,还不想退休

娱乐要闻

突发!赵薇官宣离婚,与黄有龙已分开多年

财经要闻

谁是中国第一工业?谁在支撑就业?

汽车要闻

长安启源C798内饰官图发布 配备副驾零重力座椅

态度原创

手机
亲子
本地
游戏
公开课

手机要闻

澎湃OS再次公布进展通报:仅两项问题被优化,进度稍微变缓

亲子要闻

送孩子山海经年兽礼盒,点亮想象之光

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

海妖岛没海妖?暴雪又挖大坑,神秘古神摧毁艾泽拉斯回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版