网易首页 > 网易号 > 正文 申请入驻

形式化定理证明突破:SubgoalXL框架让大模型在Isabelle中性能暴涨

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者为香港大学博士研究生赵学亮,主要研究方向为形式化数学定理证明,检索增强生成以及多模态推理。该工作由香港大学与 AI 芯片公司 SambaNova Systems 共同完成。

背景介绍:形式化定理证明的新挑战

大语言模型(LLMs)在形式化定理证明中正面临两个核心挑战:

1. 形式化证明数据的稀缺性:当前数据集有限,难以支持模型在专门的数学和定理证明任务中的高效学习。

2. 多步骤推理的复杂性:形式化定理证明要求模型在多个步骤中保持逻辑严谨性,以生成正确的数学证明。

在这种背景下,研究团队提出了一个全新的框架:SubgoalXL,结合了子目标(subgoal)证明策略与专家学习(expert learning)方法,在 Isabelle 中实现了形式化定理证明的性能突破。



  • 论文链接:https://www.arxiv.org/abs/2408.11172
  • 项目地址:https://github.com/zhaoxlpku/SubgoalXL

SubgoalXL 如何应对挑战?

SubgoalXL 通过以下两种关键策略来应对形式化定理证明中的挑战:

1. 子目标证明策略:将证明过程分解为多个子目标,这些子目标构成了解决复杂推理任务的关键步骤。通过这种分解,SubgoalXL 在更接近形式化证明的逻辑框架下进行推理,使得生成的证明过程更加清晰有序。子目标证明策略有效地缓解了因非形式化与形式化证明之间的不一致性导致的学习瓶颈,增强了模型在形式化环境中的表现。

2. 专家学习框架:通过一个由形式化陈述生成器、子目标生成器和形式化证明生成器组成的迭代优化框架,SubgoalXL 能够在每个迭代过程中从经验数据中学习,调整各个组件的参数,使得模型在多步骤推理中的准确性和有效性不断提升。该框架利用概率建模和梯度估计技术,确保在每个迭代中从最优分布中采样数据,最大化模型的学习效率和推理能力。

方法概述

SubgoalXL 的方法核心在于子目标证明策略和专家学习框架的结合。

子目标证明策略 (图一左):我们首先手动创建了一组用于上下文学习的演示示例,然后使用这些示例指导模型生成子目标证明训练数据。具体来说,我们从 miniF2F-valid 中选择了部分问题,并手动构建了每个问题的已验证形式化证明,作为初始输入。通过 GPT-4o 生成子目标证明,该过程确保了:1) 子目标证明由自回归模型生成;2) 生成的证明风格一致,降低了模型的学习负担;3) 每个子目标与 Isabelle 中的形式化中间目标相对应。这种方法保证了非形式化证明与形式化证明之间的更高一致性,有效提升了形式化定理证明的质量。

专家学习框架 (图一右):该框架由三个核心模块组成:

  • 形式化陈述生成器(Formal Statement Generator):生成与非形式化陈述相对应的形式化陈述。
  • 子目标生成器(Subgoal Generator):根据非形式化和形式化陈述,生成与形式化证明结构相匹配的子目标序列。
  • 形式化证明生成器(Formal Proof Generator):在给定的子目标序列下,生成完整的形式化证明。

在每个迭代过程中,SubgoalXL 根据先前生成的陈述和证明样本进行参数优化。专家学习框架使用概率建模和梯度估计技术,对各模块进行迭代优化,以从最佳分布中采样数据。这种方法确保了模型在处理新的证明任务时能够保持高精度和稳健性。



图 1:左:非形式化陈述、非形式化证明、形式化陈述、形式化证明和子目标证明的示例。右:基于子目标的专家学习框架概览。缩写:“Stat.” 表示 “陈述”,“F.” 表示 “形式化”,“P.” 表示 “后验”。每次迭代从最优分布中采样子目标证明、形式化陈述和形式化证明。

实验结果

我们在标准 miniF2F 数据集上对 SubgoalXL 进行了全面的评估,结果表明其在 Isabelle 环境下达到了新的最优性能:

主实验结果:SubgoalXL 在 miniF2F-valid 数据集上的通过率达到了61.9%,在 miniF2F-test 数据集上达到了56.1%。这一表现超过了多种现有的基线方法,包括 Thor、DSP、Subgoal-Prover、LEGO-Prover 以及 Lyra 等,展示了显著的性能提升(见表 1)。



表 1:miniF2F 数据集上的性能。标记为†的方法在证明搜索过程中部分或全部使用了人工编写的非形式化证明。加粗数字表示获得的最高性能。

迭代提升分析:在逐步迭代的过程中,SubgoalXL 表现出明显的性能增长。模型在 miniF2F-valid 数据集上的通过率从初始的58.2% 逐步提升至 61.9%,在 miniF2F-test 数据集上从51.2% 提升至 56.1%。这些结果表明,通过逐步优化和专家学习框架的迭代,模型在每次迭代中都能实现稳定的性能提升。



图 2:miniF2F 数据集中不同迭代次数下的通过率比较。

子目标证明对比分析:实验显示,SubgoalXL 使用的子目标证明方法在处理复杂证明任务时表现优于人类编写的非形式化证明。尤其在复杂问题上,子目标证明策略显著提高了证明的精确性和可靠性(见图 3)。



图 3:子目标证明与非形式化证明的案例对比。左侧示例为子目标证明的成功尝试,右侧两个示例为非形式化证明的失败尝试。

结论与未来展望

SubgoalXL 的成功展示了大语言模型在形式化定理证明任务中的巨大潜力,并为未来研究指明了方向。我们相信,通过进一步优化框架、拓展数据集和应用场景,大语言模型将在数学和科学领域带来更深远的影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
获重用,罗克本赛季在贝蒂斯出场时间已是上赛季在巴萨的两倍

获重用,罗克本赛季在贝蒂斯出场时间已是上赛季在巴萨的两倍

懂球帝
2024-11-16 01:27:06
懂行的医生直言:体检时这8项指标都正常,说明你的身体还不错

懂行的医生直言:体检时这8项指标都正常,说明你的身体还不错

DrX说
2024-10-21 13:35:53
女主十大排行,眼镜妹呼声最高!

女主十大排行,眼镜妹呼声最高!

挪威森林
2024-11-14 13:30:11
没有德约的年终总决赛星光黯淡!阿卡梅总爆冷输球,辛纳稳如泰山

没有德约的年终总决赛星光黯淡!阿卡梅总爆冷输球,辛纳稳如泰山

搏击江湖
2024-11-15 21:33:05
李子柒,哪怕是卖个惨呢?

李子柒,哪怕是卖个惨呢?

娱小北
2024-11-14 23:12:12
哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这3点

哈佛大学惊人发现:寿命长的人,从来不是靠多运动,而是这3点

巢客HOME
2024-11-06 07:00:03
痛失好局!柯洁大优势遭逆转半目负止步三星杯16强 对申真谞9连败

痛失好局!柯洁大优势遭逆转半目负止步三星杯16强 对申真谞9连败

直播吧
2024-11-15 16:26:12
万万没想到!米莱竟成为特朗普当选后,首次会见的外国元首

万万没想到!米莱竟成为特朗普当选后,首次会见的外国元首

现代春秋
2024-11-15 14:24:08
上海一年轻主妇在家中被杀,床单被剪掉,凶手逃亡21年终落网

上海一年轻主妇在家中被杀,床单被剪掉,凶手逃亡21年终落网

鲁中晨报
2024-11-13 22:24:13
同样是“单手骑马”,把肖战和于适放一起对比,差距就出来了

同样是“单手骑马”,把肖战和于适放一起对比,差距就出来了

娱乐的小灶
2024-11-15 20:43:13
29岁吴宣仪大胆穿搭引热议!上身就挂一块布,网友担心衣服掉下来

29岁吴宣仪大胆穿搭引热议!上身就挂一块布,网友担心衣服掉下来

南城无双
2024-11-07 15:53:21
足球报:国足杀进小组前二可能性不大,但杀进前四的希望还是有的

足球报:国足杀进小组前二可能性不大,但杀进前四的希望还是有的

直播吧
2024-11-15 12:11:26
马斯克高调抢特朗普风头,引核心圈层不满,竞争对手率先对他出手

马斯克高调抢特朗普风头,引核心圈层不满,竞争对手率先对他出手

圈里的甜橙子
2024-11-15 20:11:23
一项了不起的黑科技,让乌军在库尔斯克立于不败之地

一项了不起的黑科技,让乌军在库尔斯克立于不败之地

每日一见
2024-11-14 20:43:03
不是迷信!明日十月十五,最不能做的“4件事”,别忘了告诉家人

不是迷信!明日十月十五,最不能做的“4件事”,别忘了告诉家人

神牛
2024-11-14 08:14:39
徐州“宝马车致1死7伤案”续:检察院立案审查后,退回补侦

徐州“宝马车致1死7伤案”续:检察院立案审查后,退回补侦

澎湃新闻
2024-11-15 15:10:29
伦纳德就是一个笑话!NBA现役10位75大巨星生涯总得分排名

伦纳德就是一个笑话!NBA现役10位75大巨星生涯总得分排名

大眼瞄世界
2024-11-15 23:10:13
创业板指午后跌幅扩大至3% 全市场超3800家个股飘绿

创业板指午后跌幅扩大至3% 全市场超3800家个股飘绿

每日经济新闻
2024-11-15 14:30:08
31省份平均工资公布!

31省份平均工资公布!

第一财经资讯
2024-11-14 18:59:25
67岁执意生娃,如今却坐轮椅无法自理,5岁的天赐被迫独立学洗衣

67岁执意生娃,如今却坐轮椅无法自理,5岁的天赐被迫独立学洗衣

削桐作琴
2024-11-04 21:40:06
2024-11-16 02:00:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9705文章数 142059关注度
往期回顾 全部

科技要闻

奇瑞董事长夸余承东:你改名余成功吧

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

头条要闻

中铁七局:对受伤记者深表歉意 对涉事5人就地免职

体育要闻

我们究竟需要一支怎样的国家队?

娱乐要闻

俞灏明迎37岁生日,疑似与王晓晨相恋

财经要闻

同花顺子公司被暂停新增客户3个月

汽车要闻

配易四方+云辇-Z系统 仰望U7于广州车展亮相

态度原创

健康
家居
数码
亲子
军事航空

花18万治疗阿尔茨海默病,值不值?

家居要闻

现代简约 彰显实用性

数码要闻

RTX 50全系升级12V-2x6供电接口!最高功率450W

亲子要闻

宝宝晚上发烧怎么办?需要叫醒喂药吗?

军事要闻

特朗普发表讲话:俄乌战争必须停止

无障碍浏览 进入关怀版