网易首页 > 网易号 > 正文 申请入驻

Github2.5k星,Karpathy转赞,「流程工程」让LLM代码能力瞬间翻倍,直接淘汰提示工程

0
分享至

新智元报道

编辑:润

【新智元导读】Karpathy力推代码生成任务增强流程,让GPT-4在CodeContests从19%提升到44%,不用微调不用新数据集训练,让大模型代码能力大幅提升。

代码生成可以说是大模型应用中效果最好,使用人群最广的一项任务了。

但是由于编程语言众多,要应对各种不同的边缘场景,代码生成任务又是对模型能力要求最高的任务,一般的自然语言提示,甚至是CoT等方法,对于代码生成任务来说,效果也不是很好。

但是最近在GitHub上有一个项目大火,它通过一系列针对大模型代码生成任务的优化,将提示词工程升级为一个更加复杂的「流程工程」,能够大幅提升模型输出的代码质量。

项目地址:https://github.com/Codium-ai/AlphaCodium

就连AK看了,都很兴奋地转发,认为如果代码生成任务能够以更科学的流程,而不是简单的问答方式来和大语言模型互动的话,性能确实还有不少提升的空间。

作者把这个项目称为AlphaCodium ,一种基于测试的、多阶段、面向代码的迭代流程。

他们在由谷歌DeepMind提出的一个非常有难度的代码测试集CodeContests上进行测试,将GPT-4的成绩从19%提高到了44%。

由于CodeContests代码生成问题的复杂性,简单的提示优化,甚至CoT提示,无法获得有意义的性能提高。

最主要是因为就算强如GPT-4,也难以理解和「消化」问题,会不断产生错误的代码。

适用于自然语言任务的通用流程可能不适用于像CodeContests上这种有难度代码生成任务。

CodeContests数据集

CodeContests是Google Deepmind推出的一个具有挑战性的代码生成数据集,其中包括了很多像Codeforces等竞赛性编程平台编写的问题。

这个数据集包含约一万个可用于训练LLM的问题,以及用于评估LLM解决具有挑战性的代码生成问题的能力的验证和测试集。

作者没有训练专用模型,而是开发了一个面向代码的流程,这个流程可以应用于任何能够用于编码任务的预训练的LLM,例如GPT或DeepSeek。

下图展示了一个 CodeContests 数据集中的典型问题示例:

为什么CodeContests是一个评估代码生成任务的LLM的优秀数据集?

主要原因是:

1)CodeContests与许多其他竞争性编程数据集不同,它利用一套全面的不公开的测试来避免错误检测——每个问题包含约200个生成的代码解决方案,输出和输入都要通过这个测试。

2)LLM通常不擅长关注小细节,因为他们通常会将问题描述转换为某种「平均」描述,接近于模型接受训练时的常见案例。

另一方面,现实世界的问题经常包含正确解决问题内容中至关重要的小细节。

CodeContests 数据集的一个关键特征是,问题描述在设计上是复杂而冗长的,并且存在一些小细节和细微差别(参见上图中的典型问题描述)。

作者认为增加这种问题理解的自由度是有益的,因为它能真实模拟现实生活中的问题,这些问题通常很复杂,涉及多种因素和考虑因素。

这与更常见的代码数据集(例如 HumanEval)形成对比。

作者认为适当的自我反思会使问题更加清晰、更加连贯。这说明了问题理解作为流程的一部分的重要性,它很可能导致正确的代码解决方案。

为了应对这种和现实问题很接近的测试集,作者提出了这样一个流程:

该流程主要是一个迭代过程,作者根据输入输出测试反复运行和修正生成的代码。

这种以代码为导向的流程有两个关键要素:

  • 预处理阶段是一个线性流程,用自然语言对问题进行推理。在预处理阶段生成额外的数据,如自我反省和公共测试推理,以帮助迭代过程;

  • 代码迭代阶段包括根据特定测试生成、运行和修复代码的迭代阶段。这个阶段使用人工智能生成的额外测试来丰富公共测试。

面向代码的设计理念

AlphaCodium 流程广泛使用了以下设计概念:

YAML 结构化输出

结构化输出的使用——要求模型生成 YAML 格式的输出,相当于给定的 Pydantic 类——是我们提出的流程中的关键组件。此类指令的示例:


Your goal is to present possible solutions to the problem.Make sure that each solution fully addresses the problem goals, rules, and constraints.

The output must be a YAML object equivalent to type $PossibleSolutions, according to the following Pydantic definitions:
class Solution(BaseModel):name: str = Field(description="The name of the solution")content: str = Field(description="A description of the solution")why_it_works: str = Field(description="Why this solution is correct. Be specific and detailed regarding the problem rules and goals")complexity: str = Field(description="The complexity of the solution")
class PossibleSolutions(BaseModel):possible_solutions: List[Solution] = Field(max_items=3, description="A list of possible solutions to the problem. Make sure each solution fully addresses the problem rules and goals, and has a reasonable runtime - less than three seconds on a modern computer, given the problem constraints for large inputs.")

结构化输出消除了「提示工程」所需的大部分麻烦和黑暗知识,而是允许以简单的、类似代码的方式呈现复杂的任务。它还使得获得涉及多个阶段的复杂答案成为可能,代表逻辑和有条理的思维过程。

要点分析

当要求 LLM 推理问题时,要求输出采用要点格式通常会获得更好的结果。

要点鼓励对问题的深入理解,并迫使模型将输出划分为逻辑语义部分,从而改进结果。

例如,通过对问题的要点进行自我反思(见上图),每个要点代表对问题不同部分的语义理解——一般描述、目标和规则、输入结构和输出结构。

LLM在生成模块化代码时做得更好

当要求 LLM生成单个冗长函数时,结果往往很差 - 代码通常包含错误或逻辑错误。

更糟糕的是,单个整体代码损害了执行迭代修复的能力——即使给出了错误消息,模型也难以查明和修复问题。

具有双重验证的软决策

LLM往往会在需要思考、推理并做出严格、重要决策的代码任务中遇到困难。

以针对问题生成附加测试的任务为例。很多时候,模型生成的一些测试是完全错误的。

通过双重验证过程,作者添加了一个额外的步骤,在给定生成的输出的情况下,要求模型重新生成相同的输出,但在需要时进行更正。

例如,将生成的 AI 测试作为输入,要求模型重新生成相同的测试,同时纠正错误的输出(如果存在)。我们发现,双重验证的这一步骤在鼓励模型批判性和推理性的同时,比直接问「是/否」问题更有效:「这个测试正确吗?」

推迟决策,尽量避免直接提问,并留出探索的空间

向模型提出有关复杂问题的直接问题时,我们总是会看到幻觉和错误答案。

采用逐步数据积累的流程,从简单的任务到困难的任务:

从最简单的任务开始 – 对问题的自我反思,并对公共测试进行推理。

开始生成额外的人工智能测试以及问题的可能解决方案。

只有在获得模型对上述任务的答案后,我们才会开始实际的代码生成和运行修复迭代。

测试锚点

即使经过双重验证,一些人工智能生成的测试也会是错误的。

这使得迭代变得具有挑战性——当测试失败时,我们如何知道是因为代码错误,还是因为测试错误?

当我们直接询问模型「谁错了」时,经常会看到幻觉,并可能最终得到错误修复的代码。

为了解决这个问题,作者使用了「测试锚点」技术:

– 首先迭代公共测试,我们知道这是正确的。完成后,将所有通过的测试设置为锚定测试。

– 然后,一项一项地迭代人工智能生成的测试。如果测试通过,则将其添加到测试锚点列表中

-如果测试失败,假设是因为代码不正确,并尝试修复代码。

然而,要求固定代码也通过已经获得的所有测试锚点。因此,测试锚点将保护输出免受错误固定代码的影响。

测试锚点的另一个优化是将人工智能生成的测试从易到难进行排序。这样,迭代过程就有更多机会在过程开始时获得锚点,这可以在以后迭代更复杂的人工智能测试时用作保护,因为错误测试输出的可能性更高。

结果

直接使用提示词 Vs AlphaCodium

将 AlphaCodium 结果与通过单个精心设计的直接提示获得的结果进行了比较。

可以看出,AlphaCodium流程一致且显著提高了LLM在CodeContests问题上的性能。

对于开源 (DeepSeek) 和闭源 (GPT) 模型以及验证集和测试集都是如此。

参考资料:

https://www.codium.ai/blog/alphacodium-state-of-the-art-code-generation-for-code-contests/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王志文被封杀的“前因后果”,媒体:劣迹斑斑!

王志文被封杀的“前因后果”,媒体:劣迹斑斑!

文刀万
2024-11-28 06:00:03
皇马输球的原因找到了,姆巴佩在更衣室被冷落,赛后一举动引争议

皇马输球的原因找到了,姆巴佩在更衣室被冷落,赛后一举动引争议

姜大叔侃球
2024-11-29 11:06:18
正式告别!奥斯卡发声官宣重要决定,上港俱乐部批准,球迷送祝福

正式告别!奥斯卡发声官宣重要决定,上港俱乐部批准,球迷送祝福

小海要说球
2024-11-28 20:13:00
比北欧便宜一半不止!全球看极光最便宜的地方!电子签0拒签,去纯净雪国,实现帝王蟹自由!

比北欧便宜一半不止!全球看极光最便宜的地方!电子签0拒签,去纯净雪国,实现帝王蟹自由!

马蜂窝旅游攻略
2024-11-27 17:59:10
停止搬迁计划!永久关闭!补偿总额或超27亿元

停止搬迁计划!永久关闭!补偿总额或超27亿元

FM93浙江交通之声
2024-11-29 10:07:38
23.59万元起?小米SUV起售价曝光,明年3月上市,外观神似法拉利

23.59万元起?小米SUV起售价曝光,明年3月上市,外观神似法拉利

泡泡网
2024-11-29 14:59:20
16助攻,19助攻,22助攻,抱歉约基奇:你的助攻王悬了

16助攻,19助攻,22助攻,抱歉约基奇:你的助攻王悬了

篮球大视野
2024-11-29 12:30:46
72岁唐国强近照,嘴巴紧闭脸部发黑,老到认不出,走路小心翼翼

72岁唐国强近照,嘴巴紧闭脸部发黑,老到认不出,走路小心翼翼

老鹈爱历史
2024-11-28 11:05:12
友谊小船说翻就翻,以色列撕开停火协议

友谊小船说翻就翻,以色列撕开停火协议

那山星火
2024-11-29 07:30:25
动真格了! 中方出手了,这次不仅仅是警告!

动真格了! 中方出手了,这次不仅仅是警告!

星辰故事屋
2024-11-29 11:36:31
活久见!青岛最烂网约车走红网络,网友:别嘲笑人家,这是她饭碗

活久见!青岛最烂网约车走红网络,网友:别嘲笑人家,这是她饭碗

火山诗话
2024-11-28 06:40:16
52岁巩俐直言“每周四次”,70岁米歇尔体检证明自己:我跟得上

52岁巩俐直言“每周四次”,70岁米歇尔体检证明自己:我跟得上

柴叔带你看电影
2024-11-28 15:31:16
震惊!网传特斯拉降价后,有车主天天去4S店里搬水,表示很难受

震惊!网传特斯拉降价后,有车主天天去4S店里搬水,表示很难受

火山诗话
2024-11-29 07:34:51
菲4大部门出手,杜特尔特父女危险,我军出手给菲律宾“上强度”

菲4大部门出手,杜特尔特父女危险,我军出手给菲律宾“上强度”

说天说地说实事
2024-11-29 13:28:58
笑麻了!原来要戳破台湾民进党的谎言,只需马龙去一趟就可以了!

笑麻了!原来要戳破台湾民进党的谎言,只需马龙去一趟就可以了!

青青子衿
2024-11-29 05:18:26
又一国宣布:终止合作

又一国宣布:终止合作

环球时报新闻
2024-11-29 11:10:29
英媒:曼联球员不愿意给安东尼传球,阿莫林非常生气

英媒:曼联球员不愿意给安东尼传球,阿莫林非常生气

雷速体育
2024-11-29 08:57:15
最低气温<5℃!广东将迎来两股冷空气……

最低气温<5℃!广东将迎来两股冷空气……

南粤女声
2024-11-29 15:22:23
某局大崩溃:管理人员都发不出工资了!

某局大崩溃:管理人员都发不出工资了!

黯泉
2024-11-23 22:57:36
一名物业和两名外卖员受伤,警方通报详情

一名物业和两名外卖员受伤,警方通报详情

鲁中晨报
2024-11-29 09:28:07
2024-11-29 19:23:00
新智元
新智元
AI产业主平台领航智能+时代
11799文章数 65709关注度
往期回顾 全部

科技要闻

2024新一代AI(深圳)创业创新大赛决赛

头条要闻

俄国防部:俄防空部队一周内击落10枚美制ATACMS导弹

头条要闻

俄国防部:俄防空部队一周内击落10枚美制ATACMS导弹

体育要闻

中国足球需要什么样的舆论环境

娱乐要闻

叶珂被曝独自去产检,他俩真分了吗

财经要闻

专家建议将农民养老金提升至每月500元

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

房产
数码
家居
时尚
军事航空

房产要闻

大量甩地!114亿,4790亩!海南土地市场全面爆发!

数码要闻

空调洗衣机过去十几年完全固化 卢伟冰:小米创新了从来没有的产品

家居要闻

现代设计感 温馨两居室

中年女性别总穿黑白灰,给秋冬一点色彩,穿对了减龄又有魅力

军事要闻

针对朝鲜半岛 韩美核咨商小组兵棋推演将举行

无障碍浏览 进入关怀版