网易首页 > 网易号 > 正文 申请入驻

2024年AI编程技术与工具发展综述

0
分享至

OSCHINA

最近,开源中国 OSCHINA、Gitee 与 Gitee AI 。

报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源开发者生态数据进行多方位的总结和梳理。

在第二章《TOP 101-2024 大模型观点》中,同济大学特聘教授、CCF 杰出会员朱少民对 2024 年 AI 编程技术与工具发展进行了总结。

全文如下:

2024 年 AI 编程技术与工具发展综述

文 / 朱少民

2024 年 8 月下旬,一款 AI 代码编辑器 ——Cursor 火爆全球,火到一位 8 岁小女孩拿着它学编程,几十分钟内搭起来一个聊天机器人,其演示吸引来 180 万人在线围观。这导致有人大胆预言,未来编程只需要狂按 Tab 就够了。Cursor 确实好用,包括新推出的“光标位置预测”功能。

但是 AI 编程发展没有那么快,在国内生成代码采纳率还比较低,根据《2024 软件研发应用大模型国内现状调研报告》,多数团队在 10-40% 之间,如图 1 所示。

图 1 大模型(LLM)在编程上的应用及其生成代码的采纳率

在 2024 年,我们还看到了“AI 程序员” Devin 的诞生,Devin 能够独立完成复杂的编码和调试任务、自主查找和修复代码库中的错误,构建和部署应用程序。在 SWE-bench 编码基准测试中,Devin 能够解决 GitHub 中 13.86% 的真实问题,有了很大提升。

说起 SWE-bench 编码基准测试( https://www.swebench.com/ ),2024 年进步很快,以 OpenAI 建立的 verified 子集(500 个问题)为例,4 月开始时,成功率只有 2.8%,到现在已提升到 53%,这表明 AI 在编程能力方面取得了显著的进步。这一提升反映了 AI 编程几个关键因素,正好用来总结 2024 年 AI 编程的进展。

模型能力的增强:AI 模型的架构和算法不断优化,如从 Claude 3 Opus、GPT-4o 到 Claude 3.5 Sonnet、Claude 3.5 Haiku,大模型自身的能力不断提升,使得模型能够更好地理解和解决复杂的编程问题。

智能体(AI agent)的引进:智能体可以收集和学习与任务相关的知识,可以直接调用静态代码分析工具、直接调用搜索引擎和 API 为编程任务服务,并通过构建代码仓库知识图来帮助大模型全面理解软件仓库的结构和依赖关系,从而更好地定位问题根源并生成有效的代码补丁。

智能体还可以动态获取代码片段和问题相关的信息,并分析和总结收集到的信息,以便规划出更好的解决方案。例如从 RAG+GPT 4 (1106) 的 2.8% 提升到 SWE-agent+GPT 4 (1106) 的 22.4%、从 RAG+Claude 3 Opus 的 7% 提升到 SWE-agent+Claude 3 Opus 的 18.2%,效果都比较显著。

多模态能力:多模态 LLM 使智能体能够综合利用视觉和文本信息,可以理解软件用户界面、处理的图表、可视化数据、语法高亮和交互映射等内容,更好地理解任务陈述以及获取任务相关的产品信息、开发过程信息,从而更全面地理解和解决问题。目前排在 SWE-bench verified 前 4 位都使用了 Claude-3.5-Sonnet,而它是多模态的、具备处理文本和视觉信息的能力,使其能够理解和修复包含图像或其他视觉元素的 GitHub 问题。

和工具集成的框架:可以支持智能体在处理复杂任务时进行更好的任务管理和执行,并促进不同 AI 模型和工具之间的协作。

例如 Composio SWE-Kit 集成文件操作、代码分析、Shell 命令执行、知识库管理和数据库操作等工具或能力,优势互补,将 SWE-bench verified 大幅度提升到 48.6%。

再比如 OpenHands+CodeAct v2.1 将智能体的行为整合到统一代码行动空间的框架,允许 OpenHands 在编程任务中扮演全方位的智能助手角色,目前排在 SWE-bench verified 第一位(53%)。

基于代码大模型的自身进化,以及 RAG 技术、智能体的有力支持,从而 LLM 有更好的上下文感知能力。例如,在代码大模型预训练时,其训练语料中加入抽象语法树(AST)、代码依赖关系等数据,新的代码生成模型则具有更强的上下文感知能力。

在此基础上,基于 AI 的编程工具能够根据给定的上下文(如函数名、注释、部分代码等)检索出最相关的代码片段和文档,能够提供完整的函数或代码块建议。这也使得 LLM 能够参考海量的代码库和技术文档,这不仅能缓解大模型的幻觉问题,显著提升代码生成与理解的准确性,而且能符合上下文的代码,更能满足开发的业务需求。

未来,研发人员和多个智能体、工具协同工作来完成编程工作,如论文 Flows:Building Blocks of Reasoning and Collaborating AI 所描述的(图 2 所示),构成一个复合竞争性编码流程,研发人员更多是提需求,由 LLM 和智能体实现自主编程的过程。

图 2 由 LLM 和智能体实现自主编程的过程

随着大模型技术的迅速发展,在今年,我们明显能感到,AI 已从单一的辅助工具,逐渐演变为软件开发人员不可或缺的助手或伙伴。

除了前面已介绍的 Cursor、Composio SWE-Kit、OpenHands CodeAct 等工具之外,国内主要使用 chatGPT、GitHub Copilot、通义灵码、CodeGeeX、文心快码、蚂蚁 CodeFuse 等编程工具,国外还出现一些受欢迎的、新的编程工具,如 Codeium IDE Cascade、Solver ai、Websim ai 等。

图 3 国内编程助手使用状况(来源同图 1)

这些工具让我们能感受到 AI 卓越的生成能力和理解能力,帮助我们更高效地完成代码生成、代码评审、代码解释到单测生成、缺陷定位、代码优化等任务。这种进步也体现在今年国内企业一些落地实践中:

  • 在一些大厂,LLM 已经实际应用到代码审查或 CI/CD 流程中(如 pull request),自动识别代码质量问题并提出改进建议。

  • 有些企业结合智能体和相关工具的支持,让基于 LLM 的研发平台生成代码流程图和类图,辅助自然语言解释,使得开发者更直观地理解代码结构和执行流程,增强智能编程的可视性和交互性。

  • 有些开发团队借助智能体和 RAG 技术检索历史上已知的代码缺陷模式和已知问题,从而比较准确地识别潜在的缺陷和安全漏洞,甚至能够分析代码的功能意图,全面提升代码评审的能力。

  • 有些团队,根据 UI 设计图,让 LLM 自动生成相应的前端代码,大大减少了手动编码的时间,加快了从设计到实现的流程。

从应用效果看,前面调研的数据可供参考。在国内 AI 编程开展比较好的大厂,超过 80% 的工程师在使用 AI 编程工具完成日常的编程工作,近 30% 入库的代码由 AI 生成,生成代码平均采纳率超过 40%,有些产品线达到 60%。仅仅在编程这一项工作(虽然只占开发人员 20-30% 的工作量)上,研发效率能提升 20-30%。

图 4 大模型时代的软件研发正确方式

当然,我们不能局限于这一个编程环境,最好要从需求开始就应用大模型。ATDD(验收测试驱动开发)是大模型时代软件研发的正确打开方式,让大模型帮我们生成需求及其验收标准,业务约束更明确了,上下文更清楚了,在此基础上分别由不同的模型生成产品代码和测试代码,再让它们之间相互验证和博弈(如图 4 所示),最终交付高质量的软件。

未来,随着 AI 技术的不断成熟和创新,AI 编程工具将进一步提升智能化和可解释性,支持更多的编程语言和平台,并通过强化学习实现自适应优化。为了全面发挥 AI 编程技术的潜力,开发团队需要不断学习和适应新技术,优化开发流程,确保 AI 工具的有效应用和高质量输出。

作者简介

朱少民

同济大学特聘教授、CCF 杰出会员、CCF TF 软件质量工程 SIG 主席、CCF2023 杰出演讲者、软件绿色联盟标准评测组组长、QECon 大会和 AiDD 峰会发起人。

近三十年来一直从事软件工程的教学与研究工作,先后获得多项省、部级科技进步奖,已出版了二十多部著作和 4 本译作。曾任思科(中国)软件有限公司 QA 高级总监、IEEE ICST 2019 工业论坛主席、IEEE ICST、QRS 等程序委员、《软件学报》和《计算机学报》审稿人等。

阅读完整报告:https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

↓分享、在看与点赞~Orz

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被巴西队忽视的中场大师,却被西班牙队视若珍宝,32岁才登上巅峰

被巴西队忽视的中场大师,却被西班牙队视若珍宝,32岁才登上巅峰

足篮大世界
2026-07-04 23:10:04
钱学森教授唯一的孙子钱磊:2009年30岁少校,2017年38岁上校

钱学森教授唯一的孙子钱磊:2009年30岁少校,2017年38岁上校

史之铭
2026-06-20 02:12:13
69家A股公司深夜公告:机器人业务收入极低

69家A股公司深夜公告:机器人业务收入极低

我是一个粉刷匠2
2026-07-05 02:36:09
生育大局已定?7月起,中国人口将迎来3大变化,性别失衡只是其一

生育大局已定?7月起,中国人口将迎来3大变化,性别失衡只是其一

阿纂看事
2026-07-04 06:17:39
伊朗最高领袖神隐父亲葬礼,万万没料到,消失五个月的人现身了!

伊朗最高领袖神隐父亲葬礼,万万没料到,消失五个月的人现身了!

春之寞陌
2026-07-05 05:02:00
新鹏城主帅:很满意球员们的斗志,但有时结果就是如此残酷

新鹏城主帅:很满意球员们的斗志,但有时结果就是如此残酷

懂球帝
2026-07-04 23:45:10
美媒:中国每年800万大学生,精英少得可怜,理科天才都入了美籍

美媒:中国每年800万大学生,精英少得可怜,理科天才都入了美籍

荆楚寰宇文枢
2026-07-04 22:59:18
每周往返13小时,这位上海专家连续两年坚持周末回乡坐诊

每周往返13小时,这位上海专家连续两年坚持周末回乡坐诊

上观新闻
2026-07-04 13:44:16
女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

扬子晚报
2026-07-03 18:58:01
郭晶晶突然疯狂接代言,霍家暗藏两手打算?

郭晶晶突然疯狂接代言,霍家暗藏两手打算?

乡野小珥
2026-07-04 19:24:29
哈兰德2-1绝杀未庆祝,女友举动助粉丝暴涨

哈兰德2-1绝杀未庆祝,女友举动助粉丝暴涨

赶集的山姑娘
2026-07-04 10:25:06
开球时间悬了?高温恐推迟巴法生死战

开球时间悬了?高温恐推迟巴法生死战

甜份超标的我
2026-07-05 00:07:15
私生活混乱,从央视主持到劳改犯,如今靠直播打赏讨生活

私生活混乱,从央视主持到劳改犯,如今靠直播打赏讨生活

素衣读史
2026-06-11 21:56:30
中国银行突然放出大招,以后存款规则有大改动,一般人想不到

中国银行突然放出大招,以后存款规则有大改动,一般人想不到

白浅娱乐聊
2026-07-04 18:47:02
豆包、千问将于7月15日下线智能体功能:建议用户提前备份数据

豆包、千问将于7月15日下线智能体功能:建议用户提前备份数据

澎湃新闻
2026-07-04 13:28:27
见惯大场面!安帅谈绝杀日本不庆祝:我67岁膝盖受不了 比赛没结束

见惯大场面!安帅谈绝杀日本不庆祝:我67岁膝盖受不了 比赛没结束

砚底沉香
2026-07-04 18:14:15
0-2!泰山为何输国安,赛后泰山主帅毫不客气说出原因,很实在

0-2!泰山为何输国安,赛后泰山主帅毫不客气说出原因,很实在

生活新鲜市
2026-07-05 03:00:32
悉尼妹的R级片,竟然引进了

悉尼妹的R级片,竟然引进了

来看美剧
2026-05-13 23:07:16
人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰落

人伦大乱,正在悄悄毁掉无数中国家庭!看似平常,实则家道衰落

阿凯销售场
2026-06-30 00:30:29
“上帝之手”该还了?英格兰队主帅图赫尔放话:复仇时间已到

“上帝之手”该还了?英格兰队主帅图赫尔放话:复仇时间已到

别跟我提回忆
2026-07-04 07:35:03
2026-07-05 06:04:49
开源中国 incentive-icons
开源中国
每天为开发者推送最新技术资讯
7839文章数 34551关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
亲子
游戏
房产
健康

家居要闻

传奇筑 日常诗

亲子要闻

短到捏不住的铅笔头,写下的满是懂事和感恩。老师问:“怎么用这么短呀?”男孩安静鞠了一躬

韩版“全境封锁”PC配置降低 内存改为32GB起步

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

听说少吃点能抗衰老?专家讲解!

无障碍浏览 进入关怀版