网易首页 > 网易号 > 正文 申请入驻

港大90后开源,OpenAI 2万刀博士级AI智能体平替!自主研究媲美顶会论文

0
分享至

新智元报道

编辑:好困 英智

【新智元导读】AI-Researcher是一个开源的科研智能体框架,它能从文献搜集一路包办至论文撰写,彻底改变了科研方式,让科研自动化触手可及。

在AI技术迭代的坐标系中,OpenAI构建的五级演进模型(对话系统→组织协调者)为行业发展提供了战略指引。

其中,处于第三至四阶段的自主研究智能体(Autonomous Research Agent)正成为技术突破的焦点。

就在最近,来自香港大学HKUDS的3位研究团者‍开源了一种全新的AI-Researcher系统,正是这一关键领域的重要探索。

该系统实现了科研流程的全链路重构,覆盖智能文献检索、方法论架构设计、实验优化到论文自动生成的完整闭环。

值得关注的是,同类功能在OpenAI商业化方案中需支付高达2万美元/月的服务费用,而HKUDS通过开源策略打破了技术壁垒,使前沿AI工具真正成为科研共同体的普惠资源。

项目地址:https://github.com/HKUDS/AI-Researcher

自主产出学术成果,科研智能化范式革命

港大开源的AI-Researcher构建了突破性的开源科研智能体框架,成功将智能体创建门槛从专业级编程技能降维至直观的自然语言交互范式。

这一创新框架实现了科研全流程的智能化贯通——从文献综合调研、创新方法设计与实现、严谨实验验证分析,到最终高质量学术论文的完成,一气呵成。

这种端到端的科研自动化显著提升了研究效率,压缩了从创意到成果的周期,同时降低了认知负担,使研究人员能够将更多精力投入到创造性思考和跨学科探索中。

该系统以Claude-3.5-sonnet为核心智能引擎,并精心设计了兼容DeepSeek、HuggingFace等主流大模型生态的灵活架构。

通过大规模参数优化和任务适配,AI-Researcher成功探索了大模型智能体的能力边界,展现出从复杂需求解析、多源知识整合到成果输出的全方位能力,能够持续产出符合学术标准的高质量研究结果。

这一技术突破不仅重新定义了科研辅助工具的标准,更为下一代智能化学术生态提供了探索的方向。

以下展示了由AI-Researcher基于初步研究想法创作的多项科研探索。


图像生成

AI-Researcher在计算机视觉领域中的图像生成技术「Vector Quantization」展现了卓越的科研能力。

仅凭用户提供的研究方向——改进VQ-VAE中非可微量化层的梯度传播问题及相关参考文献,系统便独立完成了从算法理论构建到数学推导再到代码实现的完整研究闭环,展示了深度推理与创造性问题解决能力。

AI-Researcher智能体设计的解决方案包含三个互补创新组件:精确的旋转与重缩放变换技术、高效梯度流动优化方法和动态码本管理机制。

这些技术巧妙配合,共同确保了编码器到解码器间的平滑梯度传递,成功解决了VQ-VAE架构中阻碍其性能提升的核心技术挑战。实验结果表明,该方法显著提高了模型收敛速度与生成质量。

值得注意的是,AI-Researcher生成的研究成果与已发表的《Restructuring Vector Quantization with the Rotation Trick》论文也具有可比性,证明了其精准理解和实现现有研究方法的能力。该系统不仅能准确把握论文中的核心思想和技术细节,还能独立推导出相应的数学原理和算法框架。

自动生成的学术论文

算法实现代码


图像压缩

传统的向量量化(VQ)方法虽然有效,但需要大型码本和复杂的编码-解码机制,导致计算负担重,尤其在大规模数据集上应用受限。这些复杂性和资源需求成为VAE实际部署的主要障碍,亟需更简单且高效的量化方法。

· AI-Researcher自主提出的技术创新点

对此,AI-Researcher提出了有限标量量化(FSQ)方法,并通过以下关键技术实现性能突破:

  1. 直通估计器(STE):解决量化不可微问题,确保梯度有效传播

  2. 温度退火与EMA更新:提高训练稳定性并实现码本动态适应

  3. 层次化量化结构:多层次设计减少冗余,优化表示学习效率

· AI-Researcher自主完成的实验验证与分析

在CIFAR-10数据集上的实验表明,FSQ方法在多项性能指标上与传统VQ方法相当甚至更优:

  1. 性能优势:温度退火降低FID分数至6.284,大幅提升图像质量和多样性

  2. 量化效率:自适应方法将量化损失从0.3059降至0.1552,层次化结构减少重建损失

  3. 架构优化:简化VAE结构,降低计算负担,同时保持高质量图像重建能力

自动生成的学术论文

算法实现代码


生成式建模

虽然连续标准化流(CNF)在图像合成领域有潜力,但在生成稳定性和高维空间精确映射方面存在困难。传统方法无法平衡计算效率与精度,限制了生成质量。

· AI-Researcher自主提出的技术创新点

AI-Researcher提出了增强型连续标准化流方法,通过四大技术创新改进CNF框架:

  1. 高级速度网络:结合增强时间嵌入、动态激活函数和残差连接提高稳定性

  2. 速度一致性损失:确保轨迹对齐,强化生成过程稳定性与准确性

  3. 优化采样:采用RK4等先进ODE求解器保证数据转换精度

  4. EMA训练稳定:减少梯度噪声,提升模型收敛性

· AI-Researcher自主完成的实验验证与分析

  1. 性能提升:基于ResNet的增强型CNF模型FID分数由2469.50降至2448.96,最佳配置达2430.89

  2. 架构优化:增加网络深度并采用Tanh激活函数显著提高了样本保真度和多样性

  3. 未来方向:实验为进一步优化速度一致性损失、高级采样技术和参数调优提供了明确方向

自动生成的学术论文

算法实现代码

智能体技术架构解析:自动化科研的全流程实现

AI-Researcher框架


智能文献调研
Automated Literature Review

AI-Researcher通过先进的资源收集系统自动从arXiv、IEEE Xplore和ACM等权威学术数据库获取相关文献,并从GitHub和Hugging Face等开发平台收集高质量代码实例。

系统集成了智能评估机制,精确筛选文献质量与代码可用性,确保仅将最具价值的资源纳入深度分析流程。

这一自动化文献分析框架使研究人员能够快速把握领域前沿动态,精准识别关键技术突破点和研究空白区域,为创新研究提供知识背景。


创意构思与方向引导
Creative Ideation and Direction Guidance

在深入掌握现有研究成果的基础上,AI-Researcher的创意生成器精确分析技术瓶颈并系统性探索突破路径。根据研究需求,系统提供两种智能工作模式:

  • Level 1任务:基于用户提供的详细研究方向进行深度开发与创新延伸

  • Level 2任务:仅依托参考文献自主构建前沿研究思路,实现原创性突破

系统采用多维度创意生成框架,首先通过启发式算法产生多元化研究方向集合,随后基于创新突破性、技术实现可行性和潜在学术影响力等关键指标进行综合评估,最终锁定最具发展前景的研究路径,为用户提供精准的创新指引。


算法实现与实验验证

AI-Researcher在算法设计与验证阶段采用系统化、循序渐进的方法论框架,包括:

  1. 设计规划:精确制定实现策略和技术路线图,深度评估方案的理论创新性与工程可行性,确保研究方向价值最大化

  2. 代码开发:将抽象算法概念转化为高效可执行代码,构建完整测试环境与评估框架,确保实现的鲁棒性

  3. 严谨验证:执行全面多维度测试,通过定量与定性相结合的方式评估算法性能,收集并分析关键性能指标

  4. 迭代优化:基于实验结果进行数据驱动的算法改进,针对性解决瓶颈问题,持续提升系统性能

这种自动化的实验验证闭环确保研究成果具备高度可靠性和可重现性,显著提升科研效率并加速从概念到实用技术的转化过程。


学术论文撰写

AI-Researcher的高级写作模块能够自动生成符合严格学术规范的完整研究论文,精确整合研究动机、理论框架和实验结果。

系统采用精心设计的层次化写作方法,确保论文结构严谨清晰、论证逻辑严密、专业术语准确。

生成的学术成果远超简单实验报告,而是具备完整学术价值的研究贡献,包含深入的理论分析、精确的算法形式化描述和全面的实验评估。


每篇论文均配备详实的相关工作讨论、清晰的创新点阐释和深入的结果分析。


多维度研究评估

AI-Researcher构建了精密的综合评估框架,从五个关键维度进行深度质量评估:

  1. 创新突破性:评估原创贡献度、技术突破点和学术影响力

  2. 实验严谨性:分析实验设计科学性、评估指标完整性和结果可重现性

  3. 理论基础深度:考察数学严谨性、推导完整性和与现有知识体系的衔接

  4. 结果分析洞察力:评估数据解读深度、比较分析能力和异常现象解释合理性

  5. 学术写作专业度:审视结构完整性、论证逻辑和专业表达准确性

这一多维度评估机制为研究人员提供全面质量反馈,同时驱动AI-Researcher系统自身持续优化进化。


标准化评测体系

AI-Researcher开发了全面的基准测试套件,用于客观衡量AI-Reseacher的研究能力:

  • 采用人类专家论文作为评判标准

  • 当前覆盖计算机视觉、自然语言处理、数据挖掘和信息检索四大领域

  • 完全开源的评测体系,包括数据集和评估代码

  • 分级评估机制,适应不同研究阶段的需求

这套透明、客观的评测体系不仅确保了系统性能的可信度,还为整个AI赋能科学发现的探索提供了重要参考。

作者介绍

汤嘉斌

AI-Researcher项目的第一作者汤嘉斌 (1999年生),现为香港大学数据科学研究院的博士二年级学生,师从黄超教授。

他在AI领域表现卓越,已在KDD、SIGIR等顶级国际会议发表多篇第一作者论文,其研究工作被评选为SIGIR 2024最有影响力论文之一,目前专注于大型语言模型与智能体系统的前沿技术研究。

他是开源社区的活跃贡献者,开发了多个广受学术界和工业界认可的开源项目,包括AutoAgent和GraphGPT等工作。

夏良昊

AI-Researcher项目的共同第一作者夏良昊博士(1995年生),现为香港大学计算与数据科学学院研究助理教授,师从黄超教授。

他在图学习和大语言模型领域取得了卓越成就,学术影响力显著,其发表论文累计引用量已突破4,800次,因此被斯坦福大学评选为2024年全球前2%顶尖科学家。

他以第一作者身份发表的多篇开创性研究成果广受认可,其中包括被评为WWW 2023、SIGIR 2022和SIGIR 2021最具影响力论文。

作为开源图学习基础模型领域的探索者,他领衔开发了OpenGraph和AnyGraph等前沿图大模型项目。

黄超

AI-Researcher项目的导师黄超现任香港大学计算机科学系和数据科学研究所助理教授及博士生导师。

他的研究兴趣涵盖人工智能的多个关键领域,包括大语言模型(LLM)、智能体、图学习、推荐系统和智慧城市。

他的学术论文已获得超过9,600次引用,并在ACM MM 2024、WWW 2023、WSDM 2022等主要会议上获得最佳论文奖或提名。

此外,他的学术贡献还被选为KDD(2019/2023/2024)、WWW(2023/2024)和SIGIR(2021/2022/2023/2024)等顶级会议的影响力论文。

他的实验室还开发了多个广受认可的开源项目,如LightRAG、AutoAgent、MiniRAG、GraphGPT、VideoRAG等。这些项目在开源平台上累计获得超过23,000颗星标。

他获得了2024年世界人工智能大会(WAIC)的「明日之星奖」,并荣获「2024年理论计算机科学与信息科学前沿科学奖」。‍

参考资料:

https://github.com/HKUDS/AI-Researcher

https://x.com/huang_chao4969/status/1899505762684346685

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
考古:大明湖挖出文物证实,济南是中国唯一5000年连续建城的城市

考古:大明湖挖出文物证实,济南是中国唯一5000年连续建城的城市

文史达观
2026-03-27 16:15:00
“反阿森纳法”正式问世:FIFA新规严打定位球挡人,VAR可涉入

“反阿森纳法”正式问世:FIFA新规严打定位球挡人,VAR可涉入

星耀国际足坛
2026-06-01 23:03:06
著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

著名音乐家姚峰:女儿姚贝娜病逝11年,他至今还为自己的失误懊悔

不写散文诗
2026-06-02 15:24:27
15万亿重磅落地!中国或将成全球首个城市更新王国,有房的都笑了

15万亿重磅落地!中国或将成全球首个城市更新王国,有房的都笑了

墨羽怪谈
2026-05-31 19:21:21
6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

6月2日A股猛料:高层发表重要文章!一类股或成为6月行情领头羊!

丁丁鲤史纪
2026-06-02 10:16:21
多接触女性的隐秘好处:第2个很多男人一辈子没明白

多接触女性的隐秘好处:第2个很多男人一辈子没明白

夏末moent
2026-03-12 11:38:54
当不成总统了?特朗普体检报告出来了,快80岁的他,或被迫下台

当不成总统了?特朗普体检报告出来了,快80岁的他,或被迫下台

原来仙女不讲理
2026-06-02 14:14:15
微胖身材的女生穿旗袍确实更有韵味

微胖身材的女生穿旗袍确实更有韵味

牛弹琴123456
2026-05-12 08:56:20
韦伯新发现:40光年外的第二地球,TRAPPIST-1e能拎包入住?

韦伯新发现:40光年外的第二地球,TRAPPIST-1e能拎包入住?

观察宇宙
2026-06-01 21:49:41
CCTV5直播!中国男篮VS菲律宾,胡金秋取代周琦,乔帅告别战

CCTV5直播!中国男篮VS菲律宾,胡金秋取代周琦,乔帅告别战

体坛瞎白话
2023-09-01 07:40:58
这女儿不要也罢!女孩给患病妈妈买饭后失联,一个举动引全网愤怒

这女儿不要也罢!女孩给患病妈妈买饭后失联,一个举动引全网愤怒

林林先生
2026-06-02 11:39:17
幼儿园开放监控之后:有家长半小时看十几次,老师称“不敢皱眉”

幼儿园开放监控之后:有家长半小时看十几次,老师称“不敢皱眉”

齐鲁壹点
2026-06-01 12:27:07
黎家盈升空后香港提两要求:宇航员与学生通话,返回后尽快访港!

黎家盈升空后香港提两要求:宇航员与学生通话,返回后尽快访港!

阿龙聊军事
2026-06-02 09:55:07
5999元跌至4794元:小米立式空调的定价狠招

5999元跌至4794元:小米立式空调的定价狠招

码上闲叙
2026-06-01 20:57:30
肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

肝开始变硬,头部会有5个异常,若你一个也没有,说明肝脏很健康

芹姐说生活
2026-05-26 16:19:22
嘉宾晒奚梦瑶婚礼照,透露男星陈学冬近况,他也来了依旧很帅气

嘉宾晒奚梦瑶婚礼照,透露男星陈学冬近况,他也来了依旧很帅气

小鋭有话说
2026-06-02 18:39:33
从0-4到10-7,卡林斯卡娅用超级抢十逆转完成生涯突破

从0-4到10-7,卡林斯卡娅用超级抢十逆转完成生涯突破

甜度百分百21
2026-06-02 00:37:40
为什么现在的国产芯片,动不动就3nm、4nm了?

为什么现在的国产芯片,动不动就3nm、4nm了?

互联网.乱侃秀
2026-06-02 13:53:59
如果我不播了,希望大家永远记得我!头部女主播合同到期!跟水友泪崩告别:感恩遇见!

如果我不播了,希望大家永远记得我!头部女主播合同到期!跟水友泪崩告别:感恩遇见!

新浪财经
2026-06-02 10:09:56
中央财政下达育儿补贴补助资金999亿元支持实施育儿补贴制度

中央财政下达育儿补贴补助资金999亿元支持实施育儿补贴制度

新京报
2026-06-02 12:05:31
2026-06-03 02:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15369文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

内塔尼亚胡:伊朗恐怖政权注定消失 以色列将帮助实现

头条要闻

内塔尼亚胡:伊朗恐怖政权注定消失 以色列将帮助实现

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

数码
健康
旅游
本地
公开课

数码要闻

苹果watchOS 27前瞻:改进心率追踪、引入新表盘、升级Siri

违规干细胞应用,暗藏致命隐患!

旅游要闻

北京位列全球数字旅游引领型城市榜首

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版