网易首页 > 网易号 > 正文 申请入驻

神经网络增强的MCTS优化量子退火,腾讯量子研究成果登Nature子刊

0
分享至

近日,腾讯量子实验室在《Nature Machine Intelligence》上发表了 AI + 量子的最新研究成果《Optimizing quantum annealing schedules with Monte Carlo tree search enhanced with neural networks》,提出一种蒙特卡洛树搜索(MCTS)算法及其由神经网络增强的增强版本——将其命名为 QuantumZero (QZero)——在混合量子-经典框架中自动设计退火 schedule。

论文链接:https://www.nature.com/articles/s42256-022-00446-y

对于本研究中考虑的 3-SAT 示例,即使在退火时间很短的情况下,MCTS 和 QZero 算法在发现有效退火计划方面也表现出色。此外,神经网络的灵活性使我们能够应用迁移学习技术来提高 QZero 的性能。在基准研究中证明 MCTS 和 QZero 在设计退火计划时比其他强化学习算法更有效。

量子技术的发展及挑战

在过去的 20 年里,量子技术一直在以令人难以置信的速度发展。显著的成就包括使用量子退火器实现绝热量子算法。与工业相关的应用,例如各种约束优化问题、整数分解、量子模拟和量子机器学习,都已通过实验证明。

尽管取得了这些初步成功,但要使用量子退火器进行大规模计算,仍有许多工作要做。特别是,量子位之间更好的连通性、误差和噪声抑制、工程非随机哈密顿量以及退火时间表的优化是绝热量子计算 (AQC) 面临的一些紧迫挑战。

量子退火是一种在现实环境中近似实现绝热量子计算模型的实用方法。绝热算法的目标是在退火路径的末端准备问题编码哈密顿量的基态。这通常是通过缓慢驱动量子系统的动态演化以增强绝热性来实现的。适当优化的退火 schedule 通常会大大加快计算过程。

受深度强化学习(例如 DeepMind 的 AlphaZero)成功的启发,通过提出使用蒙特卡洛树搜索 (MCTS)的退火 schedule 的自动化设计来解决这些挑战之一,其增强版本——QuantumZero(QZero)结合了神经网络以进一步提高性能。

量子退火 schedule 作为最优控制问题

研究人员首先介绍了 AQC 模型的基本背景,并阐明了如何在 RL 框架下自动化退火时间的设计。接下来,提出了一个受约束的优化问题,3-SAT,用于在这项工作中对算法进行基准测试。

量子退火器通常用于解决 AQC 框架下的问题,该框架将问题的解决方案与问题编码的哈密顿量 Hfinal 的基态联系起来。准备任意哈密顿量的基态不是一项简单的任务。

在这项工作中,研究人员提出了一个混合量子经典框架,利用强化学习(部分受到 MCTS 和 AlphaZero 的启发)来设计最优 schedule s(t)。

图 1:设计退火计划的混合量子-经典框架。(来源:论文)

简而言之,研究人员使用候选 schedule s(t) 运行量子退火实验,并将结果反馈给基于 MCTS 的代理,以迭代方式调整和识别更好的退火 schedule。

在这项工作中,使用 3-SAT 问题来对算法进行基准测试。这是一个非确定性多项式问题的典型例子。

实验结果

接下来,研究人员描述了几个数值实验来说明所提方法的优势。

MCTS 设计的退火 schedule

以 3-SAT 为例,解释了基于 MCTS 的退火 schedule 自动化设计。蒙特卡罗树搜索对于解决高维优化问题非常有效。

图 2:MCTS 的设置。(来源:论文)

在这项工作中,主要关注频域中 s(t) 的设计。

根据以上等式,目标是选择一个序列 {x1, x2, x3 ... xM}(其中 xi 是控制参数)以最小化在退火路径末端相对于 Hfinal 的能量。

在图 3a 中,展示了在不同 T 下求解相同结构(n=11 和 m=33)的 3-SAT 实例的示例的成功概率。

图 3:解决几个具有不同结构的 3-SAT 实例的成功概率。(来源:论文)

SD(随机下降) 单次运行需要对量子退火器进行大约 100 次查询以进行能量反馈,而 MCTS 的一集大约需要 50 次这样的查询。因此,为了公平比较对量子退火器的查询,认为 MCTS 集的数量是 SD 运行的两倍(即 40×100=80×50)。根据图 3a,SD 的那些大误差条表示一个复杂的优化环境,包括多个局部最小值,其中 SD 很容易陷入其中。另一方面,对量子退火器使用大致相同数量的查询,MCTS 找到的解决方案获得更高的成功概率。

在图 3b 中,展示了在相对较短的退火时间内解决几个具有不同结构的 3-SAT 实例的成功概率。如比较所示,当优化景观具有许多局部最小值时,SD 等局部方法很可能陷入困境,而 MCTS 等全局方法则显示出弹性,并有更好的机会摆脱这些陷阱。随着问题规模的扩大,优化环境更有可能变得更加坚固,从而扩大了 MCTS 和 SD 之间的性能。

退火 schedules 的转移

受 NN 灵活性的启发,研究人员通过合并 NN 进一步修改 MCTS,就像在 DeepMind 的 AlphaZero 中所做的那样。为清楚起见,将调整后的方法命名为 QuantumZero (QZero)。

在这里,研究了在三种不同场景下将从一组训练实例中学到的退火 schedule 转移到一组测试实例中的有效性。

在图 4a-d 中,对具有不同退火持续时间 T = 40, 60, 80, 100 的 3-SAT 实例的最优退火计划的可迁移性进行了数值研究。

图 4:转移退火 schedules 的图示。(来源:论文)

预训练的 QZero(黄色)在所有退火持续时间内给出了最好的结果。

图 5:SD 或 QZero 退火 schedule 后基态能量与时间演化量子态的预期能量之间的差异。(来源:论文)

分别在图 5a、b 中仔细研究了 SD 或 QZero 退火 schedule 后基态能量与时间演化量子态的预期能量之间的差异。能量差 ΔE 反映了沿不同路径违反绝热性的强度。如图所示,预训练的 QZero 不仅能够找到最佳解决方案,而且能够比 SD 更好地执行绝热性。

比较 QZero 和其他 RL 方法的学习效率

最后,研究人员将 QZero 的学习效率与其他流行的 RL 方法进行了比较。与 QZero 类似,这些 RL 方法能够找到全局最优值;然而,众所周知,训练典型的 RL 方法非常耗费资源。在这里,QZero 使用更少的计算资源实现了相同水平的性能。

评估基于每种方法所需的对量子退火器的查询数量。在这个基准测试中,研究人员比较了 MCTS 算法的两种变体,即带预训练的 QZero (QZero-pre) 和不带预训练的 QZero (QZero-nopre) 与其他三个 RL 模型(DQN、A2C 和 PPO)。

图 6:比较 RL 算法的学习效率。(来源:论文)

结果如图 6 所示,QZero-nopre 比所有其他 RL 方法(DQN、PPO、A2C)的执行效率更高,因为 MCTS 执行高效搜索。QZero-pre 进一步提高了学习效率。

研究人员表示:「在本工作中,我们提出了数据驱动的方法来设计退火 schedule,以解决量子退火中的组合问题。我们的工作表明,MCTS 和 QZero 是用于自动化量子退火 schedule 设计的极具竞争力的方法。」

项目地址:https://github.com/yutuer21/quantumzero

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
霍尔木兹海峡开了一条“缝”,1.4亿桶在途油在路上,下周一开盘,多头还扛得住吗?

霍尔木兹海峡开了一条“缝”,1.4亿桶在途油在路上,下周一开盘,多头还扛得住吗?

汇通网
2026-03-21 14:54:04
1-0:东北大帅3轮首胜,郑智谢天谢地谢人!

1-0:东北大帅3轮首胜,郑智谢天谢地谢人!

工从昊懂球阿靖
2026-03-21 23:20:37
东莞一鞋材厂起火,大火吞没厂房燃起冲天黑烟,当地应急:已经扑灭,未造成人员伤亡

东莞一鞋材厂起火,大火吞没厂房燃起冲天黑烟,当地应急:已经扑灭,未造成人员伤亡

潇湘晨报
2026-03-21 17:49:38
美国签证政策大收紧!1.5万美元才能入境?今天新增12国

美国签证政策大收紧!1.5万美元才能入境?今天新增12国

新浪财经
2026-03-19 11:46:25
冯东生:天津市原顾问委员会常委、市委组织部原副部长

冯东生:天津市原顾问委员会常委、市委组织部原副部长

坠入二次元的海洋
2026-03-21 19:35:38
A股:刚刚五部门发声,金融法案征求意见,下周一散户走还是留?

A股:刚刚五部门发声,金融法案征求意见,下周一散户走还是留?

夜深爱杂谈
2026-03-21 18:44:14
欠钱不还还删好友?傅盛深夜炮轰周鸿祎,互联网师徒恩怨再度上演

欠钱不还还删好友?傅盛深夜炮轰周鸿祎,互联网师徒恩怨再度上演

一窥究竟
2026-03-21 21:11:23
全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

全世界都被特朗普耍了?打击伊朗只是幌子,真实目的终于浮出水面

夕阳渡史人
2026-01-30 09:47:08
明晚开播!CCTV8黄金档又一部大制作剧来袭!阵容好强大

明晚开播!CCTV8黄金档又一部大制作剧来袭!阵容好强大

动物奇奇怪怪
2026-03-21 19:59:17
霍尔木兹海峡传重大利好,国内或将迎来历史性涨幅,抓紧入场!

霍尔木兹海峡传重大利好,国内或将迎来历史性涨幅,抓紧入场!

次元君情感
2026-03-21 11:32:32
汪小菲明确表示不会在台北买房,马筱梅通过汪宝儿示好张兰引热议

汪小菲明确表示不会在台北买房,马筱梅通过汪宝儿示好张兰引热议

草莓信箱
2026-03-21 20:45:36
20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

20万彩礼娶回个“祖宗”!班不上、活不干,一网友哭诉只会买买买

火山詩话
2026-03-21 09:38:42
4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

4000吨稀土被转运美国?大陆停供台湾稀土!台学者:不如直接统一

小舟谈历史
2026-03-19 17:27:44
天大的讽刺!直到释永信被公诉后,才知道她有多让人敬佩

天大的讽刺!直到释永信被公诉后,才知道她有多让人敬佩

冒泡泡的鱼儿
2026-03-22 03:09:47
曝光侵华日军罪证被威胁后续:已报警立案,看完让人解气

曝光侵华日军罪证被威胁后续:已报警立案,看完让人解气

乐天闲聊
2026-03-20 02:35:33
西班牙民调支持率逼近19%,青年倒向威权,民主承诺落空

西班牙民调支持率逼近19%,青年倒向威权,民主承诺落空

光辉与阴暗
2026-03-21 11:21:41
打了6场又伤了! 本赛季最荒唐的交易,用顶级天赋换玻璃人球星

打了6场又伤了! 本赛季最荒唐的交易,用顶级天赋换玻璃人球星

你的篮球频道
2026-03-21 11:36:53
怪不得腿脚有劲了!原来是常吃这菜,硒是洋葱50倍,肝脏也跟着好

怪不得腿脚有劲了!原来是常吃这菜,硒是洋葱50倍,肝脏也跟着好

美食店主
2026-01-15 07:11:12
大排长龙,番禺街坊大量涌入!师傅:6点半就开门了,手没停下来过

大排长龙,番禺街坊大量涌入!师傅:6点半就开门了,手没停下来过

番禺台
2026-03-21 00:07:54
2026-03-22 04:56:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1257文章数 226关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

游戏
数码
家居
房产
公开课

魔兽世界:时光服P3阶段将至,新手该练什么职业,这个很重要!

数码要闻

炸锅!国产存储芯片再突破!手机固态价格大跳水,内存自由要来了

家居要闻

时空交织 空间绮梦

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版