网易首页 > 网易号 > 正文 申请入驻

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

0
分享至

新智元报道

编辑:LRST

【新智元导读】Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息,最大限度地减少知识结构化带来的信息丢失,从而减少大型语言模型(LLM)的幻觉。

大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。

检索增强生成(Retrieval-Augmented Generation, RAG)通过构建特定领域知识库,采用基于向量的检索技术来提取与给定查询相关的信息,从而使LLM能够生成更准确、更可靠的内容。

然而,现有的基于图的RAG方法受限于仅能表示实体之间的成对关联,无法表示那些更复杂的多实体间的群组高阶关联,导致数据结构化过程中这些高阶信息的丢失。

为了解决这一难点,清华大学、西安交通大学等提出Hyper-RAG:一种超图驱动的检索增强生成方法。

Hyper-RAG将超图表征融入RAG中,通过超图捕获原始数据中的成对低阶关联和群组高阶关联,从而最大限度减少领域知识结构化带来的信息损失,提高生成响应的准确性和可靠性,可以作为医疗诊断金融分析等高可靠需求应用的有利支撑。

在神经科学任务上对六种LLMs进行的实验表明,Hyper-RAG相比于直接使用LLM,其准确率平均提升了12.3%,比GraphRAG和LightRAG分别高出6.3%和6.0%。

此外,Hyper-RAG在查询问题复杂性增加的情况下仍能保持稳定性能,而现有方法的性能则有所下降;其轻量级变体Hyper-RAG-Lite在检索速度上达到了Light RAG的两倍,并且性能提升了3.3%。

论文地址:https://arxiv.org/abs/2504.08758

Github仓库:https://github.com/iMoonLab/Hyper-RAG

Hyper-RAG集成系统



超图驱动的本地检索增强大模型

超图本地知识库可视化系统

RAG困境

现有基于知识结构化的RAG方法,如Graph RAG和Light RAG,利用图结构来表示特定领域文本中的关系信息。

然而,基于图的方法仅限于成对关系,限制了其捕捉复杂互连的能力,如下图所示,在叙事故事中,虽然图可以有效地模拟人物之间错综复杂的相关关系,但却不足以表示涉及多个人物同时互动的事件。

在叙事故事中,虽然图可以有效地模拟人物之间错综复杂的关联,但却不足以表示涉及多个人物同时互动的事件。在构建知识图谱的过程中,通常会丢失这些超出成对相关的关联,从而导致信息的损失。

相比之下,超图能够对多个数据点之间的高阶关联(及以上)进行建模,提供了更全面的领域知识表示。

研究人员探讨了基于超图的RAG技术,以实现关键知识的全面覆盖。通过整合基于超图的结构,大型语言模型能够更好地减轻与关键信息相关的幻觉现象,从而增强其在专业领域输出的可靠性和准确性。

超图建模索引

下图举例说明了如何从原始语料中提取实体、低阶关联和高阶关联。可以看出,加入高阶关联可确保更全面地检索相关信息。与此相反,如果使用传统图,则仅提取成对相关性,会导致潜在的信息丢失,从而导致大模型产生幻觉。

方法概述

为了减少LLM的幻觉,Hyper-RAG将超图建模纳入RAG框架,利用超图来捕捉错综复杂的多方面相关性。

具体来说,首先,从原始数据集中提取实体,作为超图中的节点。随后,这些实体之间的低阶和高阶关联会被识别和整合,从而构建一个基于超图的知识库。

在查询阶段,首先从输入查询中提取关键实体,然后利用超图结构从知识库中检索相关的先验语料信息。

知识索引

随后,使用文档结构函数Φ从语料库中提取结构信息,从而得到超图G。

检索增强

(基本组件)和关联关键词(复杂的相互依赖关系),如下所示:

值得注意的是,实体关键字检索的目标是顶点,而关联关键字检索的目标是超边。出现这种区别是因为实体关键字主要描述单个实体,使顶点成为合适的检索对象。

相反,相关性关键词描述的是抽象信息,通常涉及多个实体之间的关系,因此需要超边作为检索目标。

对于实体信息检索,通过扩散实体对应的超边作为补充信息,对于关联信息检索,通过扩散超边对应的实体作为补充信息:

通过超图知识库进行一步扩散,获得与这些实体相关的超边/超边相关的节点作为补充信息。

随后将顶点相关和超边相关的信息合并送给大模型以获得可靠知识补充,生成LLM对查询的回答。

实验结果

研究人员在9个不同领域数据集上(神经科学、病理学、数学、物理学、法律、艺术等),采用了6个不同大模型,2种不同评估策略,多维评价指标进行了实验验证。

基于打分的评估

在NeurologyCrop数据集上的实验结果表明,Hyper-RAG的性能优于直接应用LLM,平均提高了12.3%;此外,与GraphRAG和LightRAG相比,Hyper-RAG的性能分别提高了6.3%和6.0%。

当通过引入嵌套,即一个问题后接另一个问题以增加复杂性,如下表所示。随着问题难度的增加,现有的LLM和基于RAG的方法的性能显著下降。相比之下,Hyper-RAG 保持了稳定的性能水平。

具体来说,随着问题难度的增加,Hyper-RAG与直接使用LLM相比,性能提高了12.7%到15%。这些结果证实了基于超图的全面信息表示的优越性。

对于简单的查询,直接来自大型语言模型的回答或简单的成对(即低阶)关联可能已足够。

然而,随着查询变得更加复杂,复杂的高阶关联的可用性对于约束和丰富模型的输出变得至关重要,这一实验趋势强调了开发基于超图的结构表示和检索方法,以应对日益复杂的问题所带来的挑战的重要性。

基于选择的评估

为了进一步验证Hyper-RAG,本文将实验扩展到跨越多个领域的九个不同语料库数据集。

在这些数据集中,Hyper-RAG的性能始终优于传统的基于图的方法Light RAG,在使用基于选择的评估方法对性能进行评估时,Hyper-RAG的平均性能提高了35.5%。

效率分析

这里进一步评估了从数据库本地检索获取相关知识和构建先验知识提示所需的时间。

作者开发了Hyper-RAG的轻量级变体,Hyper-RAG-lite,它保留了实体检索的基本增强功能。

可以看出,Hyper-RAG和Hyper-RAG-lite都位于图的左上角附近,这表明这些方法在速度和性能方面都优于其他方法。

总结

Hyper-RAG通过利用超图对原始数据进行更加全面且结构化的知识表示,最大程度地减少信息丢失并降低大型语言模型的幻觉现象。

与现有的基于图的RAG方法相比,Hyper-RAG在多个不同领域的数据集上表现出更优异的性能,能够有效捕捉复杂的多实体群组高阶关系,从而提升生成内容的准确性和可靠性。

研究表明,Hyper-RAG在增强LLM的可靠性和减少不准确输出方面具有显著优势,能够更好地应对输出内容不可靠带来的挑战。

参考资料:

[1] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565.

[2] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199.

[3] Feng Y, Han J, Ying S and Gao Y. Hypergraph Isomorphism Computation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(5): 3880-3896.

[4] Feng Y, Yang C, Hou X, et al. Beyond Graphs: Can Large Language Models Comprehend Hypergraphs?[C]//Proceedings of the Thirteenth International Conference on Learning Representations. 2025.

[5] Feng Y, Liu S, Han X, et al. Hypergraph Foundation Model[J]. arXiv preprint arXiv:2503.01203, 2025.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家卫健委通报一批科研失信行为!涉深圳医院医生

国家卫健委通报一批科研失信行为!涉深圳医院医生

南方都市报
2026-05-17 18:02:32
多地街头大量出现!被这种“雨”淋过后黏糊糊的,根本擦不掉……

多地街头大量出现!被这种“雨”淋过后黏糊糊的,根本擦不掉……

珠海发布
2026-05-17 19:08:27
老人每月话费高达500元:工作人员称免费送手机,签订高额套餐,解约还需付违约金

老人每月话费高达500元:工作人员称免费送手机,签订高额套餐,解约还需付违约金

中国能源网
2026-05-17 11:10:12
马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

马斯克黄仁勋在空军一号热聊照曝光,喝了可乐,皮衣黄疑似用三星

译言
2026-05-16 10:38:32
幼儿园门口“美丽翻车”:宝妈花3小时打扮接娃一跤摔出“原形”

幼儿园门口“美丽翻车”:宝妈花3小时打扮接娃一跤摔出“原形”

蝴蝶花雨话教育
2026-05-17 00:05:13
酒店晒证据实锤,换装新娘另有目的!宾客是冤大头,不走就得被割

酒店晒证据实锤,换装新娘另有目的!宾客是冤大头,不走就得被割

秋姐居
2026-05-17 11:31:58
美联储,重磅来袭!降息,突变!

美联储,重磅来袭!降息,突变!

证券时报
2026-05-17 17:29:10
曝湖南益阳网红蕾蕾去世,年仅32岁,地点在宾馆,疑因喝酒致心梗

曝湖南益阳网红蕾蕾去世,年仅32岁,地点在宾馆,疑因喝酒致心梗

裕丰娱间说
2026-05-16 23:04:00
上海一男子在公交车上闭眼“休息”,实则已死亡,救助方被索赔逾11万…网友炸了

上海一男子在公交车上闭眼“休息”,实则已死亡,救助方被索赔逾11万…网友炸了

大风新闻
2026-05-17 11:49:02
最近李晨的瓜,有点大

最近李晨的瓜,有点大

黎兜兜
2026-05-15 15:29:18
特朗普这次可能真说对了:联合国悄悄“认错”,被宣传了15年的地球末日论是假的?

特朗普这次可能真说对了:联合国悄悄“认错”,被宣传了15年的地球末日论是假的?

西游日记
2026-05-17 18:09:10
“北京到处都是摄像头”,美国福克斯主播试图抹黑中国,结果“翻车”!违章停车、早高峰占道出镜…...美国网友狂喷:简直是耻辱

“北京到处都是摄像头”,美国福克斯主播试图抹黑中国,结果“翻车”!违章停车、早高峰占道出镜…...美国网友狂喷:简直是耻辱

极目新闻
2026-05-17 11:33:39
国家曝光毒杨梅!商家投毒,自己不吃,日发5000斤流向上海广东

国家曝光毒杨梅!商家投毒,自己不吃,日发5000斤流向上海广东

世界圈
2026-05-17 14:29:37
中企越南工厂又罢工!120工人拍桌逼涨薪,喊话:不涨薪绝不复工

中企越南工厂又罢工!120工人拍桌逼涨薪,喊话:不涨薪绝不复工

老特有话说
2026-05-17 13:05:32
“张雪机车”,拿下第四冠!张雪发视频隔空喊话德比斯:培养一个比你更强的中国车手,我就给你养老

“张雪机车”,拿下第四冠!张雪发视频隔空喊话德比斯:培养一个比你更强的中国车手,我就给你养老

环球网资讯
2026-05-17 09:18:26
愤怒!国际乒联画错中国国旗 悄悄修改又出错 至今未回应+道歉

愤怒!国际乒联画错中国国旗 悄悄修改又出错 至今未回应+道歉

念洲
2026-05-17 15:17:58
特朗普在北京破例喝了酒?白宫正式回应

特朗普在北京破例喝了酒?白宫正式回应

冷眼看尽世间繁华
2026-05-16 15:23:41
长友佑都:我始终认为若本届世界杯无法夺冠,一切都毫无意义

长友佑都:我始终认为若本届世界杯无法夺冠,一切都毫无意义

懂球帝
2026-05-17 16:18:37
特朗普结束访华离去,中方火速迎接新贵客,情谊胜似铁杆盟友

特朗普结束访华离去,中方火速迎接新贵客,情谊胜似铁杆盟友

近史博览
2026-05-17 02:52:51
前俄罗斯间谍藏身死牛尸体中逃避普京追杀,自称全程无外国情报协助,独自越境脱险

前俄罗斯间谍藏身死牛尸体中逃避普京追杀,自称全程无外国情报协助,独自越境脱险

林子说事
2026-05-16 13:19:00
2026-05-17 19:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15235文章数 66874关注度
往期回顾 全部

科技要闻

三大运营商即将免月租?多方回应

头条要闻

俄媒:中美关系发生质变 至少在经济层面已然势均力敌

头条要闻

俄媒:中美关系发生质变 至少在经济层面已然势均力敌

体育要闻

生死战只拿3分的核心,还有留的必要吗?

娱乐要闻

卢昱晓道歉:认识到问题严重性!

财经要闻

OpenAI和苹果的“联盟”即将破裂

汽车要闻

大五座SUV卷王!乐道L80上市 租电15.68万元起

态度原创

教育
房产
手机
公开课
军事航空

教育要闻

官宣!两所顶尖大学拟于2027年合并

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

手机要闻

苹果华为小米罕见集体降价,最高省出一台红米钱!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以停火再延长 空袭却未停止

无障碍浏览 进入关怀版