网易首页 > 网易号 > 正文 申请入驻

MIT对大模型数理原理的强有力证明

0
分享至

来源:清熙

笔者去年整理的,迎来了最强有力的实践证明!

原理回顾

笔者在“GPT4技术原理”系列文章梳理出来大模型数理认知框架如下图:

海量的文本或者多模态语料组成了大模型需要认知的外部世界的基本信息;嵌入构建高维概率化的语言空间,用来建模语言文字图像以及音视频,并对连续变量做离散化;

预训练以重整化群流的方式进行,在不同尺度上提炼语料数据中的信息概率分布;重整化群流的每一步流动(自回归预测逼近训练语料概率分布),都沿着最优输运的成本最低方向进行;

重整化群在不动点附近因新语料带来微扰而发生对称性破缺,滑入不同的相空间;不同的相空间,对应某种意义上的范畴,可形象化为信息的结晶;这是大模型从语料中学到的内部世界模型

在外部感官输入下(被提示置于某种上下文),大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比时跨范畴采样

采样不断进行,基于内部概率化了的世界模型(预训练获得的先验),针对感官输入(提示),做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。

可总结为:1、重整化从海量语料中提取出范畴,2、持续重整化驱动范畴解构重组结晶,3、生成过程于范畴中采样做变分推理。

笔者在文中针对重整化、范畴与transformer之间的关系做了详细的阐述:

重整化本质是尺度从小到大粗粒度化概率分布的过程,而深度神经网络擅长学习小尺度结构逐级到认知全局特征,而大模型的Transformer 则可以逆重整化流,逐尺度重建微观概率分布,从而完成生成。

这里的范畴是Transformer视角下的高维概率向量编织起来的事物之间的各种复杂的关系。从海量的预训练数据集中提纯出来,对大量的分段线性核函数参数化后的表达。这些关系,关系的关系,关系的关系的关系,本质上,在范畴论概念下,就是对事物的米田嵌入

最新实证

麻省理工学院 Markus J. Buehler 教授最近在《机器学习:科学与技术》发文【文献1】,展示了一种先进的 AI 方法:集成生成式知识提取、基于图的表征和多模态智能图推理。惊人地揭示了生物组织和贝多芬的“第九交响曲”之间的复杂性与秩序的共同模式。

该工作使用受范畴论启发的方法开发的作为中心机制,教模型理解科学中的抽象结构和它们之间的符号关系,通过关注对象及其交互,而不是它们的具体内容,来理解和统一不同的系统。

我们知道,范畴论中,对象可以是任何东西,从数字到更抽象的实体,如结构或过程,对应上文笔者讲的“事物”;形态则是定义这些对象之间关系的箭头或函数,对应上文中的“米田嵌入”。

Buehler 教授通过范畴对象和形态教会 AI 模型系统地推理复杂的科学概念和行为。通过形态引入的符号关系清楚地表明,AI不仅仅是在进行类比,而是在进行更深入的推理,以映射不同领域的抽象结构。

这也回应了近期大模型究竟会不会推理的业界大辩论。当大模型生成的时候,已经不是那个简单的 next token prediction, 而是基于丰富范畴的推理、推理、推理,重要的事情得说三遍。Ilya Sutskever最新访谈提到的「扩大正确的Scaling」,应该指推理的Scaling law。

其实是苹果学者想当然合成了语料;字节豆包大模型团队大规模实验发现大模型无法抽象出一般物理规则,从实验看并无法判断是否局部触发了scaling law。

Buehler 教授通过这个方式,分析了 1000 篇有关生物材料的科学论文,并将其转化为表征形式的知识图谱。

该图谱揭示了不同信息是如何连接的,并可找到与概念联系在一起的相关想法和关键点组。该图无标度,高度关联,可有效用于图推理

教AI系统思考基于图的数据,以帮助它们构建更好的世界模型表征,并提高思考和探索新想法的能力,以实现超出人类认知的高维新发现:回答复杂的问题,发现当前知识中的差距,提出新的材料设计,预测材料的行为方式,还能够将以前从未连接过的概念联系起来。

生物材料和“第九交响曲”之间出乎意料的相似之处:两者都遵循复杂性模式,生物材料中的细胞以复杂但有组织的方式相互作用以形成功能,贝多芬的第九交响曲则以创造一种复杂但连贯的音乐体验为目标安排音符和主题。

通过追踪联系进行图遍历,能够找到以前尚未建立的概念之间的联系,或未理解为以任何已知方式相关的概念。使用生成式 AI 模型的复杂推理可以提供更深入的见解,产生新的信息连接,从而产生新知识,甚至促进新想法的发现。

探索复杂的图遍历为分析提供广阔的空间,既可以确定单个最可能的路径,也可以对多个路径进行采样。图形是通过合并所有节点来构建的,即使它们来自不同的路径。整体图具有明显不同的拓扑结构,并在边缘编码的概念及其关系之间提供了新颖的联系。表明了非常灵活的图可以被构建并最终用于推理


图表征了相应领域知识的本体结构,可用于支持该特定科学研究中的推理,例如提出有关材料特性的假设或预测组合不同材料的可能结果,还可以帮助识别知识差距,提出新的研究领域,并促进对材料科学或不同学科之间复杂相互关系的理解。
学者在一项实验中,基于来自瓦西里·康定斯基 (Wassily Kandinsky) 的画作《构图 VII》中的抽象图案的灵感,AI 提出了一种新的基于菌丝体的复合材料:这种材料结合了一组创新的概念,包括混乱与秩序的平衡、可调节的特性、孔隙率、机械强度和复杂的图案化学功能。

基于宏大的人类知识提取出来丰富范畴,形成众多领域的本体知识结构,这是大模型通过预训练已经构建的内部世界模型;提高推理采样的机制,通过训练达成学习推理的scaling law,是大模型下一步努力提升的方向。

相比传统方法,新的大模型机理,具备更高维度的新颖性、对能力和技术细节的探索,可以通过揭示隐藏的联系建立更广泛有用的创新框架。AI 知识图驱动的跨学科研究可能会成为科学和哲学探索的有力工具。

文献1: Accelerating scientific discovery with generative knowledge extraction, graph-based representation, and multimodal intelligent graph reasoning https://iopscience.iop.org/article/10.1088/2632-2153/ad7228

数据 与 代码:https://github.com/lamm-mit/GraphReasoning

阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。


截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女顶流家中与男友约会被拍!两人在卧室拥吻摸腹肌,男方是圈内人

女顶流家中与男友约会被拍!两人在卧室拥吻摸腹肌,男方是圈内人

削桐作琴
2026-05-23 20:21:56
顶薪合同到期!深圳全力续约场均20+5+4国手,郑永刚靠他东山再起

顶薪合同到期!深圳全力续约场均20+5+4国手,郑永刚靠他东山再起

老叶评球
2026-05-24 15:09:24
彻查!信号强烈!中央升级反腐“天网”!

彻查!信号强烈!中央升级反腐“天网”!

细说职场
2026-05-23 09:57:10
他解不开你的内衣扣,不是笨,是真的很慌

他解不开你的内衣扣,不是笨,是真的很慌

时光慢邮啊
2026-05-24 00:00:40
89年给女厂长开车,我说娶不起媳妇,她:那你看我怎么样

89年给女厂长开车,我说娶不起媳妇,她:那你看我怎么样

匹夫来搞笑
2026-05-24 11:34:56
美军迎来坏消息,中国空军精锐部队换装5.5代战机歼20A,威胁多大

美军迎来坏消息,中国空军精锐部队换装5.5代战机歼20A,威胁多大

游古史
2026-05-24 12:56:16
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,做好这6点

三农老历
2026-04-13 17:10:06
搞笑图片第1222期:一个防摔垫整这么抽象,你是真没在乎的人了吗

搞笑图片第1222期:一个防摔垫整这么抽象,你是真没在乎的人了吗

今天的快乐
2026-05-22 21:35:37
濑户环奈的妈妈:当第一次知道的时候,我哭了,爸爸也大哭

濑户环奈的妈妈:当第一次知道的时候,我哭了,爸爸也大哭

2ch中文酱
2026-05-24 01:03:08
结果重磅出炉,萧旭岑、王光慈回应,赵少康气急败坏,直指周美青

结果重磅出炉,萧旭岑、王光慈回应,赵少康气急败坏,直指周美青

马贪在解说
2026-05-24 14:38:32
恭喜!高家炫/魏雅欣夺得马来西亚大师赛混双冠军,国羽3冠1亚收官,奖金分配出炉!

恭喜!高家炫/魏雅欣夺得马来西亚大师赛混双冠军,国羽3冠1亚收官,奖金分配出炉!

体坛最前线66
2026-05-24 16:46:56
4-2背后藏着多少内斗?姆巴佩破门,贝林厄姆建功,皇马拿了胜利却输掉了未来

4-2背后藏着多少内斗?姆巴佩破门,贝林厄姆建功,皇马拿了胜利却输掉了未来

林子说事
2026-05-24 08:19:30
当年,赖昌星被遣返时,加拿大没收了他多少财产?

当年,赖昌星被遣返时,加拿大没收了他多少财产?

疯狂的小历史
2026-05-23 10:47:10
禁止参展!32克拉国产粉钻成交后,美方坐不住了:河南钻不许展出

禁止参展!32克拉国产粉钻成交后,美方坐不住了:河南钻不许展出

果壳
2026-05-24 15:55:05
身体这几处越红,越长寿!尤其是第3个

身体这几处越红,越长寿!尤其是第3个

品读时刻
2026-05-23 09:06:54
没奇迹了!胸有大志,哈登也没了

没奇迹了!胸有大志,哈登也没了

风子说个球
2026-05-24 15:40:36
突然,全线大涨!超11万人爆仓!美伊,大消息

突然,全线大涨!超11万人爆仓!美伊,大消息

数据宝
2026-05-24 12:45:45
一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

素衣读史
2026-05-11 20:56:03
我心目中的浙江县城“天花板”。

我心目中的浙江县城“天花板”。

老陆不老
2026-05-20 09:56:19
重庆升级发布暴雨橙色预警!涉及33个区县

重庆升级发布暴雨橙色预警!涉及33个区县

上游新闻
2026-05-24 10:43:33
2026-05-24 17:31:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4762文章数 37465关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

夫妻婚后未同房 妻子:刚结婚时没成功 第二次他很懊恼

头条要闻

夫妻婚后未同房 妻子:刚结婚时没成功 第二次他很懊恼

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

教育
健康
游戏
房产
数码

教育要闻

团团速递|“天宫”迎来首位香港航天员

外泌体 ≠ 生长因子!它们之间究竟有何区别?

终极生死局!Xbox主机再失败就彻底退出硬件市场

房产要闻

疯狂周末,海口楼市突然爆了!

数码要闻

OPPO Reno 16官宣AI键,一键闪记有多强?

无障碍浏览 进入关怀版