2024年12月3日,加州大学洛杉矶分校(UCLA)数学教授暨菲尔兹奖得主陶哲轩(Terence Tao)、OpenAI研究高级副总裁马克·陈(Mark Chen)以及OpenAI科学政策与合作负责人詹姆斯·多诺万(James Donovan)在一场名为《o1推理与数学的未来》的线上活动中探讨了人工智能与数学的交叉点。这次讨论重点分析了高级人工智能推理模型如何变革数学研究和问题解决的方法
对谈的主要内容有:
1.人工智能在数学证明和发现中的潜在贡献
2.将人工智能融入传统数学研究的实际挑战
3.人工智能在科学发现与创新中的逐步演变的作用
4.促进人工智能系统与人类数学家合作的可能性
其中陶哲轩认为人擅长从非常少量的数据中推断出下一步该做什么,这是人工智能不擅长的领域,而Mark Chen 针锋相对的指出OpenAI研究项目如果成功,我们将拥有非常高效的推理器,AI也能做数据稀疏推理,也许很快OpenAI将能证明陶哲轩是错的
今天网上终于有了完整讨论视频(全长1小时26分,想看原视频请自行搜索OpenAI: The Future of Math with o1 Reasoning - with Terence Tao)
以下是完整中文文字版,
Natalie:各位晚上好,我是 OpenAI Forum 的社区架构师 Natalie。在每次演讲开始前,我都会提醒大家 OpenAI 的使命:确保通用人工智能造福全人类。今年的演讲系列的压轴嘉宾是广受大家喜爱的 Terence Tao 教授,以及我两位非常优秀的同事 Mark Chen 和 James Donovan。Terence Tao 是加州大学洛杉矶分校的数学教授,他的研究领域包括调和分析、偏微分方程、组合数学和数论。他获得了许多奖项,包括 2006 年的菲尔兹奖。自 2021 年以来,Tao 教授还是总统科技顾问委员会成员。Mark Chen 是 OpenAI 的高级研究副总裁,他负责监督高级人工智能项目,推动语言模型、强化学习、多模态模型和人工智能对齐方面的创新。自 2018 年加入 OpenAI 以来,他在公司最具雄心的项目中发挥了关键作用。Mark 致力于确保人工智能的发展造福社会,同时保持对负责任研究的关注。最后,James Donovan 领导科学政策和全球事务伙伴关系,专注于如何最好地利用我们的模型来加速科学研究和商业化。他加入 OpenAI 之前,是 Convergent Research 的创始人、风险投资人和合伙人,在那里他帮助启动了多个moonshot科学组织,包括 Lean 和一个用于复杂数学的自动定理证明器。请大家欢迎我们的特别嘉宾!
James Donovan:非常荣幸能与各位杰出人士共聚一堂。首先,我要感谢 Natalie 和她的团队组织了这次活动。能如此顺利地将这么多人聚集在一起并非易事。对我个人而言,能够在这里与两位对话是我的荣幸,感谢你们抽出时间。虽然这是今年论坛活动的结束,但它也标志着下一年的开始,我们将以科学为主题,探讨我们的模型如何与科学交叉并加速科学发展,希望能够安全、公平地造福更广阔的世界。我想先请 Terry,然后是 Mark,谈谈你们目前在各自的研究领域中最关注哪些问题,以及为什么解决这些问题如此重要。
Terence Tao:我有很多想要解决的技术性数学问题。更贴近今天会议主题的是,我非常感兴趣的是我们如何从根本上重塑数学,以及如何利用所有这些新工具以前所未有的方式进行协作,以前所未有的规模开展数学研究。我认为这可能是一个新的发现时代。现在的数学家一次只研究一个问题,在一个问题上花费数月时间,然后再转向下一个问题。有了这些工具,我们可能可以同时扫描成百上千个问题,并进行不同类型的数学研究。我对这种可能性感到非常兴奋。
Mark Chen:过去一年,我们的一个主要关注点是推理。自 GPT-4 以来,我们略微改变了关注点。GPT-4 包含了大量的原始知识,但它在很多方面也存在不足。它会被简单的谜题难倒,并且经常依赖于先验知识。如果它对一个谜题的解法有先验知识,它通常会犯同样的模式匹配错误。这些都表明模型在深度推理能力上的不足。因此,我们一直专注于开发 O 系列模型。这些模型更像是系统二思考者,而不是系统一思考者。它们不会经常给出直觉的快速反应,而是在生成回应之前花一些时间思考问题。我想强调我们研究议程中的另外两个关键问题:数据效率和如何为用户创造直观愉悦的体验。最后一个问题可能超出了数学的范畴,但它是人机交互的关键问题。
James Donovan:Terry,你多次提到一种潜在的新型数学,也谈到过不同的数学合作方式,能否为我们详细解释一下?
Terence Tao:数学一直被认为是一项非常困难的活动,现在也是如此。原因有很多,其中之一是我们依赖一个人或一小部分人来完成许多不同的任务以实现一个复杂的目标。如果你想在数学上取得进展,你必须首先提出一个好问题,然后找到解决它的工具,学习文献,尝试一些论证,进行计算,检查论证以确保其正确性,然后以可以解释的方式将其写下来,然后你必须做报告,申请资助,还有很多其他的事情要做。这些都是不同的技能。但在其他行业,我们有劳动分工。例如,拍电影时,你不会让一个人同时担任制片人、剪辑师、演员以及寻找资金等等。你会分配不同的角色。但在数学中,我们直到最近才找到一种方法来解耦所有这些任务。我认为现在我们有了这些工具,原则上你可以进行一种合作,其中一个人有远见,一个人或一个人工智能进行计算,然后另一个工具撰写论文等等。因此,你不需要一个人在所有方面都是专家。我认为很多人因为看到成为一名优秀的数学家所需做的所有事情而感到气馁,这确实令人望而生畏。但也许有些人擅长查看数据和检查模式,然后要求 AI 检查这种模式是否存在。也许他们不擅长找到正确的问题,但他们可以在一个更大的项目中处理一些非常狭窄的特定部分。我认为这些工具可以将数学工作模块化,一些任务由人工智能完成,一些任务由人类完成,一些任务由形式证明助手完成,一些任务由公众完成。在其他学科中,我们有公民科学,例如业余天文学家发现彗星,或业余生物学家收集蝴蝶。我们还没有一种方法可以利用业余数学家的力量,除了一些非常小的边缘项目。因此,我认为有很多潜力,我们必须尝试很多东西,看看哪些有效。
James Donovan:Terence,你似乎默认假设人类仍然会划分任务,他们仍然对流程有足够的了解来决定谁做什么,我的第一个问题是,你是否认为因此会出现不同的数学家角色,不同的专业方向?我想问 Mark,你是否认为这些角色总是由人类担任,或者你是否看到了一个由 O 系列模型本身分解问题的未来?
Terence Tao:我认为软件工程可以作为数学发展方向的模板
。过去,可能有一位英雄般的程序员包揽一切,就像数学家一样。但现在,你有项目经理、程序员和质量保证团队等等。因此,我们可以想象在数学领域也这样做。我现在参与了几个合作项目,它们既包含理论数学部分,也包含形式证明部分,还有人运行各种代码算法等等。它已经像我预期的那样专业化了。有些人不懂数学,但他们非常擅长形式化定理,对他们来说就像解决谜题一样。还有一些人擅长运行 GitHub,进行项目管理,确保所有后端顺利运行,也有人做数据可视化等等。我们都在协调工作。到目前为止,主要是人类和一些比较老式的人工智能类型,比如改进器,通常只是运行 Python 代码之类的东西。但我认为这是一个范式,一旦人工智能足够好,它将非常适合其中。
Mark Chen:我现在几乎把 AI 当作我的同事。有很多我不擅长的事情,我可以交给 AI 去做。我只是在推测,因为我不是数学家,但就 AI 在帮助解决数学问题方面的优势而言,首先可能是识别模式。机器非常擅长这一点,尤其是有大量数据或大量需要筛选的内容时。我认为从识别模式开始,你可以开始形成猜想。我认为它们在这方面可能有独特的优势。提出证明策略,我想 Terence,这是我们上次讨论过的事情。我认为今天人类仍然可能对前进的正确步骤有更好的直觉,但在特定步骤上可能存在盲点。我想上次我们提到了一种生成函数方法,一个模型在一个你试图解决的玩具问题中建议了这种方法,结果证明这在那种情况下其实还不错。还有,可能是验证。模型可能能够验证你确信正确的某些步骤,但你只是想再找一双眼睛来确认。也许还有生成反例。如果你想考虑一个定理可能是错误的许多潜在方式,一个模型可能能够比你更有效地穷举这些可能性。
James Donovan:你们都提到了定理证明器和形式化的作用,是否可以公平地说,你们都认为这是进行数学研究和使用大型语言模型或同等技术之间的必要中间层?
Terence Tao:基本上是的。证明必须是正确的。数学证明的特点是,如果一个证明有 100 个步骤,其中一个步骤是错误的,那么整个证明就可能崩溃。人工智能当然会犯所有这些错误。有一些类型的数学可以接受一定的错误率,就像 Mark 说的,比如寻找模式,寻找猜想。如果有人工智能只有 50% 的正确率,但你有其他方法来检查它,那么也没关系。特别是如果它想输出一个论证,那么强制人工智能以类似 Lean 的形式输出是一个非常自然的协同作用。如果它编译成功,那就太好了;如果没有,它会返回一条错误消息,并更新它的答案。人们已经实现了这一点,他们可以用这种迭代技术证明一些简短的证明,比如本科生家庭作业水平的证明可以通过这种技术完成。当然,这还远没有达到你可以问它一个高级数学问题,它就能输出一个巨大证明的程度。AlphaFold 可以用三天的计算时间做到这一点,但它无法扩展。对于某些软性任务,可以接受正错误率,你不需要形式证明助手。但对于任何真正复杂的、一个错误就可能传播的任务,它基本上是不可或缺的。
Mark Chen:在 OpenAI,我们在不同的时期或多或少地关注形式化数学。我认为今天我们做的少了一些,主要是因为我们想探索更普遍的推理。我们确实希望你在计算机科学等领域学到的推理与你在数学等领域学到的推理非常相似。所以我当然理解进行形式化数学的优势。
James Donovan:即使在训练过程中,可能有很多不正确的解决方法没有进入训练模型,因为数学家通常不会发布和纠正错误的东西,这对于更广泛的科学领域也是如此。你们两位认为这会产生很大的影响吗?我们是否应该努力推动人们也发布失败的答案?
Terence Tao:我认为这是一个好主意。鼓励这样做很困难,人们不喜欢承认自己的错误。但这对人工智能来说可能是非常宝贵的训练数据。当我教课时,有时最有效的课是偶然发生的,我准备了一个证明,然后在课堂上讲,结果证明是错的,我必须实时修改它。课堂上看到我尝试各种方法,比如,如果我改变这个假设,这个例子可能会有效。后来我得到了反馈,说那些是我最宝贵的课。那是因为我犯了错误。我认为这些数据在很大程度上是你们无法获得的。事实上,许多领域专家的专业知识是建立在几十年错误的基础上的,这些错误教会了他们什么不该做,即负空间。随着我们转向更正式的环境,我认为这方面开始有所改变。现在,我们在证明完成后对其进行形式化。最终,我们将达到在进行过程中进行形式化的程度。我们可能在思考数学问题时与人工智能对话,并尝试在进行过程中将步骤形式化。然后,也许它行不通,你必须回溯等等。这将自然地创建一些我们现在没有的数据。
James Donovan:许多数学家都谈到定理的美妙之处,以及所有元素都契合在一起并能优雅地表达出来的那种顿悟时刻。我们是否有可能在使用此类工具时失去这种认知过程?
Terence Tao:当计算器普及时,也出现了类似的情况。人们总是说,既然你不用手工计算,你就会失去你的数感。在某种程度上,这是真的。我可以想象,100 年前的数学家在从直接计算中获得数感方面要好得多。但是,你也可以通过使用计算器获得不同类型的数感。所以我认为会出现不同类型的审美标准。我认为会有一些计算机生成的证明,它们以不同的方式同样非常优雅和惊人。但我认为,至少在未来几十年里,人工智能范式不会完全取代人类
。我认为数学家在某种程度上比较慢,我们仍然使用粉笔黑板。所以会有人仍然会精心设计非常精彩的证明。我认为未来会有一类数学家,他们会将人工智能生成的数学转化为更人性化的东西。我认为这在未来会很常见。
James Donovan:Mark,当你听到 Terence 这样的回答时,你是否会思考如何提高推理质量和准确性,以及如何让人类与这种输出结果一起工作?
Mark Chen:是的。当你想到强化学习时,它就像激励模型并让模型从错误中学习。这引起了我的强烈共鸣。我认为这就是你如何培养强大而稳健的推理能力的。你不能只是给模型展示很多准确推理的例子,因为在数学推理中有很多负空间。我认为模型会变得更有用,我对此非常乐观。关于影响,听到人们不会失去对美学或直觉的感知,而是可能会发展出新的抽象层,并从中形成新的抽象和直觉,这真的很有趣。这似乎很有趣,而且也很可能发生。所以,是的,这将是很酷的,特别是如果它很快发生的话。
James Donovan:在我的生物学领域,人们倾向于认为这些模型会在原本看似无关的事物之间找到模式,你会发现所有事物之间潜在的统一性。这种想法基于这样一个观点:有很多唾手可得的成果,只是我们还没有注意到。而我认为对于数学和物理学的部分领域来说,改进几乎就在于活动的开展方式,我们感觉这可能存在根本上的不同。我想问 Terry 和 Mark,你们是否认为这将对我们如何教育人们学习数学,特别是如何支持那些将要进行前沿数学研究的人产生影响?
Terence Tao:学生们已经在使用大型语言模型,最明显的是帮助他们完成作业,但也可以从不同的角度看待一个主题。教育工作者也在想办法将大型语言模型融入我们的教学中。一个越来越普遍的做法是,提出一些数学问题或其他领域的问题,给出 GPT 的答案,然后说这个答案是错的,请评论它。或者与 AI 进行对话,并实际教它如何修改答案。实际上有一个班级,他们做了一个小组项目,老师发了一份练习期末考试卷,然后说,好的,尝试用提示工程和数据分析来训练 AI,弄清楚如何最有效地教会 AI 解决期末考试题,他们做到了。他们让一组做提示,一组做基准测试等等。但这同时也迫使他们,例如,为了生成所有数据,为了生成模拟考试,他们必须真正理解课堂材料才能做到这一点。所以这实际上是一个借口,让他们深入研究,学习课堂材料以及如何使用这些人工智能工具。所以我们会找到创新的方法来结合这两种方法。
Mark Chen:有些人担心,如果你过度依赖人工智能系统,你的技能会退化,或者你的洞察力会下降。我非常好奇 Terence 对此的看法
Terence Tao:你的问题是什么?
Mark Chen:你认为过度依赖 AI 工具会导致数学技能下降或洞察力丧失吗?
Terence Tao:我认为这将是一种转变。我们将更少地使用某些技能,但我们将更多地培养其他技能。国际象棋就是一个很好的例子。国际象棋现在基本上是一个已解决的问题,但人们仍然经常下棋。但他们练习国际象棋的方式现在已经大不相同了。他们尝试不同的走法,然后问国际象棋引擎,这是个好棋吗?例如,国际象棋理论正在蓬勃发展,许多关于棋盘哪个部分值得控制的百年格言正在被重新评估,因为人类会向国际象棋引擎提出各种问题。这是一种获得国际象棋直觉的不同方式,而不是传统的只是下很多棋和阅读很多教科书的方法。所以,这将是一个转变,一种权衡,但我认为最终是积极的。
Mark Chen:当人们问我应该如何适应新兴的人工智能时,我仍然认为,基本上没有必要突然放弃学习任何特定学科。我认为人们应该拥抱人工智能,看看它如何能让他们更有效率。在数学领域,它可以帮助你进行大量的繁琐计算。如果这是一些你已经了如指掌的例行公事,你可以让模型进行操作。我仍然认为对一个学科有非常深入的理解是很重要的。即使在今天的机器学习领域,那些正在影响最大变化的人也是那些非常了解数学或系统的人。我认为这将继续是一个非常大的杠杆。专注于抽象概念。我认为人类有一种与数学核心相联系的特殊审美。而且,由于其他人也在评判这种审美,模型在定义问题和拥有品味方面可能更难模仿。当然,数学本身就是一项很好的技能。我认为它具有很强的可迁移性,它教会你稳健的推理,我认为数学家通常适应性很强。所以,绝对没有理由不大量投资于数学。
James Donovan:Mark,你提到数学的美学,我们现在有点抽象了,但我们构想数学的方式可能与我们作为人类体验现实的方式有关,如果模型在做非常复杂的数学,我们可能会达到一个地步,即它超出了人类在我们的环境中验证或理解的能力。你们两位是否认为这在不久的将来是可能的?如果是,你们会如何应对?
Terence Tao:事实上,现在就已经出现数学家有时会产生没有人能理解的巨大证明的情况。人们已经在使用大量的计算机辅助。有一些证明需要 TB 级别的证明证书,因为其中包含大量的 SAT 求解器计算或一些大型数值建模。还有一些证明是建立在数百篇文献的基础上的,我们将这些先前的结果视为黑匣子,没有人能理解所有内容。所以我们在某种程度上已经习惯了这一点。我们可以将一个复杂的证明划分成多个部分,你只需要理解其中一部分,然后相信计算机或人类能够理解其他部分,并且它们都能正常工作。这种情况会继续发生,所以我们将会有大型复杂的论证,其中一部分将由 AI 生成,希望也能进行形式化验证。我认为这是一种趋势,它只是加速了已经发生的趋势,我不认为这是一个真正的相变。
Mark Chen:我担心的很多问题是类似的,比如你可能会有一些错误传播,或者其他人建立在某个结果之上,而你只是建立在一些错误的数学之上。特别是如果计算机生成的新见解的数量增加的话。我们在 OpenAI 非常关注的一个问题是更普遍的可扩展监督问题。这个想法是,当一个模型花了大量时间思考,并得出了某种根本性的见解,你如何知道模型没有犯错?你如何知道它是正确的?你如何相信它?从根本上说,这确实是一个非常现实的问题。它在几年前可能还比较理论化,但我认为今天的模型确实有能力解决非常困难的问题
。那么,我们如何审查并相信问题得到了正确的答案呢?
James Donovan:数学是我们有机会解决这个问题的唯一领域,因为我们有形式化验证,这也可以自动完成。
Terence Tao:是的,你希望这方面的进展最终能促进所有其他科学的进步。如果我们能找到一种方法,从这些数学证明推导到物理、化学等等
James Donovan:今天有很多在数学领域工作的人,所以我有一些非常实际的问题。也许不是使用人工智能或人工智能相关工具的相变,但实际上数学的一些文化元素可能会发生变化。一些独特的事情是数学竞赛,我知道你不久前在布里斯托尔就谈到了这个主题。你是否认为数学的实际生态系统会发生变化以适应大型语言模型?如果是,会如何变化?
Terence Tao:它会的。很难准确预测它将如何变化。我认为会出现一些现在不流行的新型数学,因为它们在技术上是不可行的。特别是实验数学是一个非常小的部分,我认为像 95% 是理论性的,这在所有科学家中是不寻常的。通常,实验和理论之间是平衡的。但是实验很难,你必须非常擅长编程。或者你的任务必须足够简单,你可以用一个普通的软件来自动化它,这是数学家可以编程的范围内的。但是有了 AI,你可以做更复杂的探索。传统上,你可能会研究一个微分方程,但你可能会问 AI,这是对这个微分方程的分析,现在对列表中的下 500 个方程重复相同的分析。这是你现在无法用传统工具自动化的事情,因为你需要软件对问题有一些理解。所以我认为数学的类型会改变。现在已经有一种趋势是变得更加协作,这将随着 AI 的发展而加速。但我认为至少在未来一二十年里,我们仍然会写论文、审稿、教学等等。我认为这不会是一个重大的变化,我们会越来越多地在我们的工作中使用人工智能,就像我们已经在其他方面越来越多地使用计算机辅助一样。
Mark Chen:关于比赛,我可以更多地谈谈编程比赛,但我不知道它们是否会发生根本性的变化。我认为至少我认识的大多数经常参加比赛的人,他们这样做只是因为很有趣。我认为,除了你获得的技术技能之外,作弊将成为一个问题
James Donovan:是的,作弊肯定是其中一个因素,但也许更不故意或更不试图违反规则的因素是归属。在一个我们可能会有很大一部分形式化工作由大型语言模型完成,甚至由于组合方法而由大型语言模型产生新想法的世界里,你们两位能否设想一个我们将突破直接归功于大型语言模型本身的世界?那意味着什么?
Terence Tao:这将是一个我们必须面对的大问题。我认为我们目前的论文作者模式,比如在科学领域,我们可能有一位主要作者,然后是一大堆次要作者。数学家还没有这样做,我们仍然按姓氏字母顺序排列,在很大程度上,我们忽略了谁做了什么的问题,我们只是说,我们都做出了同等的贡献。我认为我们将不得不更精确地界定贡献。现在已经有这样一种趋势,至少在科学领域,当你写一篇论文时,会有一部分是关于作者贡献的,谁做了什么。如果是 GitHub,你可以查看 GitHub 提交,这也会给你一些数据。所以,一旦你知道一半的提交是由 AI 完成的,等等,就会出现一个问题:你是否真的将 AI 提升为共同作者,或者你是否至少在致谢中提到它?我们还没有这方面的规范。我们需要解决这个问题,会有一些测试案例和一些争议,最终会制定出对每个人都有效的方案。但我没有这个问题的答案。
Mark Chen:我认为还有一个相关的问题,虽然不完全相同,那就是访问权限的问题。如果模型继续贡献大量的证明块,那么那些拥有更多计算资源的人,他们在数学研究方面是否处于更有利的地位?这绝对是需要思考的问题
。我不太清楚该如何沿着这条思路继续思考,但它确实是一个难题。
James Donovan:在应用数学或更广泛的科学领域,对于那些本身不是数学家的人来说,我们已经谈了很多关于数学行为的变化以及为什么这很重要。如果我们忽略如何实现这一点的机制,如果我们能够真正加速基础数学的发展,你预计会看到世界上发生什么?这会为社会其他部分带来什么?
Terence Tao:我认为这可以增加公民对数学的参与。可以想象,例如,人们争论地球是圆的还是平的,令人惊讶的是,这个问题仍然存在。但是在人工智能中,你可以实际开始构建模型,你可以说,好的,假设地球是平的,天空会是什么样子等等。现在,在你弄清楚事物会发生多大的变化之前,你需要相当多的数学知识。但你可以想象,有了这些模型工具,它实际上可以为你创建一个可视化工具,你可以看到,这就是这个宇宙理论的样子。所以我认为这可以将数学与许多目前感到被排除在外的人联系起来,因为他们只是缺乏进行这门学科任何研究所需的纯粹技术技能。
James Donovan:你是否认为我们需要更好地进行这种数学研究,才能在其他应用科学领域使用人工智能?例如加速工程、物理或……
Terence Tao:很多科学已经以数学为基础,如果你不懂数学,你无法在没有数学的情况下进行准确建模。当然,在后端,如果你想训练 AI,你需要大量的数学。我认为我们可能会进入一个这样的世界:你可以成为一名生物学家或其他什么,你可以要求 AI 进行统计研究,你不需要知道参数的确切细节。如果 AI 足够可靠,它实际上可以为你完成所有数学工作。所以它可以使数学成为科学的可选条件,而现在不是这样。所以它可以双向运作。
Mark Chen:我相信 Terence 关于加速数学进展的影响的看法。作为一名研究人员,代表这里的许多研究人员,我认为我们模型最令人兴奋的应用是用于加速科学研究。尝试提供这种非常通用的工具,专家可以在日常生活中使用它来加速他们的工作。我认为在其他科学领域,我们已经看到材料科学和医疗保健领域的人们已经在使用推理模型,并证明了它几乎就像一个可以分配任务的本科生,他们可以对某些情况进行相当连贯的分析。就像 Terence 说的,很多人会说,这是一个场景,你能做一些计算,看看这个场景会有什么影响吗?我认为人们已经发现它在这些情况下很有效。
James Donovan:我想我的想法是,很快就会出现一个只有极少数人能够验证你得到的答案是否正确的世界。也许定理证明的结构加上一个越来越复杂的大型语言模型,是获得解决这个问题的可扩展验证方案的唯一方法。所以,在某种程度上,我们总是必须将形式数学放在首位,然后其他一切都从中衍生出来
。考虑到这是一种潜在的未来,以及我们讨论过的一些其他主题,Terence,你对年轻数学家有什么建议?他们应该关注哪些领域,应该解决哪些类型的问题?
Terence Tao:我的建议是他们必须灵活。我认为数学正变得越来越技术化,越来越协作。也许 50 年前,你可以专攻数学的一个子领域,几乎不与其他数学家互动,你就可以以此为生。现在这基本上是不可行的
。我认为数学是一个更大的生态系统的一部分,这是一件好事。有了 AI,它可以开启比以前认为可能的更广泛的合作。你可以与你实际上没有专业知识的领域的科学家合作,但 AI 可以帮助你快速入门,并在科学家之间充当通用翻译器。所以,要保持开放的心态,也要认识到这些工具也有局限性。你不能盲目地使用这些工具。我的意思是,你仍然需要培养自己的人类技能,这样你才能监督 AI。它不是魔杖。
James Donovan:Mark,对你来说,根据你所看到的趋势,你会鼓励学生现在学习哪些技能,以便将来能够充分利用这些模型?
Mark Chen:老实说,我们仍然需要技术领域的专家,他们能够与这些工具很好地协同工作。我喜欢保持灵活的总体建议。我认为对各个领域的人来说,至少了解神经网络如何工作、如何训练、它们的动态是什么样的,以及它们的局限性是什么,这将非常有帮助。我认为,人们玩得越多,越了解如何加速它们,他们就越有效率。我认为每个人的效率都会有一个乘数效应。也许几年后,这个乘数有望显著大于 1,但我认为有效利用人工智能工具的人总体上会比那些对它视而不见的人更有效率。
James Donovan:Terence,你一直在内部观察这些模型在不同时间点的改进,我确实听说最近在国际数学奥林匹克竞赛和白银级别的表现,尽管承认为了实现这一目标,做了一些工作,你对进展速度感到惊讶吗?
Terence Tao:它既超出了我的预期,也低于我的预期。在任何可以生成类似任务数据的任务中,例如国际数学奥林匹克竞赛,DeepMind 生成了大量的模拟证明,实际上是大量的模拟失败证明,这实际上是他们秘密的一部分。所以很多我原以为几年内都无法完成的任务现在都完成了。另一方面,每当你超越有数据存在的范围,进入一个研究级问题,世界上只有 10 个人真正认真思考过这个问题,人工智能工具仍然没有那么有用。我有一个我现在仍在进行的项目,我们正在证明 2000 万个小型数学问题,而不是证明一个大问题。我认为这是一项人工智能非常适合的任务,因为如果它们能够处理一定比例……但事实证明,在这个项目研究的所有问题中,也许 99% 可以用更传统的蛮力计算方法处理,而 1% 需要人工干预,这相当困难。已经尝试过的人工智能可以恢复 99% 的相当容易的问题,但它们并没有真正对真正具有挑战性的核心问题做出贡献。这可能只是目前技术水平的体现。所以,我认为在看到它们自主解决这些研究级问题之前,还需要有更多的突破。
Mark Chen:我想讲一个我脑海中的轶事,它既说明了这一点的令人印象深刻,又说明了仍有进步空间。我们今年也用我们的 O 系列模型参加了国际信息学奥林匹克竞赛。一方面,它们确实需要每个问题的大量样本。我想我们在博客文章中宣布,你需要每个问题 10000 个样本来从模型中提取金牌水平的表现。这感觉很多,但同时,它能够做到这一点就已经让我感到难以置信了。其中一些是非常反模式的问题。所以它就在那里。我真的很兴奋能真正发挥出这种能力。
James Donovan:当你感觉自己几乎是在作弊,因为你已经重建了问题,这总是让人在智力上感到有点不满意。但我放大来看,我想知道有多少科学进步只是将许多小东西堆叠在一起,然后创造出一个范式转变,事后看来似乎很聪明,但实际上只是将小东西组合在一起。在某种程度上,编程的乐趣就在于此,当你重新定义一个问题,使其能够解决,不一定是首先从基本原理入手,而是想办法解决它。但这确实引出了一个问题,也许我们在这里谈论的是,我们正在教模型以一种特定的方式推理,而某一类的推理对某些类型的问题效果很好。也许从你开始,Mark,然后是 Terence,你是否设想一个世界,其中一类模型同时进行许多不同类型的推理,或者更像是一个你拥有进行不同类型推理的单独模型的世界,这些模型组合在一起?然后,对于你,Terence,你需要看到哪些类型的推理,才能认为你可以使用 AI 解锁一些目前它们难以解决的更具挑战性的问题,即较小的子集问题?
Mark Chen:我认为拥有一个可以在许多不同领域进行推理的模型是很美的。当你试图连接许多复杂的系统时,你会做出很多设计选择,我认为简单性确实是人工智能开发中的一个关键原则
。你当然可以建立人工智能以某种方式协作的结构,这也很令人兴奋。我们能否建立这样一个模型:你在这里是专家,你是这个数学项目的项目经理,你是证明的撰写者,你正在检查 10000 个案例等等。我认为这是一个非常有趣的范式。
Terence Tao:我绝对认为人工智能解决问题是一种非常互补的方式,它是一种非常数据驱动的问题解决方式。正如你所说,对于某些任务,它实际上比人类做得更好。我们正在学习的是,我们对某些任务难度的认知必须重新校准,因为我们没有尝试使用数据驱动的方法来解决某些类型的问题。但有一些问题是不可判定的。任何数量的数据都无法实际解决某些问题,我们可以实际证明它们无法被证明。我的意思是这不是人工智能的强项,但如果你想让人工智能真正像人类那样在解决数学问题上竞争,它们需要在数据稀缺的环境中进行推理,你需要研究一个新的数学对象,你只知道关于它的五六个事实,一些少量的例子。也许它与其他一些已知的数学对象有非常模糊的类比,你必须从非常少量的数据中推断出下一步该做什么。这是人工智能不擅长的领域,也许它完全是错误的,我认为试图强迫人工智能这样做就像是用错误的工具来完成一项任务。这是人类真正擅长并且非常有效的事情,所有那些蛮力检查、案例分析和综合,以及寻找它们不擅长的模式。所以认为智力是一个一维的尺度,并且哪一个更好,人工智能还是人类,这可能是一个错误。我认为你应该把它们视为互补的
Mark Chen:如果我们的研究项目成功,我们将拥有非常高效的数据稀疏推理器。所以,希望我们能证明你是错的,Terence
James Donovan:如果你俩明天被任命为大学校长,并获得了一些有意义的预算,你会建立一个什么样的部门,Terence 的话是数学系,Mark 的话可能是更广泛的科学系?你会投资哪些基础设施来真正利用这些新技术?
Terence Tao:这是一个好问题。我可以想象拥有一些集中的计算机资源来运行你可以自己调整的本地模型等等。这有点难,技术变化如此之快,以至于现在对任何特定硬件或软件的投资可能在几年后就不那么重要了。所以你可以将来自不同学科的很多人聚集在一起,共同找出使用这些技术的方法的地方。我的意思是,我们已经开发了很多这样的技术中心类型的东西。但我认为它必须非常自由,因为技术是如此不可预测。我们需要不同的部门互相交流,看看协同作用在哪里。
James Donovan:你认为是否有空间围绕数学库和那些构建块进行协调,例如改进定理证明或类似的东西?
Terence Tao:现在已经有一些志愿众包工作。美国的联邦资助机构刚刚开始资助其中的一小部分。大学通常不会做这种基础设施类型的工作。是的,这可能是一个角色,实际上,我认为政府将不得不发挥主导作用。
Mark Chen:我只会给出一个非常简短的答案。我认为OpenAI 正在做正确的事情。建造一台非常大的计算机,让我们弄清楚如何将这台计算机变成智能。这是一个简单粗暴的答案
,我想 Sam 也会为此感到自豪。
James Donovan:非常感谢你们两位今天抽出时间与我们交谈,我们将从这里进入问答环节。任何对你们两位有更难问题的人将有机会向你们提问。但特别要感谢 Terence 的拨冗参与,感谢你抽出时间进行这次谈话。接下来,我将把时间交还给 Natalie。
Natalie:非常感谢你们两位。我们将在问答环节再见。各位,如果你想向 Terence、James 或 Mark 提问,请加入刚刚弹出的实时通知链接,或者你可以点击屏幕左侧的议程选项卡,进入问答会议室。我很快会在那里见到你们,我们将回答所有问题,或者尽可能多地回答你们在聊天中提出的问题。待会儿见。
Natalie:Eduardo,请你做一下自我介绍。
Eduardo:我是 Eduardo,一名训练有素的数学家,现在也从事人工智能方面的工作,大约 50 年了,确切地说是 52 年。我的问题是问 Terry 的。35 或 40 年前,我正式通过我的同事 Felix Browder 要求美国数学学会提出一项大规模的数学项目,类似于物理学家当时的超级对撞机。我说,让我们计算机化,让我们用某种统一的语言建立一个基本数学定理的数据库,这样人们就可以很容易地引用和找到这些东西。我被拒之门外,他们觉得我疯了,是个怪人。但现在我们显然处于一个可以开始这样做的局面。所以我的问题是,你认为在不久的将来,意思不是 20 年后,而是可能 3、4、5 年后,是否有能力通过某种学习,可能是某种基于注意力的类型,通过嵌入的内容、相互关联的内容来识别模式,从而真正做到这一点?你知道我在说什么,对数学进行语义搜索将会非常棒。
Terence Tao:OpenAI 实际上已经做了一些这方面的工作。我做了一些实验,比如,如果你有一个定理,你认为你知道它的名字,或者你认为你大概知道它是什么,但你不记得它的名字,所以你不能直接在搜索引擎中输入。你可以用非正式的术语向大型语言模型描述它,它通常可以告诉你,哦,你想的是这个特定的定理。对于隐藏在 arXiv 上 20 篇论文中的更晦涩的结果,我们目前还没有这种能力。这是一个很好的问题,我向很多我交谈过的机器学习领域的人提出了这个问题:有没有什么方法可以提取出一个数学结果的本质并对其进行搜索?目前最好的方法是众包,你去一个问答网站,比如 Math Overflow。
Eduardo:对,确实有效。谢谢。
Natalie:Lizzie,接下来轮到你了。在你提问之前,我们的技术制作人会找到你并取消静音。我们会向 Terence 和 Mark 提一个来自 Robinhood 首席隐私官 Neo Sengupta 的问题。Neo 问 Terence,你对这些模型在解决以前未解决的数学问题时目前存在的以及将继续存在的硬性约束(如果有的话)有什么直觉?
Terence Tao:硬性约束非常少。我的意思是,有一些问题确实是不可判定的,然后还有一些问题,我们知道它们意味着其他难题,我们知道它们对很多标准技术免疫。但总会有惊喜,我的意思是,在人类数学中,每年都会出现一个人们认为不可能解决的问题,然后有人想出了一个巧妙的新想法。这就是数学的魅力所在,我们实际上不知道什么是难题。所以,硬性约束很少。
Mark Chen:我基本同意这个观点。我认为“硬”是一个非常强烈的词。当然,我认为数学的某些方面对今天的模型来说很困难,比如提出正确的问题,对要构建哪些抽象概念有审美等等。它们在这种“问一个问题并尝试解决它”的设定下要好得多。
Lizzie:我目前是斯坦福大学的一名医学生,研究神经科学,如果你不介意的话,可以称之为真正的神经网络。但我正在尝试使用我仍在学习的大型语言模型或 AI 模型来进行 AI 药物发现。但我对此没有疑问,因为关于这个问题的问题太多了。我的问题是,我遇到了一个技术问题,我住在旧金山,我想在这个周末,也就是过去的周末,去旧金山歌剧院。我在 ChatGPT 中输入并问它,卡门什么时候上映,因为那是卡门的演出时间表。然后 ChatGPT 告诉我星期六可以去。所以我去了那里,没有演出,只有星期天下午 2 点。那么,有了这个技术难题,我该如何在进行 AI 药物发现时更谨慎地信任或使用这个系统呢?我不知道答案,我无法检查,而且它会有更长远的影响。
Mark Chen:这是一个非常合理的问题,我想我可能是应该回答这个问题的人。实际上,我鼓励你今天尝试将模型与搜索一起使用。我认为现在有一些方法可以让模型浏览并将模型的响应基于真实的输出源。所以,如果你今天使用搜索,它会引用特定的网站或特定的来源,以反映事实。我认为未来版本的搜索将会非常精确,它们会告诉你这些网站中可以找到答案和参考的位置。是的,我确实认为未来的模型将以这种方式非常扎实。你将能够准确地追踪这些基本事实的来源,它在哪里获得了特定的信息。但我今天会鼓励你尝试使用搜索进行相同的查询。
Lizzie:我确实使用了付费的 OpenAI。
Mark Chen:OpenAI 不是一个搜索模型。
Lizzie:哦,好的。那么,你能解释一下什么是搜索吗?
Mark Chen:有一个图标,你去 ChatGPT 4看看,我知道今天这很让人困惑,我们会统一起来,让一切都变得更简单。但是有一个地球图标,它本质上可以让模型在互联网上搜索结果。
Natalie:Daniel,很高兴见到你。我想上次我们交谈是在几年前,你快要完成博士学位了。你现在在哪里?请向大家介绍一下你自己。
Daniel:大家好,我是 Danny。我在加州大学伯克利分校获得了数学学士学位,然后直到大约 6 个月前,我还是威斯康星大学人工智能科学专业的博士生,现在我在法学院学习人工智能和法律相关的主题。我做过很多不同的事情,我想问 Tao 教授的问题是,我知道历史上数学理论是先发展的,然后其他领域的研究人员,尤其是物理学或化学或其他领域的研究人员会将该理论应用到他们的问题中。现在,随着人工智能成为如此重要的事情,你是否看到有任何反馈?我知道在物理学中,人们大量使用机器学习来模拟偏微分方程的计算解,而这些是无法用传统方法解决的。你是否看到数学家从其他领域获得了任何新的理论见解?特别是考虑到我们现在可以生成更多的数据
Terence Tao:数学一直是双向的。我的意思是有一些物理学家的发现,数学家无法解释,然后他们不得不发展数学理论。狄拉克发明了一种叫做狄拉克δ函数的东西,根据正统数学,它不是一个函数。我们不得不扩展我们对函数的定义。它一直是双向的。所以我可以想象一个非常实际的科学驱动的应用,也许是由人工智能驱动的,发现了一些新的物理现象,这需要解释。它将以经验的方式被发现,然后……然后数学家将有动力去寻找理论解释。所以,理论科学和应用科学之间一直是双向的
Natalie:这个问题来自 Insero XS 的软件工程师 Michael Skyba。鉴于人类之间存在合作的能力,多个模型一起推理的多样性是否能够在证明中激发出更大的创造力,而这是单个模型无法达到的?Mark,也许你可以先回答这个问题。
Mark Chen:我认为这是一个非常合理的假设。我认为,任何时候,当一个系统中有多个代理,而这些代理有不同的动机,或者你在它们之间创造某种环境动力学时,你都可以得到非常有趣的行为。我认为,对于我们的人工智能代理来说,情况当然也应该是这样的。是的,我认为这其中的一个具体例子可能是,它们最终会像 Terence过去描述的那样专业化,比如一个成为产品经理,一个成为执行者。所以你可以想象它们会发展出特定的角色。这种专业化是否一定比一个非常强大的独立思考者表现更好?我认为目前还不清楚,但当然非常值得探索。
Terence Tao:我认为我们应该尝试各种方法。对解决这些问题采取非常多样化的方法。我认为,对于那些有一个非常明确的度量标准,你试图优化的问问题,让一组相互竞争的 AI 试图优化这个基准,可能会比一个定义非常模糊的任务,让太多声音参与进来实际上会使事情更难管理,效果更好。
Ashish:我叫 Ashish,在微软担任产品经理,我为 AI 构建无代码平台。我的问题是,我想描述一下我在工作中用来写东西、做事情的工作流程。我使用 OpenAI 进行深度思考,思考我正在研究的任何主题,然后我使用 Perplexity 进行研究,最后,这些是我浏览器上的不同标签页,我最终使用带有 Canvas 的 Perplexity 将所有内容整合在一起。所以,这是一个人工策划的工作流程。我想知道将来是否有更简单的方法来做到这一点。
Mark Chen:这是一个非常好的问题。我在之前的回答中稍微提到过这一点,现在有很多模型,今天之所以会让人感到困惑,部分原因是 OpenAI 一直被当作是研究预览版。我们只是想向世界展示更高级的推理能力。我们会让它变得不那么混乱。我想你想把所有东西都整合在一起,让它变得非常无缝。我认为这将为你提供更好的体验。再次重申,很难承诺具体日期,但我认为你的工作流程会变得简单很多。谢谢。
Natalie:这个问题来自 Wharton 和 Google AI 的 Anid Kashi。AI 可解释性仍然是一个需要额外投资的研究领域。从系统的角度来看,数学理论可以在哪些方面帮助对 AI 进行形式化描述?
Terence Tao:我认为这是一个理论远远落后于实践的领域。我的意思是,我们有一些困难,至少目前的模型实际上要解包,给定一个模型,要准确地知道到达那里的路径是什么,这是非常困难的。目前的架构根本就不是为做这种追踪而设计的。我的意思是,这应该是可能的,但我的意思是,这需要权衡。这会在性能和训练等方面造成巨大的损失。这就是为什么我们现在不这样做。人们开始对模型进行后统计分析,比如你可以取一个网络,然后关闭它的一部分,或者用其他东西替换它的一部分,然后你可以开始看到网络的哪些部分对于得出答案最关键。但它仍然是一种经验,我们并没有真正对此有一个很好的、可靠的理论。
Mark Chen:我基本同意这一点。我认为今天的可解释性是一门非常经验主义的科学。有很多机械可解释性技术,比如识别子网络,或者网络中负责某些事情的部分,但是这很难
Natalie:最后但同样重要的是,我们有请 Jordan。Jordan 是论坛的长期成员,从一开始就和我们在一起。他有一个独特的视角,他来自 Google,但也是一名营销专家。
Jordan:你让这个棕色皮肤的男人脸红了。非常感谢你,Natalie。你今年做得很好,很棒的论坛,很棒的嘉宾,一切都太棒了。Caitlyn 也是。Mark,谢谢你Terry,谢谢你,还有 James,谢谢你。我只想问你,Mark,你看到人们没有谈论的,你认为应该得到更多关注的 OpenAI 的一些很棒的用例是什么?
Mark Chen:谢谢。这也是一个非常好的问题。我认为有一种误解,认为推理只在数学和编码中,而我们看到的很多用例都真正展示了跨不同领域的推理。比如在语言学中,实际OpenAI 可以真正解包,语言难题,破解密码,从数据中识别模式。所以我确实认为材料科学组织,或者其他外部组织合作,他们发现推理在那里也非常有效。
James Donovan:我想补充 Mark 的话,有时人们倾向于认为,除非模型能够完美地回答每一个科学问题,否则就没有用处。你需要 100% 或者什么都没有,这是一个二元问题。但通常能够加速较小的部分,正如 Terry 所说,对数学更广泛的影响本身就是一个巨大的复合收益。科学的影响通常不仅仅是理论工作或实验工作,而是将这些东西商业化,带到现实世界中,我们看到在所有这些方面都取得了非常变革性的成果,但尤其是最后一个部分我希望最终将导致更好、更多的科学进入世界
Natalie:非常感谢你们。2024 年的最后一次专家演讲到此结束,但我们将在 12 月 19 日为社区成员举办最后一次技术答疑时间。对于新加入的社区成员来说,我们的技术答疑时间是一个与软件工程师、解决方案架构师或解决方案工程师进行一小时交流的机会,解决你的技术挑战,可能为你提供一些与你的用例相关的想法。我认为这是一个与 OpenAI 技术团队进行一对一联系的绝佳机会。最后,所有新成员都在这里第一次听到这个消息,我们想让你们知道,这是你们的社区,你们现在有权推荐你们的同行、你们网络中的人。我们优先考虑来自社区的推荐,所以我们将在聊天中发布推荐申请,我们也很乐意在接下来的几周内,肯定会在 1 月的前几周,纳入你们的一些社区成员。我们将启动地理分会和兴趣小组,这意味着你们将能够自组织,你们可以找到你们所在地区的人,与他们联系,举办咖啡聊天。我希望这能让你们更容易在论坛之外继续交流。这次活动还没有结束。如果你想与其他人进行一对一的交流,我们正在发布另一个通知,你可以进入虚拟交流时间,它将与社区的其他成员进行一对一匹配。默认时间是 10 分钟,但请随时在几分钟后中断,这样你就可以在规定的时间内与更多的人见面。这就是我们今晚的全部内容。我非常高兴以这样的方式结束 2024 年。这是一场多么美好的活动,我们社区中有多么了不起的人!我非常感激这是我的工作,我真的很喜欢招待你们所有人。祝大家周二快乐,我们希望很快能见到你们。大家晚安
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.