AI大神们吵起架来，也很吓人|算法|模态|感知器|rnn|大模型|神经网络|ai大神

分享至

人工智能走到今天，注定不是一场平静的旅程。它曾几度登上高峰，又数次坠入寒冬。背后，有一批值得铭记的“盗火者”，他们用一次次技术突破，铺设出通往智能的道路。然而，这条路从来没有一帆风顺，甚至可以说是荆棘丛生，争论与分歧始终如影随形。

每一代技术巨擘都试图定义智能的边界，但他们也在质疑和争吵中困惑。关于技术路线、算法与算力、符号主义与连接主义，他们展开了旷日持久的争论。这些分歧，正如20世纪物理学中的“光波粒二象性”之争，看似阻碍，却往往成为突破的催化剂。飘荡在人工智能上空的“乌云”，从来不是阻止进步的障碍，而是推动技术进化的关键力量。

如今，大模型成为AI时代的主角。GPT-4、Gemini、文心一言、通义千问、Kimi、智谱清言等巨型模型，用惊人的参数规模和算力展示了前所未有的语言和认知能力。但这条“规模化智能”的道路，真的能通往AGI吗？还是说，我们正走向被规模迷信绑架的技术死胡同？

为了看清未来的方向，我们必须回溯人工智能的发展历程，审视那些关键节点上的争论与抉择。每一次技术路线的胜利，都伴随着被遗忘的替代方案；每一次思想的碰撞，都在塑造下一次革命的起点。理解这些争论，不只是回顾历史，更是为了更清楚地看见通向未来的路。

图灵与冯·诺依曼，开启AI的“古神”时代

20世纪40年代，艾伦·图灵和约翰·冯·诺依曼分别点燃了计算与智能的两把火。图灵机，这个简洁而抽象的模型，向世界展示了逻辑的力量——一台机器可以通过简单规则模拟任何数学计算。图灵相信，智能的核心在于算法，是逻辑驱动一切。

但冯·诺依曼不这样看。他认为，没有强大的硬件架构，一切计算都只是纸上谈兵。为此，他提出了存储程序计算机的设计，将数据和指令合二为一，大幅提升了计算效率。这种架构定义了现代计算机的基础。

两人的分歧并非只是学术之争，而是对AI本质的根本性思考。图灵试图从理论上定义智能，而冯·诺依曼则专注于将理论变为现实。AI的第一次技术战争，从一开始就揭示了一个基本矛盾：算法与算力，谁才是智能的真正驱动力？

这场争论不仅奠定了AI的“硬核”基础，也揭开了技术发展中的永恒主题。每一次AI的突破，都逃不过算法与算力之间的此消彼长。这是一个“平衡的诅咒”，没有算法突破，硬件再强也是空转；没有硬件支持，算法也只是空想。

之后，“权杖”交给了麦卡锡这些后辈。

1956年，约翰·麦卡锡、马文·明斯基等人在达特茅斯学院发起了一场声势浩大的会议。这场会议不仅正式提出了“人工智能”这一概念，还宣称机器可以通过逻辑和符号操作实现智能。

他们自信满满，甚至乐观地预测，只需十年，机器就能像人类一样进行复杂的推理与决策。符号主义应运而生——一套试图将人类思维形式化、规则化的系统。麦卡锡坚信，智能是“逻辑与规则”的天下。

从图灵的逻辑模型到麦卡锡的符号系统，这段历史是AI理论与实践第一次大规模碰撞。然而，真正的智能从未被“征服”。这些早期尝试像是盲人摸象，每一次都在接近真相，却又远远不够。

这场争论并没有结束，它只是刚刚开始。

符号主义的虚假繁荣，让人类多走了几十年的弯路

符号主义的崛起，是人工智能历史上第一场技术路线之争的开端。这一时期，AI从理论探索进入实际应用，规则驱动的智能似乎一度胜券在握。然而，辉煌之下，裂缝早已显现。与之对立的神经网络，在一次致命打击后跌入低谷。表面的胜利，埋下了更深的失败种子。

专家系统崛起——规则的胜利，还是失败的预言？

20世纪70年代，符号主义迎来了它的黄金时代。以费根鲍姆为代表的学者，开发出了一系列专家系统，如DENDRAL和MYCIN。这些系统通过预定义的规则和知识库，在特定领域内展现了令人惊叹的决策能力。MYCIN甚至可以为复杂的医疗诊断提供精准的建议，其表现一度优于当时的许多医生。

这种基于规则的智能似乎印证了符号主义者的观点：通过形式化的逻辑推理，机器可以模拟人类的专业知识。这一成功也为符号主义赢得了大量资金和商业化的支持，IBM、Xerox等巨头纷纷投入开发专家系统，企图在工业、医疗等领域实现突破。

然而，符号主义的成功是脆弱的。专家系统的强大仅限于其预定义的规则内，一旦进入动态且未知的环境，它们便无所适从。例如，MYCIN无法处理超过知识库范围的病症，面对新问题，它只能无能为力地沉默。这种僵化让符号系统，无法应对现实世界的复杂性。

更为致命的是，专家系统的构建成本极高。每新增一个领域，便需要耗费大量时间和精力手动输入规则和知识。而现实中的智能，不仅需要快速适应变化，还需要从经验中不断学习。符号主义的“手工智能”模式，显然无法满足这一需求。

专家系统的崛起，是符号主义辉煌的顶点，但也是其开始坠落的前奏。规则驱动的智能，就像一座沙丘，看似高耸，却无法抵御动态世界的狂风。

神经网络的低谷——罗森布拉特的感知器被埋葬。

与符号主义的高歌猛进形成鲜明对比，神经网络在这一时期跌入低谷。1958年，罗森布拉特提出了感知器（Perceptron），这是一种基于简单线性模型的神经网络，能够完成二分类任务。早期实验表明，感知器可以通过训练学习某些模式，例如识别简单的图形。这一发现令人兴奋，一度被认为是智能学习的新路径。

罗森布拉特（右）和他的感知器

然而，1969年，马文·明斯基和西摩·派普特联手发表了《感知器》一书，对这一技术进行了毁灭性的打击。他们指出，单层感知器无法解决线性不可分问题，例如最简单的“异或”运算。这一缺陷，成为感知器无法扩展应用的硬伤。

明斯基的批评是精准的，但也过于短视，他们忽略了多层网络可能解决这一问题的潜力。然而，在当时，这个观点足以让感知器被整个学界抛弃。研究经费被削减，许多科研团队转向符号主义，神经网络的研究几乎停滞。

这一错误的抛弃，让AI领域错失了一次早期的革命机会。如果当时能够进一步探索多层网络，也许深度学习的崛起会提前几十年。

符号主义的胜利，是对神经网络的一次短暂“封杀”。但正是这种短视，埋下了后来的反噬伏笔。事实证明，真正的智能，既不能被僵化的规则所束缚，也不应被一时的失败所扼杀。感知器的低谷，预示着未来一场更大的反击。

那个叫辛顿的男人，让深度学习完成了“复仇”

1986年，一场酝酿已久的技术反击打破了符号主义的垄断。杰弗里·辛顿联合大卫·鲁梅尔哈特等人发表了一篇划时代的论文，重新定义了神经网络的训练方式。他们提出的反向传播算法，解决了多层神经网络难以训练的问题。这一突破，让神经网络从学术边缘重回主流。

辛顿的反向传播算法并不复杂，但它是神经网络“深度”发展的关键。多层网络终于可以有效调整参数，通过逐层优化来逼近复杂的函数关系。辛顿让神经网络重获生机，也让AI的进化进入一个新的时代。

然而，反向传播的成功并未让所有人信服。批评者认为，深度学习依赖于巨大的计算量和大量训练数据，其本质是对暴力计算的依赖，而非算法设计的优雅。换句话说，这是一场由算力与数据推动的“物理力量胜利”，而非算法之美的体现。

尽管如此，辛顿的复仇已然成功。这不仅是一场技术上的反击，更是对符号主义自信的一次深刻质疑。深度学习的崛起标志着AI进入一个新的发展轨道，符号主义从此开始退位。

数据 vs 算法——谁是AI的真正燃料？

如果说反向传播重新点燃了深度学习的火焰，那么2012年的ImageNet则彻底将这场火焰推向燎原。

ImageNet是一个由李飞飞团队创建的大规模图像数据集，包含超过1400万张标注清晰的图像。这一数据集的出现，彻底改变了AI领域的游戏规则。同年，Alex Krizhevsky利用深度卷积神经网络（AlexNet）在ImageNet竞赛中击败了所有传统算法，大幅提升了图像识别的准确率。这场胜利不仅让深度学习登上巅峰，也让整个领域开始重新审视数据的力量。

这次突破背后隐藏着一个重要的技术哲学转变：算法的重要性，正在被数据的规模所超越。在深度学习的时代，数据不再只是模型的“燃料”，而是决定模型表现的核心因素。李飞飞的成功，证明了大规模数据可以激发深度学习的潜力。

然而，这种“数据驱动”的成功，也带来了新的隐忧。深度学习模型对数据量的依赖变得无底线。从数百万张图像到数十亿条文本，模型的表现似乎完全取决于数据的质量与规模。这种“数据饥渴症”背后，是潜在的偏见与隐私风险。

数据越多，模型看似越强大，但它们对世界的理解却可能越来越肤浅。AI并非真正理解数据，而是通过庞大的统计模式进行预测。这种浅层的“学习”，注定无法解决复杂的因果推理与常识推断问题。

深度学习的崛起，标志着AI从逻辑规则的束缚中解放，但也引发了新的问题。反向传播和ImageNet的成功，揭示了算法与数据的力量，但这场革命的代价，正逐渐显现。在这场数据与算法的博弈中，AI的未来变得更加模糊而复杂。

CNN、RNN、GAN的崛起，开始“整活”了

反向传播让深度学习重新焕发生机，但这仅仅是一个起点。随着技术的逐步成熟，不同领域的需求催生了不同的技术路线。图像处理、序列数据处理、生成模型等场景的特殊性，推动了CNN、RNN、GAN等技术的崛起。它们不仅让AI能够“看”、“听”，甚至还能“创造”，成为深度学习黄金时代的重要支柱。

CNN的崛起，视觉智能的核心驱动。

20世纪90年代，杨立昆开发了LeNet，这是一种专门用于手写数字识别的卷积神经网络（CNN）。LeNet的核心在于通过卷积层提取图像特征，再利用池化层降维。这种结构有效减少了计算量，同时保留了图像中的关键特征。LeNet在手写数字识别任务中表现出色，为银行和邮政系统提供了自动化解决方案。

然而，当时的数据和算力远未达到今天的水平，CNN在更大规模任务中的潜力被严重低估。LeNet的贡献像是划破夜空的流星，短暂却难以忽视。

一切在2012年发生了变化。Alex Krizhevsky团队在ImageNet大赛中推出了AlexNet，这个由8层深度卷积网络组成的模型，一举将图像分类的错误率从26%降低到16%，震惊了学界。AlexNet的成功不仅依赖于更深的网络结构，还得益于GPU的加持，大幅提升了计算效率。

这场胜利不仅让CNN重回舞台中央，也开启了深度学习在计算机视觉领域的统治。医疗影像、无人驾驶、安防监控等行业迅速跟进，CNN成为它们不可或缺的技术支柱。从LeNet的初露锋芒到AlexNet的全面爆发，CNN证明了自己是视觉任务的最强利器。

也正是这项技术的成熟和规模化商用，带动了中国一批AI创业公司的崛起。其中，最典型的，就是所谓的“CV四小龙”商汤、旷视、云从、依图，以及格灵深瞳等。

RNN与LSTM，时间序列的征服者。

与CNN在图像领域的突破类似，RNN在处理序列数据时展现了非凡的潜力。RNN通过其独特的循环结构，使得前一时刻的隐藏状态能够影响当前时刻的输出。这种设计让RNN可以捕捉数据中的时间依赖性，是语音识别、文本生成等任务的理想选择。

然而，RNN在实践中很快暴露了其缺陷。当序列长度增加时，RNN往往难以处理长期依赖关系。这一问题源于梯度消失和梯度爆炸，导致模型无法有效更新远距离的依赖信息。

LSTM的诞生为这一问题带来了突破，通过引入记忆单元和门机制，LSTM能够在捕捉长期依赖的同时，避免梯度消失的问题。机器翻译、时间序列预测等任务中，LSTM取得了巨大的成功。它不仅是技术上的救赎，更让深度学习在自然语言处理领域迈出了关键一步。

GAN的革命，让AI学会“创造”，这也许是AI发展历程上，最重要的一个“伏笔”。

2014年，Ian Goodfellow提出了生成对抗网络（GAN），这是深度学习历史上另一个重要的里程碑。GAN引入了一种全新的学习方式——对抗学习。GAN由生成器和判别器组成，生成器试图欺骗判别器，生成逼真的数据，而判别器则努力区分真假。通过这样的博弈，GAN的生成能力不断提升。

GAN的核心创新在于，它不再依赖传统的标签数据，而是通过自我博弈学会生成数据。这一特性让GAN在图像生成、视频生成等任务中展现了惊人的潜力。DeepFake技术、StyleGAN生成的人脸图像，以及医疗领域的合成数据，都是GAN的典型应用。

然而，GAN并非没有局限。训练不稳定、模式崩塌等问题，让其性能难以保证一致性。尽管如此，GAN开创了生成模型的新纪元，让AI从“理解”数据迈向了“创造”数据。

CNN、RNN、GAN在各自领域的成功，推动了深度学习从感知世界到生成世界的转变。然而，它们的局限性也逐渐显现。CNN虽然在图像任务中表现卓越，但在捕捉全局信息方面显得力不从心；RNN及其变种LSTM，虽然解决了序列任务中的部分问题，但在长序列处理和并行计算上依然存在性能瓶颈；GAN则在生成数据时，常常面临训练不稳定的困境。

这些局限，就像飘荡在AI上空的几朵“乌云”，呼唤新的阳光，照耀进来。

Transformer，欲戴王冠必承其重

幸运的是，没过多久，那一束光就照进来了——Transformer，把深度学习这条路，带向了另一个高度。

Transformer架构的发布，直接颠覆了自然语言处理的格局。它摒弃了传统的循环神经网络（RNN），通过自注意力机制使模型能够高效地捕捉文本中的全局信息。这种设计简单而高效，解决了以往模型在长文本处理中的性能瓶颈。

黄仁勋对谈Transformer作者

2018年，OpenAI基于Transformer推出了GPT模型，迅速掀起了大模型的浪潮。GPT-2、GPT-3、GPT-4接连问世，以惊人的参数规模与强大的生成能力震惊业界。大模型不再局限于单一任务，而是能够在多个领域展现出近似人类的语言理解和生成能力。从翻译、摘要，到代码生成，这些模型几乎无所不能。

当然，Transformer也躲不开“口水仗”。有不少人怀疑，这些模型真的理解了语言，还是仅仅在“预测”下一字？它们的“智能”更像是对统计模式的高效提取，而非真正的语义理解。GPT的强大，不过是将海量数据中的模式压缩进无数的参数中，然后在新的任务中重现。

甚至，一些大佬扬言，Transformer不是在“思考”，它只是在无数可能性中猜测最可能的答案。这场语言领域的“革命”，本质上仍是一场概率游戏。

另外，不少人对大模型这个路线所带来的算力消耗颇有微词。大模型的训练需要耗费海量的电力和资源，随着参数规模的不断膨胀，一场算力竞赛正在上演，而我们却可能正在为此付出不可持续的代价。

参数翻倍，算力需求则呈指数级增长。巨大的能耗和资源投入引发了外界的强烈批评。一些学者认为，这种“规模驱动”的技术路径正在走向死胡同，当算力增长的成本超过了性能提升的收益，大模型的发展还能继续多久？

更深层的问题在于，算法创新的脚步似乎正在放缓。今天的大模型虽强大，但它们的基本架构仍然是Transformer，而这一架构自2017年以来几乎没有根本性改变。参数的扩张掩盖了创新的停滞，也暴露出当前AI发展的隐忧。

还有一点需要注意，尽管Transformer架构大放异彩，但CNN、RNN和GAN仍未退出历史舞台。在特定任务中，CNN的高效特征提取能力、RNN的时间依赖捕捉、GAN的生成能力，依然有着不可替代的优势。未来，随着技术的不断轻量化与优化，这些传统模型可能在与新技术的融合中，焕发新的活力。

技术的演进，不是简单的“新王换旧王”，而是多架构协同发展的过程。深度学习的未来，也许将是一场多路径、多场景的智能盛宴。每一种技术都在为这一盛宴贡献自己的力量，而下一个革命性的突破，或许正孕育在它们的交汇之处。

面对新的问题，大佬们又开始吵得不可开交了

深度学习的边界不断扩展，但每一次技术突破也带来了新的争论。大模型的崛起、多模态融合的探索、AGI的遥远目标……在这些议题背后，是各大技术路线、产业力量的激烈博弈。AI的未来方向，正在这些争论中逐步成形。

AGI的迷思：神话，还是下一步？

AGI是AI领域最具争议的话题之一，OpenAI公开宣称其目标是实现AGI。然而，这些模型距离真正的通用智能还有多远？

支持者认为，随着大模型和多模态技术的进步，AGI的曙光已经初现。反对者则质疑，现有的模型不过是更复杂的“任务拟合器”，远未达到真正的智能本质。AGI的讨论更像是一场“心理战”：是理性的技术评估，还是一种带有预设目标的自我暗示？

技术指标确实在增长，但关键的因果推理、情境理解、甚至自主学习能力，依然是巨大空白，AGI可能更像是一个逐步逼近而永远不可达的“技术地平线”。

大模型 vs 小模型：极简与极繁的终极对决

GPT4等超大规模模型的出现，让AI能力在短期内实现了爆炸式增长。然而，这种成功也带来了巨大的争议：AI是否必须依赖“巨无霸模型”？超大模型训练需要消耗大量的算力和能源，导致成本激增且资源集中在少数科技巨头手中。

与之相对的是小模型路线，一些玩家试图通过减少参数规模，依然能够在多项任务中接近甚至超越大模型性能。一些研究者认为，未来的AI应当走“小而精”的路线，通过稀疏模型、低能耗架构等技术实现更高效的性能提升。

这场“极简与极繁”的对决，实际上反映了AI未来的发展模式：是继续追求规模化红利，还是回归更本质的算法创新？

开源 vs 闭源：开放协作的梦想，还是技术垄断的现实？

AI技术的开放与封闭之争由来已久。Meta在开源LLaMA模型时，高调倡导技术的民主化，而OpenAI则从最初的开源转向闭源，声称这样更有助于技术的安全发展。

国内的阿里巴巴（通义千问）、百度（文心一言），以及百川智能等，则试图在开源与闭源两条腿走路。一方面，用更强大的闭源模型来实现商业化；另一方面，开源参数规模小一点的模型，来提升技术影响力，试图复制LLaMA的成功。

开源的支持者认为，技术开放可以激发更广泛的创新，让更多研究者和开发者参与到AI的发展中。然而，开源也带来了严重的滥用风险，DeepFake等生成技术便是典型例子。而闭源虽然可以提高技术的控制力，却可能导致技术垄断，阻碍创新扩散。

开源与闭源的争论，其核心在于如何在技术普及与安全之间找到平衡。一个完全开源的世界可能是乌托邦，也可能是“技术的潘多拉魔盒”。

真多模态，还是一堆模型的“拼装怪”？

多模态被视为通向通用智能的重要路径，OpenAI的GPT4已经初步实现了文本和图像的融合，谷歌的Gemini项目则试图整合语言、视觉、听觉等多种感知能力。

然而，多模态真的能解决智能碎片化的问题吗？当前的多模态模型更多是将不同类型的数据简单结合，而非深度理解与协同。一些学者指出，真正的多模态智能应当像人类一样，能够无缝整合不同感官信息，并在复杂情境中灵活应对。

多模态技术无疑是未来的高地，但其是否能推动AI迈向AGI，仍是一个未知数。我们看到的是希望，但也可能是一场新的技术炒作。

尽管目前一些号称多模态的大模型，能在不同任务中切换，但这些任务之间并没有实质性关联。模型的表现更像是在多个“盒子”之间快速切换，而非真正的智能整合。

综上，AI的每一步进化，都是在争论与对抗中前行。从早期符号主义和连接主义的交锋，到今天大模型、小模型、多模态、强化学习等技术路线的激烈博弈，这场永不停歇的技术战争成就了AI的辉煌。支持者与反对者针锋相对，理念与利益层层交织，吵得不可开交。

但正是这种撕裂般的对抗，逼迫技术不断突破瓶颈。每一次争吵，都是一次革新，每一种对立，都是未来方向的宣告。没有争论，就没有技术的涅槃。AI的命运，不在于走哪条路，而在于无数条路彼此碰撞、反思、共生中找到真正的边界与可能性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.