人工智能极简主义者吴恩达

分享至

吴恩达在人工智能领域享有盛誉。2010年左右，他与他的学生在斯坦福大学开创性地利用图形处理器（GPU）来训练深度学习模型，并于2011年共同创立了“谷歌大脑”项目。再后来，他担任百度首席科学家3年，帮助这家中国科技巨头组建人工智能（AI）团队。因此当吴恩达表示已经识别出人工智能领域的下一个重大转变方向时，所有人都在关注。目前，吴恩达的工作重心放在了经营自己的公司Landing AI上，该公司搭建了一个名为LandingLens的平台，来帮助制造商通过计算机视觉改进视觉检测。此外，他还是以数据为中心的人工智能运动的拥护者，致力于推动以“小数据”方案解决模型效率、精度和偏差等重大人工智能问题。

在过去10年里，深度学习取得了巨大进步。模型越来越大，处理的数据越来越多。有人认为这样的发展轨迹是不可持续的，你怎么看？

吴恩达： 这确实是个大问题。我们已经看到了自然语言处理（NLP）的基础模型。我很兴奋地看到自然语言处理模型越来越大，且有潜力在计算机视觉（CV）领域构建基础模型。我认为在视频图像数据中还有很多信息可以利用。与符号化的文本相比，由于计算带宽以及视频数据处理的成本限制，我们还不能建立视频图像的基础模型。所以我认为这个推动深度学习算法大规模发展的引擎在成功运行了15年后，仍然有上升的势头。话虽如此，大数据只适用于某些问题，还有其他一系列问题需要小数据解决。

你曾提到你想要构建计算机视觉基础模型，这是指什么？

吴恩达： 这是我和佩西•梁（Percy Liang）在斯坦福大学的一些朋友创造的一个术语。指的是规模非常大的模型，它们经过非常大的数据集训练，针对特定的应用进行调整。例如GPT-3就是自然语言处理领域的一种基础模型。基础模型为开发机器学习应用提供了新的范式，有着广阔的前景，但同时也面临着挑战：如何确保公平合理且没有偏见，特别是在许多人在上面搭建应用的情况下。

建立视频图像基础模型需要哪些条件？

吴恩达： 我认为目前还是存在规模扩展的难题。处理大量的视频图像需要巨大的计算能力，这就是基础模型率先在自然语言处理领域兴起的原因。许多研究者正在研究这个课题。我认为即将看到正在开发的计算机视觉领域基础模型的早期迹象。如果半导体制造商能生产出性能高10倍的处理器，我相信我们可以为构建视觉模型轻松地多处理10倍的视频数据。

话虽如此，但在过去十年里，深度学习更多地发生在面向消费者的公司，这些公司拥有庞大的用户群体，有的拥有数十亿用户，因此数据量巨大。虽然这种机器学习范式为消费者软件带来了巨大的经济价值，但这种规模化的方法不适用于其他行业。

听到你这么说很有趣，因为你就曾在一家面向消费者、拥有数十亿用户的公司工作过。

吴恩达： 十多年前，我建议启动“谷歌大脑”项目，利用谷歌的计算基础设施构建大型神经网络，那是一个有争议的行动。有位非常资深的行业人士悄悄告诉我：启动“谷歌大脑”项目会对我的职业生涯很不利。他可能觉得这个项目不能只关注扩大规模，而是要专注于架构创新。

我还记得我和我的学生发表的第一篇NeurIPS研讨会论文，内容是倡导使用GPU处理平台CUDA来实现深度学习。另一位人工智能资深人士劝我说：“CUDA编程太复杂了。将它作为一种编程范式，工作量太大了。”我想办法说服了他，但没能说服另一个人。

我想现在他们都被说服了。

吴恩达： 我想是的。在过去的一年里，每当我谈到以数据为中心的人工智能运动时，我总是回想起10或15年前与人谈论深度学习和规模扩展的情景，听到的同样是“这没有新意”“这是个错误的方向”等等。

如何定义以数据为中心的人工智能？你为什么称它为一场运动？

吴恩达： 以数据为中心的人工智能是一门学科，它的研究重点是设计人工智能系统所需的数据。对于人工智能系统来说，用户必须用代码实现某些算法，例如神经网络，然后用数据集进行训练。过去10年里，主流范式是下载数据集，同时专注于改进代码。十多年过去了，使用这一范式，深度学习网络得到了显著改进，对于许多应用来说，代码（即神经网络架构）的问题已经基本得到解决。所以对于许多实际的应用来说，更有成效的做法是保持神经网络架构不变，转而寻找改进数据的方法。

当我讲到这一点时，很多从业人员举手表示赞成，他们说：“我们已经这样做了20年。”长期以来，人们一直各自为政地凭直觉研究，现在是时候把它做成一门系统工程学科了。以数据为中心的人工智能运动的范围很广，远不是一家公司或一群研究人员能完成的。我和其他合作者在NeurIPS上组织了一场以数据为中心的人工智能研讨会，我非常高兴有许多作者和讲演者出席。

你经常说公司或研究机构可供使用的数据量很小，那么以数据为中心的人工智能能够带来哪些帮助？

吴恩达： 人们常常听到用数百万张图像构建视觉系统的做法，比如我曾经用3.5亿张图像搭建了一个人脸识别系统。对于用数亿张图像构建的架构，只用50张图片是无法工作的。但事实证明，用50张高质量图像也可以做出有价值的东西，比如缺陷检测系统。在许多行业，大数据集是不存在的，因此我认为必须将重点从大数据转向高质量数据。50张精心设计的图像样本足以向神经网络说明你要它学习什么。

用50张图像训练一个模型，指的是利用大数据集训练的现有模型来进行微调，还是设计一个仅用小数据集训练的全新模型？

吴恩达： 让我来讲一下Landing AI的工作原理。在为生产商做外观检测时，我们一般使用我们独有的预训练模型RetinaNet。预训练只是难题的一小部分，更大的难题是提供一个工具，让生产商能够选择合适的图像集（用于微调），并采用一致性的方法标注它们。这在视觉、自然语言处理和语音领域都是一个非常实际的问题，何为适当标记，即使人工标注也无法达成一致。对于大数据应用，通常的反应是：如果数据有噪声，我们就收集大量数据，然后用算法对噪声进行平均处理。但是，如果能够开发出一些工具，标记数据不一致之处，并给出针对性的方法来改善数据的一致性，这将是获得高性能系统的更有效的方法。

例如，如果你有1万张图像，其中30张属于同一个类型，但这30张的标记并不一致，我们要做的一件事就是建造一个工具，让你注意这些不一致的数据子集。这样就能够快速重新标记这些图像，使它们趋于一致，从而提高性能。

关注高质量数据能帮助消除数据集的偏差吗？是否能在训练前更好地组织数据？

吴恩达： 非常有帮助。很多研究人员指出，数据偏差是导致系统偏差的众多因素之一。在数据设计方面也已经有人做了很多富有想法的工作。在NeurIPS研讨会上，奥尔加•鲁萨科夫斯基（Olga Russakovsky）对此做了非常精彩的演讲。我也非常喜欢玛丽•格雷（Mary Gray）在NeurIPS主会场的演讲，其中提到了以数据为中心的人工智能如何成为解决方案的一部分，但并不是全部解决方案。像数据集的数据表（Datasheets for Datasets）这样的新工具似乎也是其中的一个重要部分。

以数据为中心的人工智能带给我们的一个强大“工具”是设计数据子集的能力。想象一下，一个经过训练的机器学习系统在处理大多数数据集上性能还不错，却在一个数据子集上产生了偏差。这时候，如果为了提高这个数据子集的性能而更改整个神经网络架构，是相当困难的。但如果能够设计这个数据子集，就可以非常有针对性地解决这个问题。

您说的设计数据，具体来讲是什么意思？

吴恩达： 在人工智能领域，数据清洗很重要，但清洗数据的方式通常是手动的。在计算机视觉中，有人可能会通过Jupyter 笔记本将图像可视化，发现并修复问题。我对那些可以处理很大数据集的工具很感兴趣。这些工具可以快速有效地让你注意到标记噪声的数据子集，或者从100组数据中快速辨别出一组数据，能够帮收集更多的数据。多收集数据总是有好处的，但如果所有事情都需要收集大量数据，那成本就可能太高了。

例如，我发现当背景声中有汽车噪声时，语音识别系统的性能会很差。知道了这一点，我会专门去收集更多背景声混有汽车噪声的数据，而不是收集所有数据，否则会又费钱又费时。

使用合成数据怎么样？通常来说这是个良好的解决方案吗？

吴恩达： 我认为合成数据是以数据为中心的人工智能工具箱中的一个重要工具。在NeurIPS研讨会上，阿尼玛•阿南德库马（Anima Anandkumar）就合成数据发表了精彩演讲。我认为合成数据不仅仅是一个增加学习算法数据集的预处理步骤。我希望看到更多工具，能让开发人员把合成数据生成用作迭代机器学习开发闭环的一部分。

你的意思是合成数据可以让你在更多数据集上训练模型吗？

吴恩达： 不尽然。我来举例说明，假设你要检测智能手机外壳上的瑕疵。手机上的瑕疵各种各样，包括划痕、凹痕、砂孔、材料退色等。如果你训练一个模型，然后通过误差分析发现它总的表现良好，但就是在识别砂孔上表现不佳，那么生成合成数据就可以让你有针对性地解决问题。你可以仅针对沙孔类缺陷生成更多数据。

合成数据生成是一个非常强大的工具。但我通常会先尝试许多更简单的工具。比如说用数据增强来改进标记一致性，或者只是要求制造商收集更多数据。

可以举例来具体说明吗？如果有公司要联系Landing AI，说他们在外观检测方面遇到问题，你如何帮助他们开展工作？

吴恩达： 当客户联系我们时，我们首先会和他们交流，了解他们的外观检测问题，并查看几幅图像，核实用计算机视觉解决问题的可行性。假若可行，我们通常会要他们将数据上传到LandingLens平台，根据以数据为中心的人工智能的一套方法论向他们提出建议，并帮助他们标记数据。

Landing AI的一项重要业务就是帮助制造企业独立完成机器学习工作。我们的主要工作是确保软件易于快速上手。在机器学习开发的迭代流程中，我们向客户提供建议，诸如如何在平台上训练模型、何时以及如何改进数据标记进而提高模型性能等。我们的训练和软件为客户提供全程支持，帮助他们将经过训练的模型部署到工厂的边缘设备。

公司如何应对需求的变化？如果工厂的产品或照明条件发生变化，模型能适应吗？

吴恩达： 这要因企业而异。在很多情况下都会发生数据偏移，但也有一些制造商的同一生产线运行了20年却几乎没有什么变化，而且未来5年内他们也不期望发生变化。稳定的环境让事情变得更容易。对于另外一些制造商，在出现很大数据偏移问题时，我们也会提供工具进行标记。我发现授权制造商自主纠正数据、重新训练并更新模型至关重要。打个比方，如果数据在凌晨3点发生变化，我希望他们能够立即调整学习算法，以维持工厂运转。

在消费类软件互联网中，我们只需训练几个机器学习模型就能服务十亿用户。而在制造业，1万个制造商就要定制1万个人工智能模型。其挑战在于，如果没有Landing AI，你可能就不得不雇用1万名机器学习专家。

所以你的意思是说要扩大规模，就必须授权用户自行去做训练等许多工作？

吴恩达： 是的，完全正确！这是人工智能在各行业的问题，而不仅限于制造业。例如在医疗保健领域，每家医院的电子病历格式都略有不同。医院该如何训练自己的人工智能模型？期望医院的IT人员发明新的神经网络架构是不现实的。因此，解决问题的唯一方法是开发工具，通过为客户提供工具来构筑数据并表达领域知识，从而使他们能够搭建自己的模型。这就是Landing AI在计算机视觉领域所做的工作。在人工智能领域也需要其他团队在其他领域做这样的工作。

你觉得对于你的工作以及以数据为中心的人工智能运动，人们还需要了解什么？

吴恩达： 过去10年，人工智能的最大转变是向深度学习的转变；而接下来的10年，我认为最大的转变很可能是向以数据为中心的人工智能的转变。随着当今神经网络架构的成熟，许多实际应用的瓶颈将是“能否高效获取所需的数据并开发运行良好的系统”。以数据为中心的人工智能运动在全社会拥有巨大的能量和动力，我衷心希望更多的研究人员和开发人员加入进来，推动它前进。

来源：悦智网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.