AI医疗独角兽OpenEvidence：1/4的美国医生都在用，像互联网产品一样做AI医疗|梅奥|医学|皮肤科|ai医疗

分享至

AI 医疗公司 OpenEvidence 在 2 月份获得红杉资本新一轮的 7500 万美元融资，估值超过 10 亿美元，成为了新的 AI 独角兽。

更为耀眼的是它的用户数据，官方声称，1/4 的美国用户医生已经在使用 OpenEvidence 的工具。

「如果算上所有活跃用户，每月有 30-40 万人接触我们的系统，其中 20 多万医生会登录并提问。换句话说，美国大约 10%-25% 的医生，已经在某种程度上使用 OpenEvidence 了。」

成立于 2021 年，OpenEvidence 专注于提供专业的 AI 医学知识助手，向所有医生免费开放，通过广告产生收入，产品迅速实现了自发传播，并与《新英格兰医学杂志》等出版机构达成战略合作。

这种增长方式也是红杉投资决策的关键因素。红杉合伙人 Pat Grady 领导了这一轮投资，他认为 OpenEvidence 的采用与消费者互联网产品的传播方式相似。「没有多少医疗工具能像消费者应用程序那样传播，但这是其中之一。」

创始人 Daniel Nadler 最近参与红杉资本的播客节目，对于 AI 医疗产品的落地、增长，以及如何做没有幻觉的 AI 模型，输出了很多干货信息。Founder Park 基于播客节目整理了文章。

Key Message：

传统上，医疗 AI 产品往往需要通过医院或其他机构的审批，而 OpenEvidence 直接面向医生，让他们能快速获取最新医学知识。这种方式让产品更快得到广泛应用。
医生也是普通人，医生也是消费者。如果你做出一个足够好的产品，能够真正改变他们的工作方式，甚至改变整个行业，然后直接放在 AppStore 上，但真的有效。
除了工作时间长、医学院的高强度学习，还有医生人数本来就不够，他们还要面对一个极大的挑战——医学知识的更新速度太快，大约每五年翻一倍，根本跟不上。
但对医生来说，几乎所有情况都是特殊案例，都属于「边缘情况」。医生的日常工作，就是不停地查找这些特殊案例对应的解决方案。
我们的目标是「对医学做 JPEG 压缩」。所以，我们的训练数据主要是同行评审的医学文献，以及 FDA（美国食品药品监督管理局）和 CDC（美国疾病控制与预防中心）发布的权威信息。
我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网，所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法，而是用了多个模型组成的「集成架构」，每个模型负责不同的任务
虽然已经被说了无数遍，但我也找不到更好的表达方式：顶尖人才只想和顶尖人才共事。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

01医生当作普通消费者，不去攻略医院高层

Pat Grady: 目前有多少医生会使用 OpenEvidence？

Daniel Nadler:现在大概有 10 万名美国医生在用，还有一些来自全球其他地方的用户。

Pat Grady: 那一年前呢？

Daniel Nadler:可能才一千人，甚至更少。其实很多人可能不知道，美国大约有 100 万名医生，要为 3.4 亿人口提供医疗服务。这本身就是个值得讨论的问题。而在这 100 万名医生中，如今大概有 10 万人每个月会使用 OpenEvidence。

如果算上所有活跃用户，每月有 30-40 万人接触我们的系统，其中 20 多万医生会登录并提问。换句话说，美国大约 10%-25% 的医生，已经在某种程度上使用 OpenEvidence 了。

Pat Grady: Sequoia 主要投资科技行业，而不是医疗行业。但据我了解，在医疗领域，10 万名医生短时间内开始使用一个新产品，是非常不寻常的。一般来说，医疗行业的增长速度没这么快。你们到底做对了什么？

Daniel Nadler:这也是我们合作愉快的原因——因为你们不是传统的医疗投资人，而我们的做法也不是典型的医疗行业做法。我们的关键点在于，我们认识到——医生也是普通人，医生也是消费者。

事实上，每个人都是消费者。而你们的投资策略也抓住了这一点，你们不会把「消费者互联网」单独当成一类，然后把医疗行业归为一个独立、封闭、难以渗透的领域。你们把所有行业都用互联网的增长曲线来看待，我们的思路也是一样的。

如果你从「自上而下」的方式入手，比如很多人说医疗行业很难进入，做医疗创业太难了，别去碰这个行业……

Pat Grady:其实，从过往的案例来看，这种说法也不是没有道理。

Daniel Nadler:没错。因为大家的思路都一样——他们都在用同样的方式「撞墙」。他们想办法去找某个大型医疗集团的高层，比如首席医疗信息官（CMIO）或者首席技术官（CTO），然后想方设法约个会，争取见上一面。

哪怕他们人脉再广，光是把这场会议安排上，就得等三四个月。等终于开上第一场会，他们会兴奋地击掌：「太棒了！反馈很好！」

然后呢？然后他们要安排第二场会，可能是跟医院的「AI 委员会」开会。这又得等三个月。等到真的去开会了，这期间医院的 AI 策略可能已经变了，政策环境可能也变了，甚至美国总统换了，新政府突然有了新的 AI 监管要求。于是会议又被推迟，一年过去了，他们可能还在第三、第四场会议的路上。而真正需要这个工具的医生呢？在这个过程中，他们根本没机会用上。

我在这方面有很多经验——这已经不是我第一次创业了。在创办 OpenEvidence 之前，我已经成功卖掉了一家 AI 公司。

Daniel Nadler:我对美国大公司的运作方式再熟悉不过了。这不只是医疗行业的问题，所有大机构运作起来都差不多。我很清楚这个套路，知道它行不通。尤其是对我来说，这是我的第二家公司，我想做的不是一场漫长的审批马拉松，而是真正让医生用得上的产品。如果我花几年时间做了一家「有使命感、有影响力」的医疗AI公司，结果医生根本没法用，那还有什么意义？

所以我们选择了完全不同的方式。医生也是普通人，医生也是消费者。如果你做出一个足够好的产品，能够真正改变他们的工作方式，甚至改变整个行业，然后直接放在 AppStore 上——这听起来像是创业入门课 101 的内容，但真的有效。

我们就是这么做的。我们没有烧钱做市场推广，也没有铺天盖地的广告，一切都是医生之间的「口口相传」。当医生觉得这个工具真的好用，他们就会告诉身边的同行。然后越来越多人开始用，形成了自然的增长。

这种增长模式和特斯拉早期的策略很像。特斯拉一开始几乎不做广告，而当时汽车广告是整个广告行业的重头戏。大家都觉得，要想卖车，必须砸大钱做广告。但特斯拉说：「我们就做一款超级棒的车，让用户自己去传播。开过的人会觉得『天呐，这比其他车好太多了！』然后主动推荐给别人。」

同样的事情发生在 OpenEvidence 身上。医生从 App Store 下载试用，觉得好用就推荐给同行。一年前，可能只有几百上千人用它；今天，已经有几十万医生在用了。大概占美国所有执业医生的 10% -25%。具体比例取决于计算方式，因为拿到行医执照的医生比真正活跃执业的医生多，但即使按最低标准计算，OpenEvidence 也已经覆盖了 10% 以上的美国医生。而这一切，完全是靠产品口碑驱动的。

Pat Grady:大家可能很容易理解「什么是好车」，但「什么是医生需要的好应用」可能就没那么直观了。

Daniel Nadler:没错。

医学知识增长速度太快，医生根本跟不上

Pat Grady：医生们到底在这个应用里干嘛？他们为什么这么喜欢它？

Daniel Nadler：我觉得一款产品好不好，最核心的一点就是它能不能真正解决问题。很多科技产品其实是「先有解决方案，再找问题」，但真正好的产品必须从实际痛点出发，提供真正有效的解决方案。那么，做医生最难的是什么？

除了工作时间长、医学院的高强度学习，还有医生人数本来就不够，他们还要面对一个极大的挑战——医学知识的更新速度太快，像消防水管喷涌而出的信息流，根本跟不上。

很多人没意识到这个问题，但实际上，每分钟就有两篇新的医学论文发表，一天 24 小时不间断，一周七天都如此。Nature 曾经有篇研究表明，医学知识每 73 天就翻一倍。当然，这个算法可能有点激进，我们在 OpenEvidence 内部做了一次更保守的测算，结果是大约每五年翻一倍。这里的统计方式很关键，比如如果把所有的引用都算进去，可能就会得出 73 天这个结果。但医学研究并不是所有论文的质量都一样，真正对医生有用的，往往是顶尖的期刊，比如影响因子最高的前三分之一的期刊。即便只看这些，医学知识每五年就翻一倍。

如果你稍微算一下，就会发现这意味着什么：1950 年，医学知识大约 50 年翻一倍，而现在是 5 年。换句话说，在 1950 年，一个医生从医学院毕业，他学到的知识在整个职业生涯中还能管用。到他退休时，可能有一半的知识过时了，但影响不大，因为他的职业生涯也差不多结束了。而且那时候的医学进展也没那么快，所以医生还能靠日常学习慢慢跟上。

但今天情况完全不同了。医生还没等到完成住院医师或进修医师培训，他们在医学院学到的内容就已经有一半过时了。医学教育曾经是医生获取知识的主要方式，但现在，它能支撑医生知识面的时间可能只有几年。

举个例子，假设一个银屑病患者去看皮肤科医生。理论上，医生可以查阅最新的生物制剂研究，挑选最安全、最有效的治疗方案。但问题是，皮肤科医生可能会关注皮肤病相关的医学期刊，但如果这个患者同时患有多发性硬化症（MS），那情况就复杂了。MS 主要属于神经科的研究范畴，指望皮肤科医生把所有的神经科期刊也都看完，显然不现实。更别说不同疾病之间的交叉领域，信息量更是庞大。

在这种情况下，医生就很难办。一方面，他们不能随便给患者开药，万一药物影响了 MS 的病情怎么办？另一方面，他们也不能什么都不做，因为风险不明确就不治疗银屑病，这对患者的生活质量影响很大。他们需要找到最靠谱的最新研究，比如 IL-17 和 IL-23 抑制剂的疗效和安全性，尤其是针对同时患有 MS 的患者。

在 OpenEvidence 之前，医生要查这些信息特别费劲。去 Google 搜？搜不到有用的信息。去 PubMed 查？最多就是给你一堆论文标题，但你要的并不是一篇通用的综述论文，而是一个非常具体的问题：对既有银屑病又有 MS 的患者，IL-17 抑制剂和 IL-23 抑制剂哪个更安全？哪个更有效？

这就是 OpenEvidence 存在的意义——让医生可以快速找到最新、最准确的医学证据。像这样的问题，并不是个例，而是每天都会发生的情况。医学涉及的领域太广了，每一个病例几乎都是一个「边缘案例」，需要医生在大量信息中寻找最相关的答案。

Pat Grady：是的。

Daniel Nadler:从工程的角度来看，医学的复杂度可以说是无限大的。虽然不是真正的「无限」，但对医生来说，几乎所有情况都是特殊案例，都属于「边缘情况」。医生的日常工作，就是不停地查找这些特殊案例对应的解决方案。换句话说，如果你能帮助医生更高效地找到这些罕见病例的参考资料，比如在顶级医学期刊里找到关于银屑病合并多发性硬化症患者，IL-17 和 IL-23 抑制剂安全性比较的研究，那么你就大大改善了医生的工作体验。更重要的是，这样还能提高患者的治疗效果，避免因为医生不知道「IL-17 对银屑病效果很好，但对有多发性硬化症的患者来说，IL-23 其实更安全」这样的关键信息，而导致病情恶化。

医生之所以可能不知道这些信息，并不是他们的问题，而是因为在他们上医学院的时候，这些研究根本还不存在。像 IL-23 抑制剂，2017 到 2019 年才出现，就算是现在还很年轻的医生，读书时也没学过这些新知识。他们只能在毕业后自己去追踪最新的研究。但问题是，这种「边缘情况」太多了，每一个这样的案例背后，可能还有成千上万个类似的情况需要关注。在有 OpenEvidence 之前，医生要想随时跟上这些更新，几乎是不可能的，而这就可能影响到患者的治疗效果。

很多医生用 OpenEvidence 后告诉我们，他们会用它来查找那些自己一辈子可能只遇到一两次的病例。而当越来越多医生都这样说，涉及的病例各不相同时，我们就意识到，医学知识的「长尾」有多么惊人——虽然没有真正无限长，但对人脑来说，已经复杂到几乎无法完全掌握。而 OpenEvidence 的作用，就是帮助医生在这条漫长的「长尾」里，精准找到他们需要的知识。

Pat Grady:医学知识增长的速度非常快，这本来是件好事，但问题在于，医生的学习能力是有限的，无法完全消化这些海量的新信息。就像一个不断被装满的桶，里面的「潜在能量」很大，但没法顺利转化成「动能」，因为医生无法高效地吸收和应用这些信息。AI 擅长处理海量文本、进行推理，所以 AI 的出现正好可以解决这个问题，把这些医学知识转化成医生真正可用的工具。

把不抓取互联网信息，只从专业渠道获取内容

Pat Grady: 那么，OpenEvidence 这个名字里的「Evidence」到底指的是什么？

Daniel Nadler:简单来说，OpenEvidence 的「evidence」就是经过同行评审的医学文献。更重要的是，我们要明确它不是什么。过去很多大公司尝试用 AI 做医学应用，但最后「翻车」了，其中一个重要原因就是它们的数据来源有问题——它们直接从网上抓取信息，比如各种健康博客，甚至是社交媒体上的帖子。而这些内容的作者，大多数既不是医生，也没有医学背景，很多人同时还写旅游攻略、做美食博客，真正的专业知识有限。

问题是，AI 学习的内容就是这些博客里的信息，所以当大模型在早期阶段输出一些荒谬的医学建议时，问题不在于 AI「疯了」，而是它学到的东西本来就不够专业。而 OpenEvidence 完全走了另一条路，我们的模型不联网，不会去抓取互联网上的内容。我们的数据来源是像《新英格兰医学杂志》这样的顶级医学期刊，我们还和他们建立了战略合作关系。

Pat Grady:《新英格兰医学杂志》一般不会随便授权AI公司使用他们的研究数据吧？

Daniel Nadler:确实不会。据我所知，我们是唯一一家获得授权的 AI 公司。很多 AI 公司都去找他们谈合作，但基本都被拒绝了。

Pat Grady：为什么他们似乎信任 OpenEvidence，而不信任其他公司？你们到底有什么特别的地方，让他们愿意合作？

Daniel Nadler：具体的细节就不展开了，简单来说，很多知名 AI 公司去找《新英格兰医学杂志》，问他们：「我们能用你们的数据来训练模型吗？」结果被直接拒绝了。我不去揣测他们拒绝的具体原因，也不能替他们发言，但总之他们说了「不」。

而我们的情况完全不同，我们压根没去主动找他们，而是他们主动找到我们。怎么回事呢？《新英格兰医学杂志》编辑委员会里的几位重量级人物本身就是 OpenEvidence 的深度用户，他们希望自己常用的工具里能包含他们的内容。

Pat Grady：（笑）

Daniel Nadler：这就是最理想的情况，对吧？所以他们主动找上门来，我们也花了很多时间去打磨合作框架，确保合作方式符合他们的品牌定位，保护他们的学术权威性。毕竟，他们是医学界的「天花板」，是行业顶尖的医学期刊，而且他们是非盈利机构，不是靠商业化赚钱的。就算有人砸再多钱，他们也不会因为钱而轻易妥协。事实上，一些资金雄厚的 AI 公司确实尝试用巨额资金打动他们，但他们依然拒绝了。如果他们是私营企业，可能会接受，但他们是由马萨诸塞州医学会运营的非营利机构，他们更看重自己的学术使命，而不是短期的商业利益。

对 OpenEvidence 来说，这个合作就像是「水到渠成」。杂志社的核心人员本身就是我们的用户，他们用了觉得好，就主动找我们谈合作。如果我们采取传统的企业 SaaS 推广模式，比如先花很长时间去谈医院的大规模合作，等着参加第 17 次会议，还没用户使用，那《新英格兰医学杂志》的人也不会接触到这个产品，更谈不上喜欢上它。最终，我们也不会有这个机会达成合作。

所以，这就形成了一个良性循环：我们把产品免费推出去，让人们自发使用，然后核心用户群里刚好有《新英格兰医学杂志》的重要人物，他们用着觉得不错，就主动找到我们，最终促成了合作。现在，我们的模型可以基于他们完整的数据进行训练，而市场上其他 AI 产品都做不到这一点，我可以很肯定地说，目前 OpenEvidence 是唯一一个完整训练了《新英格兰医学杂志》全文的 AI 产品。

Open 意味着直接触达和信息公平

Pat Grady：刚才聊了「Evidence」这个词的含义，现在来说说「Open」。为什么「Open」这么重要？它意味着什么？

Daniel Nadler：「Open」对我来说，一开始就意味着很多东西，其中最核心的一点是我们的市场策略。它时刻提醒我，OpenEvidence 不是一家传统的企业 SaaS 公司。我的第一家公司就是做企业 SaaS 的，那种模式可以很赚钱，你也很清楚，企业 SaaS 赛道能跑出很多成功的公司。

但在做第二家公司的时候，我不想重复自己，我希望它不仅仅是个有影响力、有使命驱动的公司，还要和我的第一家公司完全不同。所以，我决定不走企业 SaaS 模式，而是直接面向个人用户，或者更准确地说，面向「专业用户」。「Open」这个词，就代表了这种理念：我们直接触达医生，而不是让医院管理层或其他人来做中间商。医生是直接的使用者，他们的痛点很明显——工作负担过重、时间不够、患者太多，还要处理海量的医学信息。我们的目标就是帮他们解决这个问题，让他们更轻松地获取关键信息。

此外，「Open」还代表着医疗信息的公平性。在美国的医疗体系里，资源分配非常不均衡，就像社会其他领域一样，有钱的医院可以买到所有最先进的工具，甚至有预算去试用各种软件，但最终可能真正使用的寥寥无几。如果你让马斯克去审计这些顶级医院的 SaaS 支出，他估计会大跌眼镜——他们买了一堆工具，但真正用的却少之又少。

Pat Grady：是的。

Daniel Nadler：你看，一方面大型医院、研究机构在用高端科技，但另一方面，在美国农村地区，或者一些经济条件较差的城市里，很多医生其实是私人执业，或者是在小型诊所里工作，比如不到 10 人的团队。很多人可能不知道，其实医生也是小企业主，他们不是都在那些资金雄厚的大型医院系统里上班。很多医生是自己开诊所的，就像上世纪 50 年代那样，他们有自己的诊所，可能只有一两个行政助理或者秘书帮忙，剩下的所有事都得自己操心——看病、管理、处理各种行政事务，全都压在他们身上。而且他们没有庞大的科技预算，更别提像大学那种基金会支持了。他们根本负担不起每年 1 万、2 万美元的软件订阅费。

所以，这就是「开放」的意义。我们收到一封来自乔治亚州奥尔巴尼的一位医生的信，他是当地一家癌症中心的主任，同时也是一名社区肿瘤医生。他说 OpenEvidence 已经成为他日常行医的生命线，让他的癌症治疗方式发生了巨大变化。而我对奥尔巴尼并不了解，就上网查了一下，发现这里位于乔治亚州西南部，75% 的人口是非裔美籍，家庭收入中位数是 4.3 万美元/年。

然后我开始拼凑这个医生的处境——他可能是方圆 50 英里内唯一的肿瘤科医生，或者就算有第二个医生，也要服务大范围、经济条件一般的患者。他根本不可能拿出 1 万、2 万美元去订购 SaaS 软件。而这就是「开放」的意义。我们还收到来自阿拉斯加费尔班克斯的一封信，一位医生说她在当地的社区诊所工作，几乎没有机会接触到专科医生。OpenEvidence 让她能够获取专科级别的医学知识，即便她所在的地方根本没有相关的专家资源。

想想这个场景，她在一个小型社区诊所，不是在有充足资金的大医院上班，她根本不可能花大价钱买这些软件。所以，这就是「开放」的意义——它适用于全国的每一位医生。我们很自豪，OpenEvidence 不仅仅被梅奥诊所（美国著名的医疗机构）使用，我们当然很喜欢梅奥诊所，甚至曾在那孵化过一部分产品，很多顶级医院的医生也在用它，但它的价值不仅限于这些精英医疗机构。我们的用户遍布全美，从乡村诊所到城市医院，从梅奥诊所到克利夫兰诊所，甚至在沃尔特·里德国家军事医疗中心，帮助政府为士兵和退伍军人提供治疗，而政府不需要花三年时间走采购流程。

再举个例子，美国退伍军人事务部（VA）是全国最大的医疗系统之一，也是最重要的医疗体系之一，因为它为军人和退伍军人提供治疗。而 VA 采购新技术通常需要三年时间，如果 OpenEvidence 不是开放的，我们可能还在政府的审批流程里徘徊，等着决定 VA 里的医生能不能用它来帮助退伍军人。而现在，我们已经收到来自 VA 医生的信，他们说 OpenEvidence 在关键时刻帮助他们做出治疗决定，改善了退伍军人的护理质量。这让我每天醒来都充满动力。这就是「开放」的意义。

专注小模型，只对医学数据做「JPEG 压缩」

Pat Grady：你们算是为医疗行业打造了一款「杀手级应用」，而且效果很好。我们的很多听众也在做类似的事情，试图用 AI 打造自己的「杀手级应用」。所以，我很好奇，你们是怎么做出来的？它是基于 GPT-3 或 GPT-4 的某种封装吗？背后的技术是什么？能不能讲讲？

Daniel Nadler：我分两部分来讲，一部分是我们是怎么做的，另一部分是对听众来说有哪些可借鉴的地方。我猜很多听众的应用可能不像医疗领域这么特殊，所以也想谈谈更通用的方法。

在医疗领域，我们的解决方式是组建了一支博士级别的科学家团队。我的联合创始人 Zachary Ziegler 是哈佛的计算机科学家，师从 NLP 领域的顶级学者 Alexander Rush。Evan Hernandez 来自 MIT 的 Jacob Andreas 实验室，还有 Eric Lehman 也是 MIT 的。我们招募了一群站在语言模型最前沿的科学家，他们来自当时全球最强的两三所研究机构。

为什么要这么做？因为我们要解决的是医学领域的问题，而这个问题门槛极高、难度极大，当时还没有人真正解决。那些大互联网公司做的医学 AI 产品，早期基本都翻车了，出过不少尴尬的事故，大家应该都记得。所以，我们的策略是结合学术和工程实力来攻克这个问题。我们不仅仅是在做工程实现，还在做原创的研究和知识探索。

当时整个行业的趋势是拼模型规模，所有人都在追求更大的语言模型，比如 DeepMind 出的 Chinchilla 论文*，大家都在讨论「更大、更大、更大」。但我们反其道而行之，我们的思路是——与其追求庞大的通用模型，不如训练更小、更专业化的模型，在特定领域里做到极致。今天这已经成了共识，比如 DeepSeek 也在走类似的路，但在 2022 年那个时候，这并不是显而易见的选择。

*论文地址：https://arxiv.org/abs/2203.15556

我们的模型在通用对话上可能很差，写诗、闲聊这些完全不行，一旦离开医学领域就会崩溃。但在医学领域，它的表现极其精准，效果远超那些大而全的模型。我们以学术的方式去做这件事，发表了论文《我们还需要临床语言模型吗？*》（Do We Still Need Clinical Language Models?）。这篇论文在 2023 年被评为医疗 AI 领域最佳论文，吸引了很多关注。这是行业里第一篇明确提出「在医学领域，小而精的模型比大模型更好」的研究。

*论文地址：https://arxiv.org/abs/2302.08091

现在回头看，大家可能会觉得这个思路很合理，但在当时，行业的主流方向还是规模化扩展。我们的做法类似于 JPEG 压缩，语言模型就像是对世界的「压缩」。关键问题是：你在压缩什么样的「世界」？这又回到了我们之前讨论的公共互联网。

Pat Grady：是的。

Daniel Nadler：如果说大模型是在对整个互联网做「JPEG 压缩」，那它们的训练方式其实就是尽可能多地获取数据，越多越好。那么，所有这些数据从哪来？当然是公共互联网。但就像 Ilya 说的，你到底在压缩什么呢？你压缩的就是整个公共互联网。这也就是为什么 2022 年底、2023 年初的时候，很多大模型的输出会显得有点尴尬，是因为它们的「压缩」方式导致的。

而我们的方法不太一样，我们的目标是「对医学做 JPEG 压缩」。所以，我们的训练数据主要是同行评审的医学文献，以及 FDA（美国食品药品监督管理局）和 CDC（美国疾病控制与预防中心）发布的权威信息。幸运的是，在我们正式和《新英格兰医学杂志》（NEJM）合作之前，我们已经发现了一个关键优势：根据美国版权法，美国政府创作的内容默认属于公共领域。这也是维基百科能够使用大量公共数据的原因之一。

所以，在早期，我们主要利用 Creative Commons（知识共享许可协议）下的公开数据。这个方法不是所有领域都能用，比如法律、会计、税务等很多信息都受保护。但医学领域的很多高质量内容，尤其是 FDA 和 CDC 发布的信息，都是免费的。所以，我们用这些数据做训练，同时规避了版权问题，建立了一个足够好用的系统，让医生可以下载使用。这样，我们就吸引了像《新英格兰医学杂志》这样的机构主动联系合作，最终拿到了更多原本受版权保护的内容。这种「飞轮效应」逐步推动了整个系统的成长。

我们的方式非常技术导向，也非常学术化，主要是因为医学领域的准确性太重要了，不能出错。

专业数据、多模型组合，解决幻觉问题

Pat Grady：对，我正想问你这个问题。现在很多医生在用 OpenEvidence 来做临床决策，那它的「幻觉」（hallucination）问题怎么解决？

Daniel Nadler：是的。而且，顺便说一句，这也是给创业者或者工程师的一点思考，有些应用场景里，幻觉不只是「没那么烦人」，甚至是个「特色功能」。比如 Midjourney，就是个很好的例子。

Pat Grady：对。

Daniel Nadler：Midjourney 其实就是靠「幻觉」做出独特的艺术效果的。所以，有时候，聪明的做法不是把幻觉当成缺陷，而是想办法把它变成优势。说到这，我想到一个可以创业的点子——如果要在金融领域用大模型，那其实可以反过来利用幻觉，把它当成风险管理的工具。

金融行业有一个核心问题就是「黑天鹅事件」（极端低概率但高影响的风险）。传统的计算机系统很难想象这些极端情况，但大模型的「幻觉」能力可能刚好能弥补这个短板。我自己就做过一些实验，把我的投资组合信息喂给模型，然后让它「幻想」可能的风险。它给出的结果有时候让我挺惊讶的，比如我很喜欢英伟达，但模型居然能想到一些我自己完全没考虑过的潜在风险。

所以，大模型的应用才刚刚开始，我们现在也许只开发了 1% 的潜力，还有 99% 的可能性等着被发掘。对于创业者来说，这其实是个巨大的机会。

但回到医学领域，这种做法就完全行不通。我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网，所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法，而是用了多个模型组成的「集成架构」，每个模型负责不同的任务，比如检索、排序等。这样才能达到 OpenEvidence 目前的准确度。

这些模型的「JPEG 压缩」对象，只包含同行评审的医学文献，所以它不会生成超出这些文献的信息。这就解决了一半的问题，而另一半的问题，是让医生能直接查看答案的来源。我们很早就做了这点，甚至比 ChatGPT 还早。我们的系统会提供可追溯的参考文献，医生可以点进去，直接查阅相关研究。这样不仅提升了可信度，还让医生真正能依赖它做决策。

这个方法还意外带来了和医学期刊的双赢合作。我们并不是简单地「压缩」期刊的内容然后输出，而是直接把流量送回期刊网站。结果我们帮助医学期刊获得了数千万次访问量，很多医生因为 OpenEvidence 的推荐，发现了他们本来不会注意到的研究。这就形成了一个良性循环，医学期刊也愿意让我们收录他们的内容，最终受益的是医生和患者。

更有意思的是，很多医学协会也主动找上门来，希望我们能收录他们的指南。这样一来，不仅医生能获得更准确的信息，期刊和协会也能得到更多关注，整个生态都受益。这才是 OpenEvidence 真正的价值所在——它不仅提供了准确的医学信息，还搭建了一个对所有人都有利的知识共享平台。

技术在迭代，但底层逻辑不会变

Pat Grady：Kensho *已经创立十多年了，这些年AI和机器学习的发展突飞猛进。如果我们对比 Kensho 和 OpenEvidence 的底层架构，有多少是一样的？又有哪些不同？其实我想问背后的问题是，一个真正能跑起来的 AI 应用，究竟有多少是靠最近的技术突破？又有多少是建立在传统的工程和机器学习方法之上的？

*Kensho，Daniel Nadler 早年创立的 AI 金融量化分析系统，2008 年被标准普尔以 7 亿美元的价格收购。

Daniel Nadler：Kensho 诞生的时候，根本还没有大语言模型，甚至连小一点的语言模型都没有，还没有 BERT，基本上什么都没有。甚至可以说，那时候连「火」都快没了。

Pat Grady：（笑）

Daniel Nadler：所以很难比较，对吧？当时 Kensho 其实是 NLP 领域的早期尝试。当然，到我把公司卖掉的时候，它已经成熟很多了。但如果你回到 2013 年我刚创立 Kensho 的时候，那和今天完全是两个时代。不过，有一点是相同的：无论做什么AI，底层的基础架构都非常重要。

比如，我们自己训练模型，刚才也聊过这个。即使你不训练自己的模型，只是接一个现成的大模型 API，一旦你的产品做得足够好，流量上来了，它迟早会崩掉。而你肯定希望自己能做到这一步，做到 API 顶不住的程度。而当它真的崩掉的时候，你就需要传统软件工程里那一整套基础设施，必须有非常扎实的工程能力才能支撑起来。

这点 Kensho 和 OpenEvidence 是一样的，因为它们都是高要求的系统。拿金融领域来说，海量资金都是基于这些数据流动的，你不可能让系统在交易过程中突然崩掉。所以这其实是件好事。我觉得，ChatGPT 爆火之后，很多人担心「游戏规则是不是变了？」

Pat Grady：是啊。

Daniel Nadler：但我要说，规则并没有变。技术确实更先进了，这是一个持续发展的过程。技术一直都在进步，比如 1982 到 1987，或者 1993 到 1997，每个时代技术都会比之前更强。这次的进步确实是个飞跃，有非线性的增长，甚至可以说是指数级的提升。是的，Ray Kurzweil 说的都对，他早就预测到了。

但从更宏观的角度看，这仍然是一个循序渐进的过程，就像物理学的定律不会突然改变，哪怕我们在研究光速旅行，从十分之一光速提升到二分之一光速，技术复杂度可能呈指数级增长，但物理定律始终没变。AI 也是一样，它的发展是非线性的，但本质上还是一个连续的过程。所以从工程和创业的角度来看，过去重要的东西今天依然重要。在 Kensho 时代重要的事情，今天在 OpenEvidence 依然重要。

还有一点，团队的水平也很关键。Kensho 和 OpenEvidence 之所以能成功，很大程度上是因为我们找到了非常聪明的人来做这件事。

招聘，只招顶尖人才

Pat Grady：说到团队，你刚才提到了 Zach、Evan、Eric 和 Micah。你是怎么吸引到这些人的？面对那么多选择，他们为什么愿意加入 OpenEvidence？

Daniel Nadler：这个问题 Steve Jobs 早就说过了，虽然已经被说了无数遍，但我也找不到更好的表达方式：顶尖人才只想和顶尖人才共事。

精英人才想要和精英人才待在一起。这就像海豹突击队的 BUD/S（海军海豹突击队的筛选过程）选拔，很多人报名参加，不是因为他们觉得自己一定能成功，而是他们想看看自己能不能跟上队伍。他们想挑战自己，想知道自己的极限在哪。这种心态，从古希腊时代就有了，无论是在战争、工程、体育，还是金融领域，最优秀的人都想知道自己到底有多强，而唯一的方法就是和最优秀的人竞争，看看自己能不能匹配上他们的水平。

所以，这就是我在 Kensho 的做法，而现在在 OpenEvidence 也是一样的，事实证明，这种方式非常有效。虽然现在这个观点可能有点「政治不正确」，但说实话，我就是想找高智商的人，除此之外，我不在乎别的。我不在乎你的背景、长相、身份，我只在乎你是不是一个聪明到极致的人。这就是事实，我也没法掩饰。

回到团队，比如 OpenEvidence 最初的核心成员：Zachary Ziegler、Jonas Wolf、Evan Hernandez、Eric Lehman、Micah Smith，他们几乎都是哈佛或 MIT 的博士。但我要澄清，这不是因为我刻意去这些学校找人，而是因为在 Kensho 的经验让我意识到，如果你让高智商、学习速度极快的人去攻克一个难题，他们的进展会远超一支普通规模大 100 倍的团队。

对所有在听的人来说，最让人安心的一点就是，游戏规则没变。物理定律没变，重要的事情依然重要：顶级团队、高智商人才、高学习能力的人、极度渴望成功的人、强烈的求知欲，这些都还是关键因素。

而当我说「高智商」时，我指的是高神经可塑性（neuroplasticity）。我指的是大脑学习新知识、适应新环境的能力，而不是能多快解开魔方（因为解魔方和 IQ 其实没什么强相关性）。

Pat Grady：你说的是 François Chollet 对智力的定义：能高效习得新技能的能力。

Daniel Nadler：没错。所谓的高智商，就是指能快速吸收、理解、应用全新的知识。而这在任何时代都重要——1000 年前重要，3000 年前也重要，只不过应用的领域不同了。以前是在战争、军事战术、孙子兵法里，现在是在 AI、工程、金融等领域。

我平时喜欢研究军事历史，像克劳塞维茨、马基雅维利、孙子这些经典的战争理论，也研究拿破仑、亚历山大大帝这些历史人物。他们并不是军队里体格最强壮的人，但他们有一个共同点，就是能在瞬息万变的战场上，完全调整自己的思维方式，迅速适应新的战局。

这就是我们现在所说的「神经可塑性」——他们能够在最短的时间内调整自己的认知框架，找到最优解。

过去 3000 年里，人类的活动方式确实变化很大。战争仍然存在，但大多数人已经不再像古希腊城邦时代那样为了生存而战斗。但不变的是，想要取得突破性成功，核心仍然是大脑的学习能力和适应能力。

从商业角度来说，最伟大的公司会出现在应用层

Pat Grady：第一个问题。这个数字肯定没法准确衡量，因为它需要一个「假如没有」的对比场景。但我们猜测，OpenEvidence 的使用方式可能真的在挽救生命，比如帮助医生做出更好的临床决策。那么，我们什么时候可以说 OpenEvidence 已经拯救了一百万条生命？

Daniel Nadler：一百万条生命？这感觉像在做麦肯锡的面试题，需要推理一下，比如说，如果有 15 万或 50 万名医生在用，每个医生每天要看多少病人？其中有多少是危及生命的情况？我是这样想的……

Pat Grady：要不要听听我的算法？

Daniel Nadler：好啊，说说看。

Pat Grady：我的算法是，这取决于数据来源，但每年大约有 30 万到 80 万人死于医疗失误。当然，并不是所有这些死亡都跟医生当场的决策有关，可能还有其他因素。但我们先取 30 万这个低值，再砍一半，得到 15 万。这样算下来，大概 6 年半就能达到一百万的数字。当然，这是在 OpenEvidence 完全普及的情况下，所以再给它几年发展时间，可能 8 到 9 年后，也就是 2034 年 11 月 4 日，我们能达到这个目标。

Daniel Nadler：我打算拿这个当面试题了。

Pat Grady：（笑）行啊，行啊。

Daniel Nadler：我唯一想补充的是，2030 年代，OpenEvidence 可能真的已经拯救了一百万条生命，但这不包括那些因为医生避免了用错药而没有恶化的病人，比如今天有个医生没有给 MS（多发性硬化症）患者开错生物制剂。这样的情况每天都在发生。还有一个医生在罗德岛给我们写信，说他用 OpenEvidence 判断病人症状是否符合肺栓塞，最后发现确实符合，于是立刻送进急诊，救了病人的命。

所以，OpenEvidence 其实已经在救人了，我们知道这点，因为医生告诉了我们。但类似这样的例子很多，有的病人可能只是病情没变严重，或者一些并发症被及时控制。这种影响的规模，早就达到百万级了。

Pat Grady：好的，下一个问题。你觉得大模型会不会变成一个通用的、标准化的商品？

Daniel Nadler：我觉得它们确实在变得越来越强，成本也在下降。而且 Ray Kurzweil 说的基本上都对。所以最前沿的东西不会被「商品化」，因为前沿永远是前沿。但如果说 ChatGPT 刚推出时那种「哇塞」的感觉，它的成本最终会趋近于零。

Pat Grady：对。

Daniel Nadler：这就是为什么我觉得，真正有趣的商业机会不在底层大模型，而是在应用层面。当然，在大模型层面依然有很多学术上、科学上的突破，但从商业角度来说，最伟大的公司会出现在应用层。

Pat Grady：总结得很好。那 AGI（通用人工智能）呢？你觉得它已经实现了吗？或者什么时候会实现？

Daniel Nadler：我觉得我们已经实现了，只是大家一直在改定义。图灵测试？我们早就通过了。然后大家又说，AGI 需要在多个领域达到高中生水平？好了，现在也达到了。再后来变成「AGI 需要大学生水平」？这个也实现了。现在有人说，要在所有学科都达到博士水平，这才是 AGI。等到真的实现了，人们可能又会说：「不行，AGI 其实是要有『意识』。」

其实大家真正想问的是：AI 什么时候会有自我意识？什么时候能像电影里那样变得「觉醒」？但问题是，我不确定这种「意识」到底是不是神经网络到一定复杂度后自然涌现的东西。这其实是一个哲学问题。

Pat Grady：明白，那如果让你推荐AI相关的内容，不包括这个播客，你会推荐什么？

Daniel Nadler：《Understand》（中文名《领悟），Ted Chiang（特德·姜）的小说。

Pat Grady：为什么？

Daniel Nadler：我不想剧透，你自己去体验吧。Ted Chiang 是最伟大的科幻作家之一，他写过《降临》（电影原作）。《Understand》是他 90 年代初写的，完美展现了「智能指数级增长」是什么感觉。

大多数人可能会期待我推荐一本非虚构书籍，比如去读 Chinchilla 论文之类的。但如果你想真正理解，我们这个时代正在发生的事情，这本小说能从叙事角度捕捉到那种加速感。

Pat Grady：最后一个问题。你觉得AI在未来 20 年里最积极、最正面的影响会是什么？它会如何让我们的生活变得更好？

Daniel Nadler：我必须说，是「个性化医疗」。

个性化医疗一直是「明天的事」，就像量子计算、核聚变，感觉总是快实现了但又差点意思。不过实际上，我们刚才聊的 OpenEvidence，本质上已经是个性化医疗的起点了，比如针对某个病人特定的并发症来推荐合适的生物制剂。但这只是冰山一角。

我认为，再过 10 年，不管是 OpenEvidence 还是其他 AI，都会把病人的所有具体情况与全球所有相关医学知识进行匹配，形成一个超个性化的治疗方案。到那时候，可能 120 岁、130 岁都不再是人类寿命的上限了。

然后我们就会进入像忒修斯之船的哲学悖论：如果你不断替换自己身体的「木板」，到最后你身体里没有一块是原来的了，但你的记忆、情感、身份都还在——那么，你还是你吗？

我是个乐观主义者，我相信人类生物学是可以被「拆解重建」的。我觉得，这种「忒修斯之船式的医学」就在不远的未来。而 AI，正是推动它实现的关键。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.