网易首页 > 网易号 > 正文 申请入驻

AI医疗独角兽OpenEvidence:1/4的美国医生都在用,像互联网产品一样做AI医疗

0
分享至

AI 医疗公司 OpenEvidence 在 2 月份获得红杉资本新一轮的 7500 万美元融资,估值超过 10 亿美元,成为了新的 AI 独角兽。

更为耀眼的是它的用户数据,官方声称,1/4 的美国用户医生已经在使用 OpenEvidence 的工具。

「如果算上所有活跃用户,每月有 30-40 万人接触我们的系统,其中 20 多万医生会登录并提问。换句话说,美国大约 10%-25% 的医生,已经在某种程度上使用 OpenEvidence 了。」

成立于 2021 年,OpenEvidence 专注于提供专业的 AI 医学知识助手,向所有医生免费开放,通过广告产生收入,产品迅速实现了自发传播,并与《新英格兰医学杂志》等出版机构达成战略合作。

这种增长方式也是红杉投资决策的关键因素。红杉合伙人 Pat Grady 领导了这一轮投资,他认为 OpenEvidence 的采用与消费者互联网产品的传播方式相似。「没有多少医疗工具能像消费者应用程序那样传播,但这是其中之一。」

创始人 Daniel Nadler 最近参与红杉资本的播客节目,对于 AI 医疗产品的落地、增长,以及如何做没有幻觉的 AI 模型,输出了很多干货信息。Founder Park 基于播客节目整理了文章。

Key Message:

  • 传统上,医疗 AI 产品往往需要通过医院或其他机构的审批,而 OpenEvidence 直接面向医生,让他们能快速获取最新医学知识。这种方式让产品更快得到广泛应用。

  • 医生也是普通人,医生也是消费者。如果你做出一个足够好的产品,能够真正改变他们的工作方式,甚至改变整个行业,然后直接放在 AppStore 上,但真的有效。

  • 除了工作时间长、医学院的高强度学习,还有医生人数本来就不够,他们还要面对一个极大的挑战——医学知识的更新速度太快,大约每五年翻一倍,根本跟不上。

  • 但对医生来说,几乎所有情况都是特殊案例,都属于「边缘情况」。医生的日常工作,就是不停地查找这些特殊案例对应的解决方案。

  • 我们的目标是「对医学做 JPEG 压缩」。所以,我们的训练数据主要是同行评审的医学文献,以及 FDA(美国食品药品监督管理局)和 CDC(美国疾病控制与预防中心)发布的权威信息。

  • 我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网,所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法,而是用了多个模型组成的「集成架构」,每个模型负责不同的任务

  • 虽然已经被说了无数遍,但我也找不到更好的表达方式:顶尖人才只想和顶尖人才共事。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~

进群之后,你有机会得到:

  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。

01医生当作普通消费者,不去攻略医院高层

Pat Grady: 目前有多少医生会使用 OpenEvidence?

Daniel Nadler:现在大概有 10 万名美国医生在用,还有一些来自全球其他地方的用户。

Pat Grady: 那一年前呢?

Daniel Nadler:可能才一千人,甚至更少。其实很多人可能不知道,美国大约有 100 万名医生,要为 3.4 亿人口提供医疗服务。这本身就是个值得讨论的问题。而在这 100 万名医生中,如今大概有 10 万人每个月会使用 OpenEvidence。

如果算上所有活跃用户,每月有 30-40 万人接触我们的系统,其中 20 多万医生会登录并提问。换句话说,美国大约 10%-25% 的医生,已经在某种程度上使用 OpenEvidence 了。

Pat Grady: Sequoia 主要投资科技行业,而不是医疗行业。但据我了解,在医疗领域,10 万名医生短时间内开始使用一个新产品,是非常不寻常的。一般来说,医疗行业的增长速度没这么快。你们到底做对了什么?

Daniel Nadler:这也是我们合作愉快的原因——因为你们不是传统的医疗投资人,而我们的做法也不是典型的医疗行业做法。我们的关键点在于,我们认识到——医生也是普通人,医生也是消费者。

事实上,每个人都是消费者。而你们的投资策略也抓住了这一点,你们不会把「消费者互联网」单独当成一类,然后把医疗行业归为一个独立、封闭、难以渗透的领域。你们把所有行业都用互联网的增长曲线来看待,我们的思路也是一样的。

如果你从「自上而下」的方式入手,比如很多人说医疗行业很难进入,做医疗创业太难了,别去碰这个行业……

Pat Grady:其实,从过往的案例来看,这种说法也不是没有道理。

Daniel Nadler:没错。因为大家的思路都一样——他们都在用同样的方式「撞墙」。他们想办法去找某个大型医疗集团的高层,比如首席医疗信息官(CMIO)或者首席技术官(CTO),然后想方设法约个会,争取见上一面。

哪怕他们人脉再广,光是把这场会议安排上,就得等三四个月。等终于开上第一场会,他们会兴奋地击掌:「太棒了!反馈很好!」

然后呢?然后他们要安排第二场会,可能是跟医院的「AI 委员会」开会。这又得等三个月。等到真的去开会了,这期间医院的 AI 策略可能已经变了,政策环境可能也变了,甚至美国总统换了,新政府突然有了新的 AI 监管要求。于是会议又被推迟,一年过去了,他们可能还在第三、第四场会议的路上。而真正需要这个工具的医生呢?在这个过程中,他们根本没机会用上。

我在这方面有很多经验——这已经不是我第一次创业了。在创办 OpenEvidence 之前,我已经成功卖掉了一家 AI 公司。

Daniel Nadler:我对美国大公司的运作方式再熟悉不过了。这不只是医疗行业的问题,所有大机构运作起来都差不多。我很清楚这个套路,知道它行不通。尤其是对我来说,这是我的第二家公司,我想做的不是一场漫长的审批马拉松,而是真正让医生用得上的产品。如果我花几年时间做了一家「有使命感、有影响力」的医疗AI公司,结果医生根本没法用,那还有什么意义?

所以我们选择了完全不同的方式。医生也是普通人,医生也是消费者。如果你做出一个足够好的产品,能够真正改变他们的工作方式,甚至改变整个行业,然后直接放在 AppStore 上——这听起来像是创业入门课 101 的内容,但真的有效。

我们就是这么做的。我们没有烧钱做市场推广,也没有铺天盖地的广告,一切都是医生之间的「口口相传」。当医生觉得这个工具真的好用,他们就会告诉身边的同行。然后越来越多人开始用,形成了自然的增长。

这种增长模式和特斯拉早期的策略很像。特斯拉一开始几乎不做广告,而当时汽车广告是整个广告行业的重头戏。大家都觉得,要想卖车,必须砸大钱做广告。但特斯拉说:「我们就做一款超级棒的车,让用户自己去传播。开过的人会觉得『天呐,这比其他车好太多了!』然后主动推荐给别人。」

同样的事情发生在 OpenEvidence 身上。医生从 App Store 下载试用,觉得好用就推荐给同行。一年前,可能只有几百上千人用它;今天,已经有几十万医生在用了。大概占美国所有执业医生的 10% -25%。具体比例取决于计算方式,因为拿到行医执照的医生比真正活跃执业的医生多,但即使按最低标准计算,OpenEvidence 也已经覆盖了 10% 以上的美国医生。而这一切,完全是靠产品口碑驱动的。

Pat Grady:大家可能很容易理解「什么是好车」,但「什么是医生需要的好应用」可能就没那么直观了。

Daniel Nadler:没错。

02

医学知识增长速度太快,医生根本跟不上

Pat Grady:医生们到底在这个应用里干嘛?他们为什么这么喜欢它?

Daniel Nadler:我觉得一款产品好不好,最核心的一点就是它能不能真正解决问题。很多科技产品其实是「先有解决方案,再找问题」,但真正好的产品必须从实际痛点出发,提供真正有效的解决方案。那么,做医生最难的是什么?

除了工作时间长、医学院的高强度学习,还有医生人数本来就不够,他们还要面对一个极大的挑战——医学知识的更新速度太快,像消防水管喷涌而出的信息流,根本跟不上。

很多人没意识到这个问题,但实际上,每分钟就有两篇新的医学论文发表,一天 24 小时不间断,一周七天都如此。Nature 曾经有篇研究表明,医学知识每 73 天就翻一倍。当然,这个算法可能有点激进,我们在 OpenEvidence 内部做了一次更保守的测算,结果是大约每五年翻一倍。这里的统计方式很关键,比如如果把所有的引用都算进去,可能就会得出 73 天这个结果。但医学研究并不是所有论文的质量都一样,真正对医生有用的,往往是顶尖的期刊,比如影响因子最高的前三分之一的期刊。即便只看这些,医学知识每五年就翻一倍。

如果你稍微算一下,就会发现这意味着什么:1950 年,医学知识大约 50 年翻一倍,而现在是 5 年。换句话说,在 1950 年,一个医生从医学院毕业,他学到的知识在整个职业生涯中还能管用。到他退休时,可能有一半的知识过时了,但影响不大,因为他的职业生涯也差不多结束了。而且那时候的医学进展也没那么快,所以医生还能靠日常学习慢慢跟上。

但今天情况完全不同了。医生还没等到完成住院医师或进修医师培训,他们在医学院学到的内容就已经有一半过时了。医学教育曾经是医生获取知识的主要方式,但现在,它能支撑医生知识面的时间可能只有几年。

举个例子,假设一个银屑病患者去看皮肤科医生。理论上,医生可以查阅最新的生物制剂研究,挑选最安全、最有效的治疗方案。但问题是,皮肤科医生可能会关注皮肤病相关的医学期刊,但如果这个患者同时患有多发性硬化症(MS),那情况就复杂了。MS 主要属于神经科的研究范畴,指望皮肤科医生把所有的神经科期刊也都看完,显然不现实。更别说不同疾病之间的交叉领域,信息量更是庞大。

在这种情况下,医生就很难办。一方面,他们不能随便给患者开药,万一药物影响了 MS 的病情怎么办?另一方面,他们也不能什么都不做,因为风险不明确就不治疗银屑病,这对患者的生活质量影响很大。他们需要找到最靠谱的最新研究,比如 IL-17 和 IL-23 抑制剂的疗效和安全性,尤其是针对同时患有 MS 的患者。

在 OpenEvidence 之前,医生要查这些信息特别费劲。去 Google 搜?搜不到有用的信息。去 PubMed 查?最多就是给你一堆论文标题,但你要的并不是一篇通用的综述论文,而是一个非常具体的问题:对既有银屑病又有 MS 的患者,IL-17 抑制剂和 IL-23 抑制剂哪个更安全?哪个更有效?

这就是 OpenEvidence 存在的意义——让医生可以快速找到最新、最准确的医学证据。像这样的问题,并不是个例,而是每天都会发生的情况。医学涉及的领域太广了,每一个病例几乎都是一个「边缘案例」,需要医生在大量信息中寻找最相关的答案。

Pat Grady:是的。

Daniel Nadler:从工程的角度来看,医学的复杂度可以说是无限大的。虽然不是真正的「无限」,但对医生来说,几乎所有情况都是特殊案例,都属于「边缘情况」。医生的日常工作,就是不停地查找这些特殊案例对应的解决方案。换句话说,如果你能帮助医生更高效地找到这些罕见病例的参考资料,比如在顶级医学期刊里找到关于银屑病合并多发性硬化症患者,IL-17 和 IL-23 抑制剂安全性比较的研究,那么你就大大改善了医生的工作体验。更重要的是,这样还能提高患者的治疗效果,避免因为医生不知道「IL-17 对银屑病效果很好,但对有多发性硬化症的患者来说,IL-23 其实更安全」这样的关键信息,而导致病情恶化。

医生之所以可能不知道这些信息,并不是他们的问题,而是因为在他们上医学院的时候,这些研究根本还不存在。像 IL-23 抑制剂,2017 到 2019 年才出现,就算是现在还很年轻的医生,读书时也没学过这些新知识。他们只能在毕业后自己去追踪最新的研究。但问题是,这种「边缘情况」太多了,每一个这样的案例背后,可能还有成千上万个类似的情况需要关注。在有 OpenEvidence 之前,医生要想随时跟上这些更新,几乎是不可能的,而这就可能影响到患者的治疗效果。

很多医生用 OpenEvidence 后告诉我们,他们会用它来查找那些自己一辈子可能只遇到一两次的病例。而当越来越多医生都这样说,涉及的病例各不相同时,我们就意识到,医学知识的「长尾」有多么惊人——虽然没有真正无限长,但对人脑来说,已经复杂到几乎无法完全掌握。而 OpenEvidence 的作用,就是帮助医生在这条漫长的「长尾」里,精准找到他们需要的知识。

Pat Grady:医学知识增长的速度非常快,这本来是件好事,但问题在于,医生的学习能力是有限的,无法完全消化这些海量的新信息。就像一个不断被装满的桶,里面的「潜在能量」很大,但没法顺利转化成「动能」,因为医生无法高效地吸收和应用这些信息。AI 擅长处理海量文本、进行推理,所以 AI 的出现正好可以解决这个问题,把这些医学知识转化成医生真正可用的工具。

03

把不抓取互联网信息,只从专业渠道获取内容

Pat Grady: 那么,OpenEvidence 这个名字里的「Evidence」到底指的是什么?

Daniel Nadler:简单来说,OpenEvidence 的「evidence」就是经过同行评审的医学文献。更重要的是,我们要明确它不是什么。过去很多大公司尝试用 AI 做医学应用,但最后「翻车」了,其中一个重要原因就是它们的数据来源有问题——它们直接从网上抓取信息,比如各种健康博客,甚至是社交媒体上的帖子。而这些内容的作者,大多数既不是医生,也没有医学背景,很多人同时还写旅游攻略、做美食博客,真正的专业知识有限。

问题是,AI 学习的内容就是这些博客里的信息,所以当大模型在早期阶段输出一些荒谬的医学建议时,问题不在于 AI「疯了」,而是它学到的东西本来就不够专业。而 OpenEvidence 完全走了另一条路,我们的模型不联网,不会去抓取互联网上的内容。我们的数据来源是像《新英格兰医学杂志》这样的顶级医学期刊,我们还和他们建立了战略合作关系。

Pat Grady:《新英格兰医学杂志》一般不会随便授权AI公司使用他们的研究数据吧?

Daniel Nadler:确实不会。据我所知,我们是唯一一家获得授权的 AI 公司。很多 AI 公司都去找他们谈合作,但基本都被拒绝了。

Pat Grady:为什么他们似乎信任 OpenEvidence,而不信任其他公司?你们到底有什么特别的地方,让他们愿意合作?

Daniel Nadler:具体的细节就不展开了,简单来说,很多知名 AI 公司去找《新英格兰医学杂志》,问他们:「我们能用你们的数据来训练模型吗?」结果被直接拒绝了。我不去揣测他们拒绝的具体原因,也不能替他们发言,但总之他们说了「不」。

而我们的情况完全不同,我们压根没去主动找他们,而是他们主动找到我们。怎么回事呢?《新英格兰医学杂志》编辑委员会里的几位重量级人物本身就是 OpenEvidence 的深度用户,他们希望自己常用的工具里能包含他们的内容。

Pat Grady:(笑)

Daniel Nadler:这就是最理想的情况,对吧?所以他们主动找上门来,我们也花了很多时间去打磨合作框架,确保合作方式符合他们的品牌定位,保护他们的学术权威性。毕竟,他们是医学界的「天花板」,是行业顶尖的医学期刊,而且他们是非盈利机构,不是靠商业化赚钱的。就算有人砸再多钱,他们也不会因为钱而轻易妥协。事实上,一些资金雄厚的 AI 公司确实尝试用巨额资金打动他们,但他们依然拒绝了。如果他们是私营企业,可能会接受,但他们是由马萨诸塞州医学会运营的非营利机构,他们更看重自己的学术使命,而不是短期的商业利益。

对 OpenEvidence 来说,这个合作就像是「水到渠成」。杂志社的核心人员本身就是我们的用户,他们用了觉得好,就主动找我们谈合作。如果我们采取传统的企业 SaaS 推广模式,比如先花很长时间去谈医院的大规模合作,等着参加第 17 次会议,还没用户使用,那《新英格兰医学杂志》的人也不会接触到这个产品,更谈不上喜欢上它。最终,我们也不会有这个机会达成合作。

所以,这就形成了一个良性循环:我们把产品免费推出去,让人们自发使用,然后核心用户群里刚好有《新英格兰医学杂志》的重要人物,他们用着觉得不错,就主动找到我们,最终促成了合作。现在,我们的模型可以基于他们完整的数据进行训练,而市场上其他 AI 产品都做不到这一点,我可以很肯定地说,目前 OpenEvidence 是唯一一个完整训练了《新英格兰医学杂志》全文的 AI 产品。

04

Open 意味着直接触达和信息公平

Pat Grady:刚才聊了「Evidence」这个词的含义,现在来说说「Open」。为什么「Open」这么重要?它意味着什么?

Daniel Nadler:「Open」对我来说,一开始就意味着很多东西,其中最核心的一点是我们的市场策略。它时刻提醒我,OpenEvidence 不是一家传统的企业 SaaS 公司。我的第一家公司就是做企业 SaaS 的,那种模式可以很赚钱,你也很清楚,企业 SaaS 赛道能跑出很多成功的公司。

但在做第二家公司的时候,我不想重复自己,我希望它不仅仅是个有影响力、有使命驱动的公司,还要和我的第一家公司完全不同。所以,我决定不走企业 SaaS 模式,而是直接面向个人用户,或者更准确地说,面向「专业用户」。「Open」这个词,就代表了这种理念:我们直接触达医生,而不是让医院管理层或其他人来做中间商。医生是直接的使用者,他们的痛点很明显——工作负担过重、时间不够、患者太多,还要处理海量的医学信息。我们的目标就是帮他们解决这个问题,让他们更轻松地获取关键信息。

此外,「Open」还代表着医疗信息的公平性。在美国的医疗体系里,资源分配非常不均衡,就像社会其他领域一样,有钱的医院可以买到所有最先进的工具,甚至有预算去试用各种软件,但最终可能真正使用的寥寥无几。如果你让马斯克去审计这些顶级医院的 SaaS 支出,他估计会大跌眼镜——他们买了一堆工具,但真正用的却少之又少。

Pat Grady:是的。

Daniel Nadler:你看,一方面大型医院、研究机构在用高端科技,但另一方面,在美国农村地区,或者一些经济条件较差的城市里,很多医生其实是私人执业,或者是在小型诊所里工作,比如不到 10 人的团队。很多人可能不知道,其实医生也是小企业主,他们不是都在那些资金雄厚的大型医院系统里上班。很多医生是自己开诊所的,就像上世纪 50 年代那样,他们有自己的诊所,可能只有一两个行政助理或者秘书帮忙,剩下的所有事都得自己操心——看病、管理、处理各种行政事务,全都压在他们身上。而且他们没有庞大的科技预算,更别提像大学那种基金会支持了。他们根本负担不起每年 1 万、2 万美元的软件订阅费。

所以,这就是「开放」的意义。我们收到一封来自乔治亚州奥尔巴尼的一位医生的信,他是当地一家癌症中心的主任,同时也是一名社区肿瘤医生。他说 OpenEvidence 已经成为他日常行医的生命线,让他的癌症治疗方式发生了巨大变化。而我对奥尔巴尼并不了解,就上网查了一下,发现这里位于乔治亚州西南部,75% 的人口是非裔美籍,家庭收入中位数是 4.3 万美元/年。

然后我开始拼凑这个医生的处境——他可能是方圆 50 英里内唯一的肿瘤科医生,或者就算有第二个医生,也要服务大范围、经济条件一般的患者。他根本不可能拿出 1 万、2 万美元去订购 SaaS 软件。而这就是「开放」的意义。我们还收到来自阿拉斯加费尔班克斯的一封信,一位医生说她在当地的社区诊所工作,几乎没有机会接触到专科医生。OpenEvidence 让她能够获取专科级别的医学知识,即便她所在的地方根本没有相关的专家资源。

想想这个场景,她在一个小型社区诊所,不是在有充足资金的大医院上班,她根本不可能花大价钱买这些软件。所以,这就是「开放」的意义——它适用于全国的每一位医生。我们很自豪,OpenEvidence 不仅仅被梅奥诊所(美国著名的医疗机构)使用,我们当然很喜欢梅奥诊所,甚至曾在那孵化过一部分产品,很多顶级医院的医生也在用它,但它的价值不仅限于这些精英医疗机构。我们的用户遍布全美,从乡村诊所到城市医院,从梅奥诊所到克利夫兰诊所,甚至在沃尔特·里德国家军事医疗中心,帮助政府为士兵和退伍军人提供治疗,而政府不需要花三年时间走采购流程。

再举个例子,美国退伍军人事务部(VA)是全国最大的医疗系统之一,也是最重要的医疗体系之一,因为它为军人和退伍军人提供治疗。而 VA 采购新技术通常需要三年时间,如果 OpenEvidence 不是开放的,我们可能还在政府的审批流程里徘徊,等着决定 VA 里的医生能不能用它来帮助退伍军人。而现在,我们已经收到来自 VA 医生的信,他们说 OpenEvidence 在关键时刻帮助他们做出治疗决定,改善了退伍军人的护理质量。这让我每天醒来都充满动力。这就是「开放」的意义。

05

专注小模型,只对医学数据做「JPEG 压缩」

Pat Grady:你们算是为医疗行业打造了一款「杀手级应用」,而且效果很好。我们的很多听众也在做类似的事情,试图用 AI 打造自己的「杀手级应用」。所以,我很好奇,你们是怎么做出来的?它是基于 GPT-3 或 GPT-4 的某种封装吗?背后的技术是什么?能不能讲讲?

Daniel Nadler:我分两部分来讲,一部分是我们是怎么做的,另一部分是对听众来说有哪些可借鉴的地方。我猜很多听众的应用可能不像医疗领域这么特殊,所以也想谈谈更通用的方法。

在医疗领域,我们的解决方式是组建了一支博士级别的科学家团队。我的联合创始人 Zachary Ziegler 是哈佛的计算机科学家,师从 NLP 领域的顶级学者 Alexander Rush。Evan Hernandez 来自 MIT 的 Jacob Andreas 实验室,还有 Eric Lehman 也是 MIT 的。我们招募了一群站在语言模型最前沿的科学家,他们来自当时全球最强的两三所研究机构。

为什么要这么做?因为我们要解决的是医学领域的问题,而这个问题门槛极高、难度极大,当时还没有人真正解决。那些大互联网公司做的医学 AI 产品,早期基本都翻车了,出过不少尴尬的事故,大家应该都记得。所以,我们的策略是结合学术和工程实力来攻克这个问题。我们不仅仅是在做工程实现,还在做原创的研究和知识探索。

当时整个行业的趋势是拼模型规模,所有人都在追求更大的语言模型,比如 DeepMind 出的 Chinchilla 论文*,大家都在讨论「更大、更大、更大」。但我们反其道而行之,我们的思路是——与其追求庞大的通用模型,不如训练更小、更专业化的模型,在特定领域里做到极致。今天这已经成了共识,比如 DeepSeek 也在走类似的路,但在 2022 年那个时候,这并不是显而易见的选择。

*论文地址:https://arxiv.org/abs/2203.15556

我们的模型在通用对话上可能很差,写诗、闲聊这些完全不行,一旦离开医学领域就会崩溃。但在医学领域,它的表现极其精准,效果远超那些大而全的模型。我们以学术的方式去做这件事,发表了论文《我们还需要临床语言模型吗?*》(Do We Still Need Clinical Language Models?)。这篇论文在 2023 年被评为医疗 AI 领域最佳论文,吸引了很多关注。这是行业里第一篇明确提出「在医学领域,小而精的模型比大模型更好」的研究。

*论文地址:https://arxiv.org/abs/2302.08091

现在回头看,大家可能会觉得这个思路很合理,但在当时,行业的主流方向还是规模化扩展。我们的做法类似于 JPEG 压缩,语言模型就像是对世界的「压缩」。关键问题是:你在压缩什么样的「世界」?这又回到了我们之前讨论的公共互联网。

Pat Grady:是的。

Daniel Nadler:如果说大模型是在对整个互联网做「JPEG 压缩」,那它们的训练方式其实就是尽可能多地获取数据,越多越好。那么,所有这些数据从哪来?当然是公共互联网。但就像 Ilya 说的,你到底在压缩什么呢?你压缩的就是整个公共互联网。这也就是为什么 2022 年底、2023 年初的时候,很多大模型的输出会显得有点尴尬,是因为它们的「压缩」方式导致的。

而我们的方法不太一样,我们的目标是「对医学做 JPEG 压缩」。所以,我们的训练数据主要是同行评审的医学文献,以及 FDA(美国食品药品监督管理局)和 CDC(美国疾病控制与预防中心)发布的权威信息。幸运的是,在我们正式和《新英格兰医学杂志》(NEJM)合作之前,我们已经发现了一个关键优势:根据美国版权法,美国政府创作的内容默认属于公共领域。这也是维基百科能够使用大量公共数据的原因之一。

所以,在早期,我们主要利用 Creative Commons(知识共享许可协议)下的公开数据。这个方法不是所有领域都能用,比如法律、会计、税务等很多信息都受保护。但医学领域的很多高质量内容,尤其是 FDA 和 CDC 发布的信息,都是免费的。所以,我们用这些数据做训练,同时规避了版权问题,建立了一个足够好用的系统,让医生可以下载使用。这样,我们就吸引了像《新英格兰医学杂志》这样的机构主动联系合作,最终拿到了更多原本受版权保护的内容。这种「飞轮效应」逐步推动了整个系统的成长。

我们的方式非常技术导向,也非常学术化,主要是因为医学领域的准确性太重要了,不能出错。

06

专业数据、多模型组合,解决幻觉问题

Pat Grady:对,我正想问你这个问题。现在很多医生在用 OpenEvidence 来做临床决策,那它的「幻觉」(hallucination)问题怎么解决?

Daniel Nadler:是的。而且,顺便说一句,这也是给创业者或者工程师的一点思考,有些应用场景里,幻觉不只是「没那么烦人」,甚至是个「特色功能」。比如 Midjourney,就是个很好的例子。

Pat Grady:对。

Daniel Nadler:Midjourney 其实就是靠「幻觉」做出独特的艺术效果的。所以,有时候,聪明的做法不是把幻觉当成缺陷,而是想办法把它变成优势。说到这,我想到一个可以创业的点子——如果要在金融领域用大模型,那其实可以反过来利用幻觉,把它当成风险管理的工具。

金融行业有一个核心问题就是「黑天鹅事件」(极端低概率但高影响的风险)。传统的计算机系统很难想象这些极端情况,但大模型的「幻觉」能力可能刚好能弥补这个短板。我自己就做过一些实验,把我的投资组合信息喂给模型,然后让它「幻想」可能的风险。它给出的结果有时候让我挺惊讶的,比如我很喜欢英伟达,但模型居然能想到一些我自己完全没考虑过的潜在风险。

所以,大模型的应用才刚刚开始,我们现在也许只开发了 1% 的潜力,还有 99% 的可能性等着被发掘。对于创业者来说,这其实是个巨大的机会。

但回到医学领域,这种做法就完全行不通。我们解决幻觉的方法就是彻底避免让 OpenEvidence 连接到公共互联网,所有训练数据都必须是经过同行评审的医学研究。而且我们也不像那些只靠一个大模型的做法,而是用了多个模型组成的「集成架构」,每个模型负责不同的任务,比如检索、排序等。这样才能达到 OpenEvidence 目前的准确度。

这些模型的「JPEG 压缩」对象,只包含同行评审的医学文献,所以它不会生成超出这些文献的信息。这就解决了一半的问题,而另一半的问题,是让医生能直接查看答案的来源。我们很早就做了这点,甚至比 ChatGPT 还早。我们的系统会提供可追溯的参考文献,医生可以点进去,直接查阅相关研究。这样不仅提升了可信度,还让医生真正能依赖它做决策。

这个方法还意外带来了和医学期刊的双赢合作。我们并不是简单地「压缩」期刊的内容然后输出,而是直接把流量送回期刊网站。结果我们帮助医学期刊获得了数千万次访问量,很多医生因为 OpenEvidence 的推荐,发现了他们本来不会注意到的研究。这就形成了一个良性循环,医学期刊也愿意让我们收录他们的内容,最终受益的是医生和患者。

更有意思的是,很多医学协会也主动找上门来,希望我们能收录他们的指南。这样一来,不仅医生能获得更准确的信息,期刊和协会也能得到更多关注,整个生态都受益。这才是 OpenEvidence 真正的价值所在——它不仅提供了准确的医学信息,还搭建了一个对所有人都有利的知识共享平台。

07

技术在迭代,但底层逻辑不会变

Pat Grady:Kensho *已经创立十多年了,这些年AI机器学习的发展突飞猛进。如果我们对比 Kensho 和 OpenEvidence 的底层架构,有多少是一样的?又有哪些不同?其实我想问背后的问题是,一个真正能跑起来的 AI 应用,究竟有多少是靠最近的技术突破?又有多少是建立在传统的工程和机器学习方法之上的?

*Kensho,Daniel Nadler 早年创立的 AI 金融量化分析系统,2008 年被标准普尔以 7 亿美元的价格收购。

Daniel Nadler:Kensho 诞生的时候,根本还没有大语言模型,甚至连小一点的语言模型都没有,还没有 BERT,基本上什么都没有。甚至可以说,那时候连「火」都快没了。

Pat Grady:(笑)

Daniel Nadler:所以很难比较,对吧?当时 Kensho 其实是 NLP 领域的早期尝试。当然,到我把公司卖掉的时候,它已经成熟很多了。但如果你回到 2013 年我刚创立 Kensho 的时候,那和今天完全是两个时代。不过,有一点是相同的:无论做什么AI,底层的基础架构都非常重要

比如,我们自己训练模型,刚才也聊过这个。即使你不训练自己的模型,只是接一个现成的大模型 API,一旦你的产品做得足够好,流量上来了,它迟早会崩掉。而你肯定希望自己能做到这一步,做到 API 顶不住的程度。而当它真的崩掉的时候,你就需要传统软件工程里那一整套基础设施,必须有非常扎实的工程能力才能支撑起来。

这点 Kensho 和 OpenEvidence 是一样的,因为它们都是高要求的系统。拿金融领域来说,海量资金都是基于这些数据流动的,你不可能让系统在交易过程中突然崩掉。所以这其实是件好事。我觉得,ChatGPT 爆火之后,很多人担心「游戏规则是不是变了?」

Pat Grady:是啊。

Daniel Nadler:但我要说,规则并没有变。技术确实更先进了,这是一个持续发展的过程。技术一直都在进步,比如 1982 到 1987,或者 1993 到 1997,每个时代技术都会比之前更强。这次的进步确实是个飞跃,有非线性的增长,甚至可以说是指数级的提升。是的,Ray Kurzweil 说的都对,他早就预测到了。

但从更宏观的角度看,这仍然是一个循序渐进的过程,就像物理学的定律不会突然改变,哪怕我们在研究光速旅行,从十分之一光速提升到二分之一光速,技术复杂度可能呈指数级增长,但物理定律始终没变。AI 也是一样,它的发展是非线性的,但本质上还是一个连续的过程。所以从工程和创业的角度来看,过去重要的东西今天依然重要。在 Kensho 时代重要的事情,今天在 OpenEvidence 依然重要。

还有一点,团队的水平也很关键。Kensho 和 OpenEvidence 之所以能成功,很大程度上是因为我们找到了非常聪明的人来做这件事。

08

招聘,只招顶尖人才

Pat Grady:说到团队,你刚才提到了 Zach、Evan、Eric 和 Micah。你是怎么吸引到这些人的?面对那么多选择,他们为什么愿意加入 OpenEvidence?

Daniel Nadler:这个问题 Steve Jobs 早就说过了,虽然已经被说了无数遍,但我也找不到更好的表达方式:顶尖人才只想和顶尖人才共事。

精英人才想要和精英人才待在一起。这就像海豹突击队的 BUD/S(海军海豹突击队的筛选过程)选拔,很多人报名参加,不是因为他们觉得自己一定能成功,而是他们想看看自己能不能跟上队伍。他们想挑战自己,想知道自己的极限在哪。这种心态,从古希腊时代就有了,无论是在战争、工程、体育,还是金融领域,最优秀的人都想知道自己到底有多强,而唯一的方法就是和最优秀的人竞争,看看自己能不能匹配上他们的水平。

所以,这就是我在 Kensho 的做法,而现在在 OpenEvidence 也是一样的,事实证明,这种方式非常有效。虽然现在这个观点可能有点「政治不正确」,但说实话,我就是想找高智商的人,除此之外,我不在乎别的。我不在乎你的背景、长相、身份,我只在乎你是不是一个聪明到极致的人。这就是事实,我也没法掩饰。

回到团队,比如 OpenEvidence 最初的核心成员:Zachary Ziegler、Jonas Wolf、Evan Hernandez、Eric Lehman、Micah Smith,他们几乎都是哈佛或 MIT 的博士。但我要澄清,这不是因为我刻意去这些学校找人,而是因为在 Kensho 的经验让我意识到,如果你让高智商、学习速度极快的人去攻克一个难题,他们的进展会远超一支普通规模大 100 倍的团队。

对所有在听的人来说,最让人安心的一点就是,游戏规则没变。物理定律没变,重要的事情依然重要:顶级团队、高智商人才、高学习能力的人、极度渴望成功的人、强烈的求知欲,这些都还是关键因素。

而当我说「高智商」时,我指的是 高神经可塑性(neuroplasticity)。我指的是大脑学习新知识、适应新环境的能力,而不是能多快解开魔方(因为解魔方和 IQ 其实没什么强相关性)。

Pat Grady:你说的是 François Chollet 对智力的定义:能高效习得新技能的能力。

Daniel Nadler:没错。所谓的高智商,就是指能快速吸收、理解、应用全新的知识。而这在任何时代都重要——1000 年前重要,3000 年前也重要,只不过应用的领域不同了。以前是在战争、军事战术、孙子兵法里,现在是在 AI、工程、金融等领域。

我平时喜欢研究军事历史,像克劳塞维茨、马基雅维利、孙子这些经典的战争理论,也研究拿破仑、亚历山大大帝这些历史人物。他们并不是军队里体格最强壮的人,但他们有一个共同点,就是能在瞬息万变的战场上,完全调整自己的思维方式,迅速适应新的战局。

这就是我们现在所说的「神经可塑性」——他们能够在最短的时间内调整自己的认知框架,找到最优解。

过去 3000 年里,人类的活动方式确实变化很大。战争仍然存在,但大多数人已经不再像古希腊城邦时代那样为了生存而战斗。但不变的是,想要取得突破性成功,核心仍然是大脑的学习能力和适应能力。

09

从商业角度来说,最伟大的公司会出现在应用层

Pat Grady:第一个问题。这个数字肯定没法准确衡量,因为它需要一个「假如没有」的对比场景。但我们猜测,OpenEvidence 的使用方式可能真的在挽救生命,比如帮助医生做出更好的临床决策。那么,我们什么时候可以说 OpenEvidence 已经拯救了一百万条生命?

Daniel Nadler:一百万条生命?这感觉像在做麦肯锡的面试题,需要推理一下,比如说,如果有 15 万或 50 万名医生在用,每个医生每天要看多少病人?其中有多少是危及生命的情况?我是这样想的……

Pat Grady:要不要听听我的算法?

Daniel Nadler:好啊,说说看。

Pat Grady:我的算法是,这取决于数据来源,但每年大约有 30 万到 80 万人死于医疗失误。当然,并不是所有这些死亡都跟医生当场的决策有关,可能还有其他因素。但我们先取 30 万这个低值,再砍一半,得到 15 万。这样算下来,大概 6 年半就能达到一百万的数字。当然,这是在 OpenEvidence 完全普及的情况下,所以再给它几年发展时间,可能 8 到 9 年后,也就是 2034 年 11 月 4 日,我们能达到这个目标。

Daniel Nadler:我打算拿这个当面试题了。

Pat Grady:(笑)行啊,行啊。

Daniel Nadler:我唯一想补充的是,2030 年代,OpenEvidence 可能真的已经拯救了一百万条生命,但这不包括那些因为医生避免了用错药而没有恶化的病人,比如今天有个医生没有给 MS(多发性硬化症)患者开错生物制剂。这样的情况每天都在发生。还有一个医生在罗德岛给我们写信,说他用 OpenEvidence 判断病人症状是否符合肺栓塞,最后发现确实符合,于是立刻送进急诊,救了病人的命。

所以,OpenEvidence 其实已经在救人了,我们知道这点,因为医生告诉了我们。但类似这样的例子很多,有的病人可能只是病情没变严重,或者一些并发症被及时控制。这种影响的规模,早就达到百万级了。

Pat Grady:好的,下一个问题。你觉得大模型会不会变成一个通用的、标准化的商品?

Daniel Nadler:我觉得它们确实在变得越来越强,成本也在下降。而且 Ray Kurzweil 说的基本上都对。所以最前沿的东西不会被「商品化」,因为前沿永远是前沿。但如果说 ChatGPT 刚推出时那种「哇塞」的感觉,它的成本最终会趋近于零。

Pat Grady:对。

Daniel Nadler:这就是为什么我觉得,真正有趣的商业机会不在底层大模型,而是在应用层面。当然,在大模型层面依然有很多学术上、科学上的突破,但从商业角度来说,最伟大的公司会出现在应用层

Pat Grady:总结得很好。那 AGI(通用人工智能)呢?你觉得它已经实现了吗?或者什么时候会实现?

Daniel Nadler:我觉得我们已经实现了,只是大家一直在改定义。图灵测试?我们早就通过了。然后大家又说,AGI 需要在多个领域达到高中生水平?好了,现在也达到了。再后来变成「AGI 需要大学生水平」?这个也实现了。现在有人说,要在所有学科都达到博士水平,这才是 AGI。等到真的实现了,人们可能又会说:「不行,AGI 其实是要有『意识』。」

其实大家真正想问的是:AI 什么时候会有自我意识?什么时候能像电影里那样变得「觉醒」?但问题是,我不确定这种「意识」到底是不是神经网络到一定复杂度后自然涌现的东西。这其实是一个哲学问题。

Pat Grady:明白,那如果让你推荐AI相关的内容,不包括这个播客,你会推荐什么?

Daniel Nadler:《Understand》(中文名《领悟),Ted Chiang(特德·姜)的小说。

Pat Grady:为什么?

Daniel Nadler:我不想剧透,你自己去体验吧。Ted Chiang 是最伟大的科幻作家之一,他写过《降临》(电影原作)。《Understand》是他 90 年代初写的,完美展现了「智能指数级增长」是什么感觉。

大多数人可能会期待我推荐一本非虚构书籍,比如去读 Chinchilla 论文之类的。但如果你想真正理解,我们这个时代正在发生的事情,这本小说能从叙事角度捕捉到那种加速感。

Pat Grady:最后一个问题。你觉得AI在未来 20 年里最积极、最正面的影响会是什么?它会如何让我们的生活变得更好?

Daniel Nadler:我必须说,是「个性化医疗」。

个性化医疗一直是「明天的事」,就像量子计算、核聚变,感觉总是快实现了但又差点意思。不过实际上,我们刚才聊的 OpenEvidence,本质上已经是个性化医疗的起点了,比如针对某个病人特定的并发症来推荐合适的生物制剂。但这只是冰山一角。

我认为,再过 10 年,不管是 OpenEvidence 还是其他 AI,都会把病人的所有具体情况与全球所有相关医学知识进行匹配,形成一个超个性化的治疗方案。到那时候,可能 120 岁、130 岁都不再是人类寿命的上限了。

然后我们就会进入像忒修斯之船的哲学悖论:如果你不断替换自己身体的「木板」,到最后你身体里没有一块是原来的了,但你的记忆、情感、身份都还在——那么,你还是你吗?

我是个乐观主义者,我相信人类生物学是可以被「拆解重建」的。我觉得,这种「忒修斯之船式的医学」就在不远的未来。而 AI,正是推动它实现的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

施工员小天哥
2026-03-22 15:32:59
从4月1日起,银行有纸质存单的人,务必做好三手准备

从4月1日起,银行有纸质存单的人,务必做好三手准备

夜深爱杂谈
2026-03-22 23:26:27
张水华名利双收,签约3个代言并夺首冠,自豪称大家说我挺好看

张水华名利双收,签约3个代言并夺首冠,自豪称大家说我挺好看

尘语者
2026-03-22 21:15:23
万万没想到!美国跳出中东陷阱,一招洗空 30 万亿天量债务。

万万没想到!美国跳出中东陷阱,一招洗空 30 万亿天量债务。

小祁谈历史
2026-03-23 12:49:19
黄艺任重庆市人社局党组书记

黄艺任重庆市人社局党组书记

中国经济网
2026-03-23 11:59:07
教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

另子维爱读史
2026-03-21 19:52:30
开战以来首次,以色列承认被打痛了,内塔尼亚胡度过最痛苦的一夜

开战以来首次,以色列承认被打痛了,内塔尼亚胡度过最痛苦的一夜

壹只灰鸽子
2026-03-22 11:44:23
争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

争端升级,日本援兵已到,中方宣布封海4天,俄罗斯警告军备竞赛

123斯蒂芬
2026-03-23 13:54:00
为股市悬着的心,终于死了

为股市悬着的心,终于死了

金牛远望号
2026-03-20 21:00:52
上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上海这个区要起飞了?直达宁波,最快40分钟!中国最长跨海大桥安排上!

上观新闻
2026-03-22 15:06:17
恐慌性抛售,还在大跌!现货黄金一度跌破4100美元,今天早前已连破4300、4200美元大关|金银价格

恐慌性抛售,还在大跌!现货黄金一度跌破4100美元,今天早前已连破4300、4200美元大关|金银价格

每日经济新闻
2026-03-23 16:00:04
中石化发短信提醒加油!此轮油价上涨有多离谱?

中石化发短信提醒加油!此轮油价上涨有多离谱?

热点科技
2026-03-23 13:35:25
难以置信!深圳1100套安居房,价格1.7万左右,居然只有1人选房了

难以置信!深圳1100套安居房,价格1.7万左右,居然只有1人选房了

火山詩话
2026-03-21 17:00:09
离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

离谱又真实!伊朗空袭现场:民众山顶开心的弹吉他庆祝

老马拉车莫少装
2026-03-21 11:23:41
陈亚男直播哽咽:离婚4年放不下大衣哥名气,坚持再婚要比朱家强

陈亚男直播哽咽:离婚4年放不下大衣哥名气,坚持再婚要比朱家强

未曾青梅
2026-03-21 23:48:33
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

年内涨幅快归零!黄金暴跌,水贝商家:问价的人多,买的人少

界面新闻
2026-03-23 14:07:57
papi酱会议室录综艺!4万成本碾压亿元S+级,把内娱遮羞布全撕了

papi酱会议室录综艺!4万成本碾压亿元S+级,把内娱遮羞布全撕了

啊呆吃瓜
2026-03-22 21:35:03
毛主席问14岁小红军:你们首长在哪?小红军回答:我就是首长

毛主席问14岁小红军:你们首长在哪?小红军回答:我就是首长

旧史新谭
2026-03-23 15:12:05
金正恩再次当选朝鲜国务委员长!新标准像正式发布

金正恩再次当选朝鲜国务委员长!新标准像正式发布

IN朝鲜
2026-03-23 12:55:54
2026-03-23 17:48:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1179文章数 159关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点!真正的恐慌盘出现了?

汽车要闻

"拒绝"豪车税 新款Panamera尽享版99.8万元起精准入局

态度原创

健康
艺术
旅游
数码
家居

转头就晕的耳石症,能开车上班吗?

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

旅游要闻

这里是上海|浦江郊野公园 邂逅“小王子”

数码要闻

韩国Upstage宣布将分阶段部署AMD Instinct MI355显卡加速器

家居要闻

智慧生活 奢享家居

无障碍浏览 进入关怀版