对话浙大教授汤斯亮：李飞飞仅用50美元“复刻”DeepSeek R1，“蒸馏”是噱头还是捷径？|deepseek|人工智能|大模型

对话浙大教授汤斯亮：李飞飞仅用50美元“复刻”DeepSeek R1，“蒸馏”是噱头还是捷径？

2025-02-10 21:45:50　来源: 搜狐科技

北京举报

分享至

　　出品｜搜狐科技

　　作者｜郑松毅

　　编辑｜杨锦

　　继DeepSeek霸榜热搜后，“AI教母”李飞飞团队联合华盛顿大学等AI研究实验室，携手推出的最新佳作——用50美元训练推理模型s1，宣称复现DeepSeek R1和OpenAI o1模型能力，夺人眼球。

　　放大来看，DeepSeek和李飞飞团队打造的模型，都在一种名为“蒸馏”技术的加持下，展示出低成本AI训练的潜力，但也因此受到OpenAI的“抄袭”指控。

　　“蒸馏”究竟是怎样一种技术，是否是技术追赶的一条捷径？大模型正在迎来“后训练”时代？抛开降低成本，DeepSeek和李飞飞团队做的工作还有哪些价值意义，带来什么启发？

　　为了探究上述大众关心的问题，硅谷AI见闻与浙江大学计算机科学与技术学院教授汤斯亮，展开了深度对话。

　　AI见闻：您怎么看李飞飞团队的最新研究，强调仅用了50美金进行训练有什么意义吗？

　　汤斯亮：由于OpenAI最新o1模型并没有公开技术细节，所以目前对于o1的复现工作是工业界与学术界关注的热点。李飞飞老师的最新工作贡献主要是在于，提供了一种低成本复现o1和DeepSeek R1在某些领域能力的技术。

　　该论文采用了蒸馏技术合成的数据，其中低训练成本作为一种优势在论文中被提及。但论文的重点和主要贡献并没有落在50美金与蒸馏技术上。如果在宣传的时候过分强调低成本与高性能，就存在吸引眼球与噱头的成分。

　　50美金训练出的模型只在3个数据集上做了测试，并被证明有效果，其在更多任务上的实用性任值得进一步讨论与研究。

　　AI见闻：那这个研究有带来什么启发吗？

　　汤斯亮：这个研究是有一定的学术价值的，因为其至少给出了一种复现o1的思路。

　　其中大家比较关心的“模型蒸馏”技术，也叫“知识蒸馏”，是一种在大模型数据准备过程中常用的技术。其基本想法是让一个模型生成数据来给另外一个模型训练。这里提供数据的模型叫做“教师模型”，接受数据的模型叫做“学生模型”。

　　李飞飞团队做的就是将谷歌具备深度推理能力的模型“蒸馏”，让谷歌的模型生成做推理训练要用到的数据。然后以阿里模型Qwen2.5作为基础模型，用“蒸馏”得到的数据训练出一个具备深度推理能力的新模型，花了很低的成本。

　　谷歌的模型就像老师，教基础模型如何学习和做深度推理。过程中用到了预算强制（budget forcing）和SFT（监督微调）方法做训练尝试。这种方案训练效果有一定的效果，至少目前看来在一些领域是能用的。

　　AI见闻：确实成本很低，所以也是为大家提供了一条训练深度思考模型的新思路？

　　汤斯亮：对。除了大家关注的低成本外，该论文说明的第二个事就是很多表现不错的基础大模型本身就具备强大的推理能力，只是需要一些特殊方法来引导这个模型，就可以激发出它的潜力，达到类似o1深度推理的效果。

　　AI见闻：看李飞飞团队发布的技术报告中多次提到了“蒸馏”技术，OpenAI也在指控DeepSeek使用了“蒸馏”抄袭。所以“蒸馏”现在被视为模型训练的一项关键技术吗，该怎么理解？

　　汤斯亮：“蒸馏”其实是一项在大模型诞生之前就存在的老技术，蒸馏的目的是得到训练数据。不过在生成式人工智能时代，其本质是与我们现在的AIGC的理念是暗合的。只不过蒸馏服务的对象是模型，而不是人，蒸馏是给模型提供数据，希望让模型变的更好，我个人的理解目前“蒸馏”技术在工业界是广泛使用的，是一项非常重要的技术。

　　比如也有一些声音提到，现在受大家广泛追捧的DeepSeek中就用到了来自对OpenAI最先进的模型蒸馏出来的数据，这个事情由于没有切实的证据，因为在DeepSeek的技术报告中并没有提及数据准备方面的内容，所以我不作评论。

　　但如果只是简单地让更强的模型生成数据来用，拷贝别人模型的知识，其实没多大意思，因为上限就在教师模型那里。

　　DeepSeek的贡献是显而易见的，或许他们在训练过程中用到了一些“蒸馏”数据，但是DeepSeek对于模型架构、分布式训练、参数量化等方面的贡献是具有开拓性且显而易见的。

　　AI见闻：所以用“蒸馏”到底算抄袭吗？

　　汤斯亮：现在大部分闭源模型对于模型的数据蒸馏与逆向工程都是使用条例中禁止的，但是目前对于蒸馏的判定还非常困难，一些研究可以通过在输出中加入 “隐形水印”来检测是否有蒸馏的数据被其它模型使用，但上述技术并不成熟。

　　由于从优秀的闭源模型中获取高质量数据是如此的方便与低成本，所以我想大多数企业现在都在用这种方式，应该不算是一个秘密了。

　　AI见闻：话说回来，为什么现在行业都乐于用这种大模型教小模型的“蒸馏”方式了？记得一开始都是靠喂给一个模型上亿条数据进行“暴力训练”。

　　汤斯亮：主要原因是高质量语料的获取困难，成本较大，而且数量有限。利用蒸馏可以将低质量语料清洗成高质量语料，另外也可以非常有针对性的获取大模型的知识。

　　AI见闻：最近DeepSeek爆火，您怎么看？

　　汤斯亮：我觉得DeepSeek还是做了一件很了不起的事，打破了闭源模型霸榜的神话，把相关研究工作公开供大家参考，世界上还没有第二家开源的初创企业能做到。

　　OpenAI对技术一直有所保留，DeepSeek通过摸索实现OpenAI o1的深度推理能力，且用了很低的成本。

　　我觉得DeepSeek的创新既有新技术的探索，更在于工程方面的开拓进取，可以说用非常低的成本完成了一个工程奇迹。

　　AI见闻：那您觉得DeepSeek的“出圈”，让中美AI差距缩小了吗？

　　汤斯亮：这方面我觉得大家还是要清醒看待。跟之前相比，明面上的“软实力”有缩小，但DeepSeek并没有改变中美在资金与基础设施方面的差距。

　　比如国外现在有的十万，未来可能会建上百万张卡组成的算力集群，包括这些集群需要的高速互联、散热、电力保障等“硬实力”方面，目前我们还有很多地方需要追赶。

　　AI见闻：所以光凭借“知识蒸馏”，并不能解决根本问题，甚至实现“弯道超车”？

　　汤斯亮：要想实现赶超领跑的话，光靠“知识蒸馏”肯定不行。但是对于很多初创企业来说，蒸馏与合成数据可能还是有用的。

　　我个人觉得，人工智能技术现在并没有定型，还处在探索阶段，那探索就是要花非常多的资源的。

　　如果是别人已经做出来的，有答案可抄，那相对容易一些。但如果要成为那个探索的人，如果没有刚才提到的那些资源保障，是无法进行探索的。

　　所以说，“硬实力”方面的差距其实并没有缩小，也没有办法靠“蒸馏”去缩小。

　　DeepSeek让中美AI差距缩小了多少?2月11日上午10点，我们邀请了杜克大学电子与计算机工程系杰出教授-陈怡然共同探讨。快戳下方预约～

　　运营编辑|王一晴审核｜孟莎莎

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.