Hugging Face 推出最新SmolVLM，小模型在多项任务上干翻主流大模型|模态|序列|编码器|深度思考模型

分享至

这两天，我身边的小伙伴们在乐此不疲的玩一个游戏，让ChatGPT的O3猜图…

貌似每次视觉模型（VLM）或者说多模态模型的推出，都会引起一番全民热议，无他，有图有真相

今年伊始，模型厂商也像是商量好似的，发布的模型大多具有视觉识别能力（VLM），Qwen2.5 VL-72B，claude 3.7，Aya Vision-8B，O3…

前不久，Hugging Face也推出了其VLM家族SmolVLM的最新系列，其中最小的SmolVLM-256M参数量只有256M，还不到之前一直以轻量级自称的Aya Vision-8B的三十分之一。

就是一个这样量级的小模型，不仅在单幅图像的OCR、VQA、文档理解等基准测试上名列前茅，还在视频理解任务中展现出与高阶巨模相当的实力，更是取得了在OCRBench等关键指标上超越80B参数模型的"反常识"成果。

目前，绝大多数VLM依然延续了大模型的设计思路，使用大量视觉token化，导致内存开销依然居高不下，难以在移动端或嵌入式场景中运行。如何在边缘设备或移动设备上高效部署VLM成为了一个核心痛点。

而SmolVLM则恰恰是为其而生，在保持强大的多模态性能的基础上，无论是移动端设备，消费级笔记本电脑，还是浏览器端的推理，SmolVLM都能轻松应对。这不仅是对既有技术路线的颠覆，更预示着边缘智能领域即将迎来新一轮洗牌。

研究背景：开源社区的效率突围

SmolVLM由Hugging Face与斯坦福大学研究团队联合开发，论文于2025年4月份发布在arXiv平台（2504.05299）。

SmolVLM项目是Hugging Face在多模态小型模型领域的重要探索，得到了该组织研究资源的全面支持。

研究团队拥有丰富的多模态模型开发经验，此前曾参与开发Idefics等大型视觉-语言模型。与以往不同的是，SmolVLM项目特别关注如何在极小的参数规模下实现高效的多模态能力，这一方向对于推动AI在边缘和移动设备上的应用具有重要意义。

该研究不仅提供了完整的模型实现，还开源了所有模型权重、数据集和代码，并发布了展示在智能手机上进行推理的移动应用程序，旨在填补“高性能VLM难以在边缘端部署”的产业空白，推动多模态AI在移动端、低功耗场景中的普及。

核心成果：小而美

SmolVLM的最大成就在于它彻底颠覆了"更大即更好"的传统范式，证明了精心设计的小型模型可以在资源效率和性能之间取得令人惊讶的平衡。

研究团队开发了三个不同规模的SmolVLM变体，每一个都针对不同的计算环境进行了优化：

SmolVLM-256M是该系列中最小的模型，仅有256M参数，结合了93M的SigLIP-B/16视觉编码器和135M的SmolLM2语言模型。这个微型模型在推理过程中只需不到1GB的GPU内存，非常适合资源极度受限的边缘设备或移动设备应用。

这个小模型在多项基准测试中的表现超过了参数量是它300倍的Idefics-80B模型，这一成就充分展示了精心设计的架构可以大幅提升小型模型的性能上限。

SmolVLM-500M是一个中等规模的模型，同样使用93M的SigLIP-B/16视觉编码器，但搭配了更大的360M SmolLM2语言模型。这个模型在内存效率和性能之间取得了良好的平衡，适合中等资源的边缘设备。

在实验中，这个模型在多项视觉和视频任务上都取得了令人印象深刻的成绩，例如在DocVQA（文档理解）测试中达到了70.5%的准确率，在ScienceQA（高中科学问题）测试中达到了80.0%的准确率。

SmolVLM-2.2B是该系列中最大的变体，采用了400M的SigLIP-SO 400M视觉编码器和1.7B参数的SmolLM2语言模型。这个模型在保持相对较小体积的同时，性能已经可以与消耗两倍GPU内存的最先进VLM模型相媲美。

在推理过程中，它只需要4.9GB的GPU内存，而同等规模的Qwen2VL-2B需要13.7GB，InternVL2-2B需要10.5GB，这充分说明了参数数量并不能完全决定计算需求，架构设计同样至关重要。

在性能方面，SmolVLM系列在多项基准测试中都表现出色。

以SmolVLM-2.2B为例，它在OCRBench（字符识别）测试中达到了72.9%的准确率，在TextVQA（文本理解）测试中达到了73.0%的准确率，在DocVQA（文档理解）测试中达到了80.0%的准确率，在ScienceQA（高中科学问题）测试中更是达到了89.6%的准确率。

这些成绩与许多参数量更大的模型相当甚至更优。

特别值得一提的是，SmolVLM不仅在静态图像任务上表现出色，还展示了强大的视频理解能力。

在Video-MME（通用视频理解）测试中，SmolVLM-2.2B达到了52.1%的准确率，超过了InternVL2-2B的表现。在WorldSense（时间和物理理解）测试中，它达到了36.2%的准确率，超过了Qwen2VL-7B的32.4%。

这种跨模态的泛化能力使SmolVLM特别适合多样化的实际应用场景。

SmolVLM的另一个重要成就是其在边缘设备上的高效表现。研究团队在不同硬件平台上对模型的吞吐量进行了基准测试，结果表明SmolVLM非常适合在资源受限的环境中部署。

在NVIDIA A100 GPU上，SmolVLM-256M变体在批处理大小为1时可以达到每秒0.8个样本的吞吐量，在批处理大小为64时可以达到每秒16.3个样本的吞吐量。即使在更受限的L4 GPU上，SmolVLM-256M也能在批处理大小为8时达到每秒2.7个样本的峰值吞吐量。

研究团队还展示了SmolVLM可以在浏览器环境中通过WebGPU高效运行，256M变体在14英寸MacBook Pro（M4 Max）上可以达到每秒80个解码标记的速度。这种跨平台的兼容性大大拓宽了SmolVLM的部署机会，使其可以在各种消费级硬件上运行。

SmolVLM的成功已经引发了多个下游应用的开发。

ColSmolVLM利用较小的SmolVLM变体（256M和500M参数）实现了在移动设备、消费级笔记本电脑甚至浏览器环境中的高效多模态推理。

Smol Docling是一个专为端到端多模态文档转换任务优化的超紧凑256M参数变体，通过采用称为DocTags的专用表示，有效捕获各种文档类型的内容、上下文和空间关系。

BioVQA则利用SmolVLM的紧凑高效架构解决生物医学领域的视觉问答任务，在解释医学图像和回答临床问题方面展示了令人期待的能力。

总的来说，SmolVLM的核心成就在于它证明了通过精心设计的架构和训练策略，可以在极小的参数规模和内存占用下实现强大的多模态能力，为资源受限环境中的AI应用开辟了新的可能性。

方法评析：效率与性能的平衡术

SmolVLM的成功不是偶然的，而是源于研究团队对模型架构和训练策略的系统性探索与创新。

SmolVLM在视觉编码器和语言模型之间实现了更为平衡的参数分配。传统的大型VLM模型通常将大部分参数分配给语言模型，而视觉编码器相对较小。而SmolVLM的研究表明，当语言模型规模缩小时，这种不平衡的分配方式不再高效。

研究团队通过实验发现，对于最小的135M语言模型，使用较大的428M SigLIP-SO 400M视觉编码器反而会导致性能显著下降，表明编码器与语言模型之间存在效率不平衡。只有在较大的1.7B语言模型规模下，较大的视觉编码器才能带来明显的性能提升。这一发现挑战了传统的参数分配方式，为小型多模态模型提供了更为合理的设计指导。

SmolVLM采用了扩展上下文长度和高效的视觉标记压缩技术。研究团队将RoPE基数从10k增加到273k，将上下文容量从2k扩展到16k（对于较小的变体为8k），这使得模型能够处理更高分辨率的图像。

他们采用了像素重排（pixel shuffle）技术来压缩视觉标记，这种技术通过重新排列空间特征到额外的通道中，减少了空间分辨率但增加了表示密度。与大型模型通常使用的r=2压缩比不同，SmolVLM的实验表明小型模型从更激进的压缩（r=4）中受益更多，因为减少的标记数量减轻了注意力机制的开销并改善了长上下文建模。

这种对视觉标记的高效处理是SmolVLM能够在有限资源下实现强大性能的关键因素之一。

SmolVLM针对图像和视频采用了不同的处理策略。对于高分辨率图像，研究团队采用了图像分割策略，将图像分成多个子图像，同时保留一个缩小版的原始图像。这种方法在不增加过多计算开销的情况下有效地保持了图像质量。而对于视频，他们发现帧平均等策略反而会降低性能。

实验表明，随着平均因子的增加（2、4、8），OpenCompass-Video的结果显著下降。因此，SmolVLM的最终设计中排除了帧平均，而是将视频帧重新缩放到图像编码器的分辨率。这种针对不同模态的差异化处理策略，体现了研究团队对多模态任务特性的深刻理解。

在训练策略方面，SmolVLM同样展现了多项创新。研究团队发现，使用学习的位置标记比简单的字符串标记（如）效果更好，特别是对于小型模型。

学习的位置标记显著改善了训练收敛性并减少了停滞，在多个图像和文本基准测试中始终优于朴素的字符串位置。这一发现强调了在紧凑的多模态模型中结构化位置标记化的有效性。

此外，SmolVLM的训练过程中还采用了系统提示、媒体引入/结束标记和用户提示掩码等技术。系统提示用于澄清任务目标并减少零样本推理过程中的歧义；媒体引入/结束标记用于明确标记视觉内容；用户提示掩码则用于减少过拟合。

实验表明，这些策略在图像和视频任务中都带来了显著的性能提升，特别是对于视频任务，媒体引入/结束标记的效果尤为明显。

在训练数据方面，SmolVLM的研究也提供了几个重要发现。

与直觉相反，重用来自大型语言模型监督微调阶段的文本数据（SmolTalk）实际上会降低小型多模态架构的性能，在视频任务中降低了3.7%，在图像任务中降低了6.5%。这表明数据多样性的减少超过了重用文本的任何好处。

对于思维链（Chain-of-Thought）数据的集成，研究发现在小型多模态模型中，只有极少量（0.02-0.05%）的思维链示例才能略微提高性能，而更高比例的思维链数据会明显降低结果，特别是在图像任务中。这表明过多的推理导向文本数据会压倒小型模型的有限容量，从而损害其视觉表示能力。

关于视频序列长度的影响，研究表明随着视频持续时间接近约3.5分钟，视频和图像基准测试的性能都有明显提升，但超过3.5分钟后收益递减，表明相对于增加的计算成本，过长的序列并不能成比例地证明其合理性。

尽管SmolVLM在多个方面展现了创新和优势，但它也存在一些局限性。

虽然SmolVLM在多项基准测试中表现出色，但在一些需要强大语言推理能力的任务（如MMMU和AI2D）上，它仍然落后于更大的模型。这表明在某些复杂任务上，语言模型的规模仍然是一个重要因素。

SmolVLM的设计选择（如更激进的视觉标记压缩）可能会影响需要精确定位的任务，如OCR。虽然研究团队通过平衡不同的设计选择来最小化这些影响，但这种权衡仍然存在。

SmolVLM的训练过程需要精心设计的数据混合和训练策略，这可能增加了模型开发的复杂性。

结论：小型模型的大未来

SmolVLM的研究成果对多模态AI领域具有深远的影响，它不仅展示了小型模型的巨大潜力，更为未来AI技术的发展提供了新的思路和方向。

彻底挑战了"更大即更好"的传统观念。在过去几年中，AI领域的主流趋势是不断增加模型参数量，从数十亿到数千亿，以追求更强的性能。SmolVLM证明了通过精心设计的架构和训练策略，即使是参数量极小的模型也能达到甚至超越参数量大得多的模型的性能。

这一发现对整个AI领域具有启示意义，它表明我们可能不需要无限制地增加模型规模，而是应该更加关注模型的设计效率和训练方法的优化。

同时，SmolVLM为资源受限环境中的AI应用开辟了新的可能性。随着AI技术的普及，将AI能力扩展到移动设备、边缘计算设备和物联网设备变得越来越重要。

而传统的大型模型由于其巨大的计算和内存需求，难以在这些资源受限的环境中部署。SmolVLM通过将推理内存需求降低到不到1GB，使得在智能手机、平板电脑甚至浏览器环境中运行强大的多模态AI成为可能。这不仅提高了AI的可访问性，也为开发更多创新的边缘AI应用创造了条件。

研究团队通过系统性地探索不同的架构配置、标记化策略和训练数据组合，揭示了多个关键的设计原则，如视觉编码器与语言模型之间的平衡参数分配、扩展上下文长度的重要性、更激进的视觉标记压缩的效果、学习的位置标记的优势等。

这些发现不仅对SmolVLM本身的开发至关重要，也为未来的多模态模型设计提供了有价值的参考。

SmolVLM的成功表明，数据质量和训练策略对模型性能的影响可能比模型规模更为重要。

研究发现，简单地重用大型语言模型的训练数据可能对小型多模态模型有害，而精心设计的数据混合和训练策略则可以显著提升性能。这强调了在模型开发中"质量胜于数量"的原则，也提醒我们在追求更大模型的同时，不应忽视数据和训练方法的优化。

在应用前景方面，SmolVLM为多个领域带来了新的可能性。

在移动设备上，它可以支持更智能的相机应用、实时视觉翻译、增强现实体验等功能，而无需将数据发送到云端处理。

在医疗领域，像BioVQA这样的应用可以帮助医生快速解释医学图像，提高诊断效率。

在教育领域，SmolVLM可以支持智能教材和学习辅助工具，帮助学生理解复杂的视觉概念。

在工业领域，它可以用于质量控制、设备维护和安全监控等场景。

SmolVLM代表了多模态AI领域的一个重要里程碑，它不仅展示了小型高效模型的巨大潜力，也为未来AI技术的发展提供了新的思路和方向。随着这一领域的持续发展，我们可以期待看到更多创新的小型多模态模型和更广泛的应用场景，最终实现AI技术的普及。

至顶AI实验室洞见

如果说大而全的巨模更像“多面手”，那么SmolVLM则是“高效专家”，二者各擅胜场。

但我们依然认为SmolVLM的出现代表了一种重要的范式转变，在模型参数军备竞赛渐成红海的今天，真正的效率革命不应止于参数裁剪，而需重构多模态融合的底层逻辑，在保持高性能的同时大幅降低资源需求。这不仅是技术上的进步，更是一种价值观的回归——AI技术的终极目标应该是服务于更广泛的人群，而不仅仅是那些拥有高端计算资源的少数企业。

未来研究可能沿两个方向突破：一是探索神经架构搜索（NAS）与多模态模型的结合，自动生成最优紧凑架构；二是开发跨模态的分布式推理框架，将视觉、语言模块解耦部署。

当这些技术走向成熟，我们不仅能感受如SmolVLM般“蝴蝶穿花”的惬意，或许还能见证一个"大象轻盈起舞"的新时代。

论文地址：https://arxiv.org/pdf/2504.05299

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.