网易首页 > 网易号 > 正文 申请入驻

一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

0
分享至

机器之心报道

机器之心编辑部

谷歌 Gemma 3 上线刚刚过去一个月,现在又出新版本了。

该版本经过量化感知训练(Quantization-Aware Training,QAT)优化,能在保持高质量的同时显著降低内存需求。

比如经过 QAT 优化后,Gemma 3 27B 的 VRAM 占用量可以从 54GB 大幅降至 14.1GB,使其完全可以在 NVIDIA RTX 3090 等消费级 GPU 上本地运行!

Chatbot Arena Elo 得分:更高的分数(最上面的数字)表明更大的用户偏好。点表示模型使用 BF16 数据类型运行时所需的 NVIDIA H100 GPU 预估数量。

机器之心在一台配备了 RTX 3070 的电脑上简单测试了其中的 12B 版本,可以看到虽然 Gemma 3 的 token 输出速度不够快,但整体来说还算可以接受。

基于量化感知训练的 Gemma 3

在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。

采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。

但是,这种量化方式通常会导致模型性能下降。

那谷歌是如何保持模型质量的?答案是采用 QAT。

与传统在模型训练完成后才进行量化的方式不同,QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。

具体实现上,谷歌基于未量化的 checkpoint 概率分布作为目标,进行了约 5,000 步的 QAT 训练。当量化至 Q4_0(一种常见的量化格式) 时,困惑度下降了 54%。

这样带来的好处之一是加载模型权重所需的 VRAM 大幅减少:

  • Gemma 3 27B:从 54 GB(BF16)降至仅 14.1 GB(int4)
  • Gemma 3 12B:从 24 GB(BF16)缩减至仅 6.6 GB(int4)
  • Gemma 3 4B:从 8 GB(BF16)精简至 2.6 GB(int4)
  • Gemma 3 1B:从 2 GB(BF16)降至仅 0.5 GB(int4)

此图仅表示加载模型权重所需的 VRAM。运行该模型还需要额外的 VRAM 用于 KV 缓存,该缓存存储有关正在进行的对话的信息,并取决于上下文长度。

现在看来,用户在消费级设备上就能运行更大、更强的 Gemma 3 模型,其中:

  • Gemma 3 27B (int4):现在可以轻松安装在单张 NVIDIA RTX 3090(24GB VRAM)或类似显卡上,本地就能运行最大的 Gemma 3 版本;
  • Gemma 3 12B (int4):可在 NVIDIA RTX 4060 GPU(8GB VRAM)等笔记本电脑 GPU 上高效运行,为便携式设备带来强大的 AI 功能;
  • 更小的型号(4B、1B):为资源较为有限的系统(包括手机和烤面包机)提供更强大的可访问性。

来自 Two Minute Papers 频道的玩笑

官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。谷歌还与众多热门开发者工具合作,让用户无缝体验基于 QAT 的量化 checkpoint:

  • Ollama:从今天起,只需一个简单命令即可原生支持 Gemma 3 QAT 模型。
  • LM Studio:通过用户友好界面,轻松下载并在桌面上运行 Gemma 3 QAT 模型。
  • MLX:利用 MLX 在苹果芯片上对 Gemma 3 QAT 模型进行高效推理。
  • Gemma.cpp:使用专用的 C++ 实现,直接在 CPU 上进行高效推理。
  • llama.cpp:得益于对 GGUF 格式 QAT 模型的原生支持,可轻松集成到现有工作流程中。

激动的网友已经无法抑制内心的喜悦:「我的 4070 就能运行 Gemma 3 12B,这次谷歌终于为即将破产的开发者做了一些事情。」

「希望谷歌朝着 1bit 量化使使劲。」

这个可以本地运行的 Gemma 3 你用了吗,效果如何,欢迎大家评论区留言。

参考链接:https://developers.googleblog.com/en/gemma-3-quantized-aware-trained-state-of-the-art-ai-to-consumer-gpus/?linkId=14034718

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
B费当选英超最佳球员,摩根:荒谬,赖斯带队夺冠才应该拿奖

B费当选英超最佳球员,摩根:荒谬,赖斯带队夺冠才应该拿奖

懂球帝
2026-05-23 20:08:19
不堪入目!把女性私处P到狗身上打广告?这操作,比狗还狗!

不堪入目!把女性私处P到狗身上打广告?这操作,比狗还狗!

川渝视觉
2026-05-23 17:58:47
SpaceX值2万亿美元,中国同行该哭还是该笑?

SpaceX值2万亿美元,中国同行该哭还是该笑?

AIX财经
2026-05-22 15:22:48
骑士108-121尼克斯,0-3!一战诞生5个现实:米切尔哈登要分手了

骑士108-121尼克斯,0-3!一战诞生5个现实:米切尔哈登要分手了

毒舌NBA
2026-05-24 10:57:21
90人遇难!实控人任铁柱被控制,放羊娃到百亿身家,再传奇也没用

90人遇难!实控人任铁柱被控制,放羊娃到百亿身家,再传奇也没用

伴史缘
2026-05-23 20:35:48
柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

柬媒爆料:中国15家企业承诺,送50万人去柬!1000多条评论很一致

消失的电波
2026-05-22 21:31:30
徐静蕾十月官宣生子,黄立行十六年等待终有果

徐静蕾十月官宣生子,黄立行十六年等待终有果

暖心萌阿菇凉
2026-05-24 11:18:38
黄仁勋连夜赶回老家,与家人吃川菜被拍,年迈的黄父黄母罕见出镜

黄仁勋连夜赶回老家,与家人吃川菜被拍,年迈的黄父黄母罕见出镜

小娱乐悠悠
2026-05-24 09:52:56
普京:乌军袭击卢甘斯克人民共和国技校宿舍是蓄意为之

普京:乌军袭击卢甘斯克人民共和国技校宿舍是蓄意为之

俄罗斯卫星通讯社
2026-05-23 16:10:23
西甲大结局!赫罗纳1-1降级,2年前还在争冠,马洛卡3-0也没保级

西甲大结局!赫罗纳1-1降级,2年前还在争冠,马洛卡3-0也没保级

体育知多少
2026-05-24 07:47:32
山西省委书记唐登杰、省长卢东亮:要全力配合国务院调查组开展事故调查,深挖彻查事故原因,依法依规依纪严肃追责问责,及时回应社会关切

山西省委书记唐登杰、省长卢东亮:要全力配合国务院调查组开展事故调查,深挖彻查事故原因,依法依规依纪严肃追责问责,及时回应社会关切

澎湃新闻
2026-05-24 09:55:03
《抓特务》首映口碑:比《芳华》更劲爆,拍摄到上映困难重重

《抓特务》首映口碑:比《芳华》更劲爆,拍摄到上映困难重重

光影新天地
2026-05-23 07:59:43
以媒:美伊协议或“非常不利”,内塔尼亚胡紧急开会

以媒:美伊协议或“非常不利”,内塔尼亚胡紧急开会

澎湃新闻
2026-05-24 04:16:20
26岁刘浩存演《主角》翻红,家庭背景曝光,为何持续获张艺谋力捧

26岁刘浩存演《主角》翻红,家庭背景曝光,为何持续获张艺谋力捧

代军哥哥谈娱乐
2026-05-24 11:39:48
最新:90人死亡!山西矿难涉事企业,此前两次违规被罚50000元

最新:90人死亡!山西矿难涉事企业,此前两次违规被罚50000元

火山詩话
2026-05-23 13:24:13
今明两天为降雨最强时段 湖北安徽等地有暴雨或大暴雨

今明两天为降雨最强时段 湖北安徽等地有暴雨或大暴雨

新京报
2026-05-24 11:18:35
梅根在瑞士日内瓦,一本正经的对着空气演讲,那场面真是让人发笑

梅根在瑞士日内瓦,一本正经的对着空气演讲,那场面真是让人发笑

毒舌小红帽
2026-05-22 18:13:40
黑龙江绥化明水县多个乡镇遭遇龙卷风袭击,当地村民:全村房子的铁皮盖,10家能有9家都掀了,大树基本上全折,水电全停在抢修

黑龙江绥化明水县多个乡镇遭遇龙卷风袭击,当地村民:全村房子的铁皮盖,10家能有9家都掀了,大树基本上全折,水电全停在抢修

极目新闻
2026-05-24 12:34:27
汶川地震中,丢了学生逃跑的老师“范跑跑”,18年后竟成了大赢家

汶川地震中,丢了学生逃跑的老师“范跑跑”,18年后竟成了大赢家

芳芳历史烩
2026-05-24 01:06:29
联盟最性价比续约!5年1.85亿,火箭捡大漏,活塞彻底羡慕坏了

联盟最性价比续约!5年1.85亿,火箭捡大漏,活塞彻底羡慕坏了

体育大朋说
2026-05-24 12:06:01
2026-05-24 13:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13064文章数 142652关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

白宫发生枪击事件枪手已死亡 曾多次踩点问如何进白宫

头条要闻

白宫发生枪击事件枪手已死亡 曾多次踩点问如何进白宫

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

家居
房产
游戏
数码
旅游

家居要闻

低调传承 温润沉静

房产要闻

疯狂周末,海口楼市突然爆了!

十年磨一剑?《犹大》最早也要2027年才发售

数码要闻

OPPO Reno 16官宣AI键,一键闪记有多强?

旅游要闻

文博观察|不止看展!深圳文博会山东展区,承包你的文旅消费新体验

无障碍浏览 进入关怀版