网易首页 > 网易号 > 正文 申请入驻

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM——

BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。



它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。

只需0.4GB内存即可运行。

基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率突出。

单个CPU即可达到“与人类阅读速度”相当的速度,每秒5-7个token,CPU端解码延迟29ms,能耗低至0.028J。

这种效率使其可在普通笔记本电脑甚至边缘设备上实时运行。

例如在苹果M2 CPU上快速运行:



另外值得一提的是,BitNet b1.58 2B4T具有原生训练优势,与训练后量化(PTQ)模型对比,避免了PTQ常见的性能衰减

BitNet b1.58 2B4T刚发布就吸引了大量网友点赞关注,作者们也当起了自己个儿的自来水。



如何实现原生1bit?话不多说,一起来看看技术详情。

权重映射为三元值{-1, 0, +1}

BitNet b1.58 2B4T模型基于Transformer架构,对核心组件进行了系统性改造。
传统LLM依赖16bit或32bit浮点数存储权重,而BitNet b1.58 2B4T采用一种称为absmean的量化方案,将权重映射为三元值{-1, 0, +1},平均每个权重仅需1.58bit(log₂3≈1.58)来表示。

模型内存占用骤降至0.4GB,仅为同类全精度模型的1/5-1/12。



另外,线性投影中的激活值被量化为8bit整数,采用基于每token的absmax量化策略,团队还引入subln归一化,增强量化训练稳定性。

其它关键设计包括:

  • 激活函数:前馈网络(FFN)子层采用ReLU²替代常见的SwiGLU,通过提升模型稀疏性,优化了1bit环境下的计算特性。
  • 位置编码:使用旋转位置嵌入(RoPE)。
  • 偏置消除:与Llama等架构一致,所有线性层和归一化层均移除偏置项,减少参数量并简化量化流程。

训练方面,BitNet b1.58 2B4T采用三阶段训练:大规模预训练监督微调(SFT)和直接偏好优化(DPO)。

先是大规模预训练,模型经历了两阶段学习率调度:得益于1bit模型的训练稳定性,初期采用高学习率快速收敛;中期骤降至低水平,使模型能在高质量数据上精细化调整。配合动态权重衰减策略,模型在保持泛化能力的同时避免过拟合。

监督微调(SFT)阶段,值得注意的是,训练中采用损失函数求和而非平均策略,并延长了训练轮次,这一调整被证明对低精度模型的收敛至关重要。

直接偏好优化(DPO)阶段,基于UltraFeedback、MagPie等人类偏好数据集,模型通过无奖励模型的直接优化,提升了回答的安全性与用户满意度,避免了传统RLHF的高计算成本。

实验效果方面,BitNet b1.58 2B4T内存占用仅为0.4GB,CPU端解码延迟29ms,能耗低至0.028J。

在数学推理任务GSM8K中,BitNet以58.38的准确率远超Llama 3.2-1B(38.21)和Qwen2.5-1.5B(56.79);在常识推理任务WinoGrande中,BitNet 71.90的得分超同类模型均值(63.55)。



团队特别指出,BitNet b1.58 2B4T具有原生训练优势。与训练后量化(PTQ)模型对比,BitNet的原生1bit训练策略避免了PTQ常见的性能衰减。



参数更大的Llama3-8B模型量化至1bit后,也难打BitNet b1.58 2B4T。

和其它1bit模型相比,BitNet b1.58 2B4T也有显著更强的整体性能,绝大多数基准测试中取得SOTA。



有关BitNet b1.58 2B4T的具体表现,再来看几个例子。

让它生成几个笑话,笑话简短但也蛮有意思:

  • 稻草人为何成为成功的神经外科医生?回答是因为它在自己的领域很杰出(outstanding in his field)。



单CPU生成97个token,总耗时3.452秒,每秒处理 28.1 token。

再让它基于2000年的背景,让一位PowerPC处理器爱好者和一位英特尔处理器爱好者进行五行辩论。

BitNet b1.58 2B4T生成结果也很快,并且反映了那个时代科技行业的竞争特性。



微软在1 bit LLM上的探索

1 bit LLM的实现方法,微软其实早在2023年就有相关研究,当时就称为BitNet,用BitLinear替换了nn.Linear





之后,微软原班人马在上一篇论文的基础之上做了优化,提出BitNet b1.58,在原始BitNet的基础上增加了一个额外的0值

也就是“The Era of 1-bit LLMs”这篇论文,用6页研究引发网友广泛关注。



这种方法发布后,也有不少人在这项研究的基础之上进行探索。Huggingface Transformers还曾整合了BitNet b1.58,运用一些技巧,使得现有模型可以直接微调到1.58bit。

接着,微软还开发并开源了针对GPU和CPU平台的专用推理库

BitNet b1.58采用独特量化方案(1.58bit权重和8bit激活值,W1.58A8)需要专门的实现,标准深度学习库通常缺乏针对这种混合精度、低比特格式的优化内核,微软开发了专门针对W1.58A8矩阵乘法的自定义CUDA内核。

另外,微软还开源了bitnet.cpp——一个用于1 bit LLM CPU推理的官方参考C++库,提供针对标准CPU架构优化的内核,旨在高效适配模型的特定量化方案,尽可能避免通用量化库的开销或复杂的底层位操作。

技术报告:https://arxiv.org/abs/2504.12285
抱抱脸链接:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

参考链接:https://arstechnica.com/ai/2025/04/microsoft-researchers-create-super%e2%80%91efficient-ai-that-uses-up-to-96-less-energy/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
准新郎中毒后续,人已经没了,吃爷爷炖的瘟鸡,30多老乡接力输血

准新郎中毒后续,人已经没了,吃爷爷炖的瘟鸡,30多老乡接力输血

户外钓鱼哥阿勇
2025-05-17 10:28:04
五问“火车穿村致19人身亡”:后果为何如此严重?有无安全防护措施?

五问“火车穿村致19人身亡”:后果为何如此严重?有无安全防护措施?

上游新闻
2025-05-14 12:13:11
清北调查刺痛无数家庭:40%学生来自这三类家庭,寒门出路在哪?

清北调查刺痛无数家庭:40%学生来自这三类家庭,寒门出路在哪?

月影说职场
2025-05-16 16:04:22
本赛季尼克斯对步行者常规赛2胜1负,去年季后赛3-4不敌步行者

本赛季尼克斯对步行者常规赛2胜1负,去年季后赛3-4不敌步行者

懂球帝
2025-05-17 13:54:13
小米SU7车主: 大灯外框变形翘边!专家: 造车经验不足!小米汽车:极小范围保险杠安装间隙不一致,阳光暴晒导致

小米SU7车主: 大灯外框变形翘边!专家: 造车经验不足!小米汽车:极小范围保险杠安装间隙不一致,阳光暴晒导致

和讯网
2025-05-17 09:33:03
世卫请帖被大陆没收,赖清德交出的“答卷”,我外交部给出超低分

世卫请帖被大陆没收,赖清德交出的“答卷”,我外交部给出超低分

阿握聊事
2025-05-16 11:20:29
银行出新规定了,凡60岁以上老人去办理业务,都能享受新福利!

银行出新规定了,凡60岁以上老人去办理业务,都能享受新福利!

平说财经
2025-03-12 23:40:52
快船队记:今年的季后赛令人难以置信 我相信大家的预测都错了

快船队记:今年的季后赛令人难以置信 我相信大家的预测都错了

直播吧
2025-05-17 10:51:03
最新消息!今日必看10条要闻!2025.5.17新闻摘要!

最新消息!今日必看10条要闻!2025.5.17新闻摘要!

生活魔术专家
2025-05-17 07:59:50
2025养老金涨多少?端午节前这笔补贴能到账吗?必看最新消息

2025养老金涨多少?端午节前这笔补贴能到账吗?必看最新消息

山药蛋TV
2025-05-17 11:07:56
恋爱脑还是喝大了?俞灏明凌晨4点官宣结婚,文案疑似内涵杨幂!

恋爱脑还是喝大了?俞灏明凌晨4点官宣结婚,文案疑似内涵杨幂!

游古史
2025-05-17 09:30:41
不服判罚!西班牙人官方晒亚马尔造卡夫雷拉直红过程:红牌?

不服判罚!西班牙人官方晒亚马尔造卡夫雷拉直红过程:红牌?

直播吧
2025-05-16 16:10:07
大胆预测,从未准过,腾讯嘉宾43人预测NBA冠军,已出局34人

大胆预测,从未准过,腾讯嘉宾43人预测NBA冠军,已出局34人

看球老人
2025-05-17 12:42:43
湖南2教师遇车祸不幸身亡,轿车被货车撞毁,细节曝光。

湖南2教师遇车祸不幸身亡,轿车被货车撞毁,细节曝光。

萧嚉影视解说
2025-05-17 12:18:14
特朗普“生日阅兵”细节出炉:士兵一天只供一顿热餐 花费数千万美元

特朗普“生日阅兵”细节出炉:士兵一天只供一顿热餐 花费数千万美元

财联社
2025-05-16 22:37:10
内衣头上戴:民国土匪的暗黑非主流时尚

内衣头上戴:民国土匪的暗黑非主流时尚

冷炮历史
2025-05-16 08:30:03
贵州宝妈“圆又圆”去世!年仅28岁女儿1岁,月子第20天频繁拉稀

贵州宝妈“圆又圆”去世!年仅28岁女儿1岁,月子第20天频繁拉稀

裕丰娱间说
2025-05-16 11:19:30
情侣在玄武湖坐船,男友顺手从湖里抓上一条鲢鱼,钓友:不舒服

情侣在玄武湖坐船,男友顺手从湖里抓上一条鲢鱼,钓友:不舒服

卧看风吹雨
2025-05-12 14:17:11
同样是跨栏美女,为何吴艳妮火爆全网,夏思凝却默默无闻?

同样是跨栏美女,为何吴艳妮火爆全网,夏思凝却默默无闻?

老谢谈史
2025-05-16 08:45:36
景区大门越建越远,“人还没到景区,钱就花了一半了”

景区大门越建越远,“人还没到景区,钱就花了一半了”

新京报
2025-05-16 11:48:00
2025-05-17 14:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
10494文章数 176147关注度
往期回顾 全部

科技要闻

OpenAI最强写代码AI智能体来了:Codex上线

头条要闻

俄乌面对面谈了两小时 俄方被指在最后一刻提出新要求

体育要闻

三年过去了,布伦森的打脸还没停

娱乐要闻

俞灏明王晓晨订婚:废墟里开出的玫瑰

财经要闻

关键时刻,央妈出手了

汽车要闻

小米汽车回应前保险杠变形 免费取送车和修复

态度原创

家居
旅游
健康
游戏
手机

家居要闻

温馨暖调 现代极简空间

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

唇疱疹和口腔溃疡是"同伙"吗?

全收集玩家炸了!《毁灭战士》新作移除实用功能!

手机要闻

六大品牌年度商用机型大对比,整体苹果最少,国产小米最少