网易首页 > 网易号 > 正文 申请入驻

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

0
分享至

西风 发自 凹非寺
量子位 | 公众号 QbitAI

时隔6年,一度被认为濒死的“BERT”杀回来了——

更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源!



去年一张“大语言模型进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而曾经盛极一时的encoder-only却似乎走向没落。



ModernBERT作者Jeremy Howard却说:

encoder-only被低估了。

他们最新拿出了参数分别为139M(Base)、395M(Large)的两个模型上下文长度为8192 token,相较于以BERT为首的大多数编码器,其长度是它们的16倍

ModernBERT特别适用于信息检索(RAG)、分类、实体抽取等任务。

在检索、自然语言理解和代码检索测试中性能拿下SOTA:



效率也很高。

ModernBERT速度是DeBERTa的两倍;在更常见的输入长度混合的情况下,速度可达4倍;长上下文推理比其它模型快约3倍。

关键它所占的内存还不到DeBERTa的五分之一。



Jeremy Howard表示,目前关于生成式模型的热议掩盖了encoder-only模型的作用。

像GPT-4这样大模型,太大、太慢、私有化、成本高昂,对许多任务来说并不适合,还有Llama 3.1,参数都达到了405B。
这些模型运行缓慢,价格昂贵,而且不是你可以控制的。



GPT-4这样的生成模型还有一个限制:它们不能预先看到后面的token,只能基于之前已生成的或已知的信息来进行预测,即只能向后看。

而像BERT这样的仅编码器模型可以同时考虑前后文信息,向前向后看都行。



ModernBERT的发布吸引数十万网友在线围观点赞。

抱抱脸联合创始人兼CEO Clem Delangue都来捧场,直呼“爱了!!”。



为什么ModernBERT冠以“现代”之名?相较于BERT做了哪些升级?

杀不死的encoder-only

ModernBERT的现代体现在三个方面:

  • 现代化的Transformer架构
  • 特别关注效率
  • 现代数据规模与来源

下面逐一来看。

首先,ModernBERT深受Transformer++(由Mamba命名)的启发,这种架构的首次应用是在Llama2系列模型上。

ModernBERT团队用其改进后的版本替换了旧的BERT-like构建块,主要包括以下改进:

  • 用旋转位置嵌入(RoPE)替换旧的位置编码,提升模型理解词语之间相对位置关系的表现,也有利于扩展到更长的序列长度。
  • 用GeGLU层替换旧的MLP层,改进了原始BERT的GeLU激活函数。
  • 通过移除不必要的偏置项(bias terms)简化架构,由此可以更有效地使用参数预算。
  • 在嵌入层之后添加一个额外的归一化层,有助于稳定训练。

接着,在提升速度/效率方面,ModernBERT利用了Flash Attention 2进行改进,依赖于三个关键组件:

一是使用交替注意力(Alternating Attention),提高处理效率。



二是使用Unpadding和Sequence Packing,减少计算浪费。



三是通过硬件感知模型设计(Hardware-Aware Model Design),最大化硬件利用率。



这里就不详细展开了,感兴趣的童鞋可以自行查阅原论文。

最后来看训练和数据方面的改进。



团队认为,encoders在训练数据方面的落后,实际问题在于训练数据的多样性,即许多旧模型训练的语料库有限,通常只包括维基百科和书籍,这些数据只有单一的文本模态。

所以,ModernBERT在训练时使用了多种数据,包括网络文档、编程代码和科学文章,覆盖了2万亿token,其中大部分是独一无二的,而不是之前encoders中常见的20-40次的重复数据。

训练过程,团队坚持使用原始BERT的训练配方,并做了一些小升级,比如移除了下一句预测目标,因为有研究表明这样的设置增加了开销但没有明显的收益,还将掩码率从15%提高到30%。

具体来说,139M、395M两个规格的模型都通过了三阶段训练。

首先第一阶段,在序列长度为1024的情况下训练1.7T tokens。然后是长上下文适应阶段,模型处理的序列长度增加到8192,训练数据量为250B tokens,同时通过降低批量大小保持每批次处理的总tokens量大致相同。最后,模型在500亿个特别采样的tokens上进行退火处理,遵循ProLong强调的长上下文扩展理想混合。

一番操作下来,模型在长上下文任务上表现具有竞争力,且处理短上下文的能力不受损。

训练过程团队还对学习率进行了特别处理。在前两个阶段,模型使用恒定学习率,而在最后的500亿tokens的退火阶段,采用了梯形学习率策略(热身-稳定-衰减)。

团队还使用两个技巧,加速模型的训练过程,一个是常见的batch-size warmup,另一个是受微软Phi系列模型启发,利用现有的性能良好的ModernBERT-base模型权重,通过将基础模型的权重“平铺”扩展到更大的模型,提高权重初始化的效果。



作者透露将将公开checkpoints,以支持后续研究。

谁打造的?

前面提到的Jeremy Howard是这项工作的作者之一。

ModernBERT的三位核心作者是:

Benjamin Warner、Antoine Chaffin、Benjamin ClaviéOn。



Jeremy Howard透露,项目最初是由Benjamin Clavié在七个月前启动的,随后Benjamin Warner、Antoine Chaffin加入共同成为项目负责人。



Benjamin ClaviéOn、Benjamin Warner,同Jeremy Howard一样,来自Answer.AI。Answer.AI打造了一款能AI解题、概念阐释、记忆和复盘测试的教育应用,在北美较为流行。

Antoine Chaffin则来自LightOn,也是一家做生成式AI的公司。

团队表示BERT虽然看起来大家谈论的少了,但其实至今仍在被广泛使用:

目前在HuggingFace平台上每月下载次数超6800万。正是因为它的encoder-only架构非常适合解决日常出现检索(例如用于RAG)、分类(例如内容审核)和实体提取任务。

Jeremy Howard表示明年将训练这个模型的更大版本。



Blog:https://huggingface.co/blog/modernbert
ModernBERT-Base:https://huggingface.co/answerdotai/ModernBERT-base
ModernBERT-Large:https://huggingface.co/answerdotai/ModernBERT-large
论文:https://arxiv.org/pdf/2412.13663
参考链接:https://x.com/jeremyphoward/status/1869786023963832509

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
问界M9在欧洲“杀疯了”,1分钟订单超1.3万台,老外苦BBA久矣

问界M9在欧洲“杀疯了”,1分钟订单超1.3万台,老外苦BBA久矣

蜉蝣说
2024-12-28 09:54:51
李一桐美得让人移不开眼,颜值一直在线

李一桐美得让人移不开眼,颜值一直在线

娱你同欢
2024-12-28 21:37:22
证监会坚决“壮士断腕”!12月28日,今日凌晨的四大消息正式出炉

证监会坚决“壮士断腕”!12月28日,今日凌晨的四大消息正式出炉

风口招财猪
2024-12-28 09:05:38
刘亦菲和妈妈哈尔滨看黄玫瑰,穿貂皮大衣真贵气,网友:人比花娇

刘亦菲和妈妈哈尔滨看黄玫瑰,穿貂皮大衣真贵气,网友:人比花娇

木子爱娱乐大号
2024-12-28 19:01:31
博主质疑南京抗日纪念馆军机“青天白日变红星”,大V斥:那是苏联飞机

博主质疑南京抗日纪念馆军机“青天白日变红星”,大V斥:那是苏联飞机

不掉线电波
2024-12-28 12:16:45
比老坛酸菜更恶心的出现了,龙头企业带头破坏,网友:放过我的胃

比老坛酸菜更恶心的出现了,龙头企业带头破坏,网友:放过我的胃

素衣读史
2024-12-28 15:23:20
樊振东陈梦退出世界排名,从WTT董事会主席、国际乒联副主席、中国乒协主席说起

樊振东陈梦退出世界排名,从WTT董事会主席、国际乒联副主席、中国乒协主席说起

小萝卜丝
2024-12-28 12:27:55
2元钱一支的红霉素软膏,功效有多强大?医生提醒:能治这5种病

2元钱一支的红霉素软膏,功效有多强大?医生提醒:能治这5种病

二月侃史
2024-12-28 15:08:06
证监会试行T+0!12月29日,今日面对的四大消息全面袭来!

证监会试行T+0!12月29日,今日面对的四大消息全面袭来!

风口招财猪
2024-12-29 00:49:09
好人发怒!约基奇:我们打得那么烂 能够在这个位置已经不错了

好人发怒!约基奇:我们打得那么烂 能够在这个位置已经不错了

直播吧
2024-12-28 14:30:08
中方表态将妥善处理,巴西却不依不饶,宣布停止向中企发工作签证

中方表态将妥善处理,巴西却不依不饶,宣布停止向中企发工作签证

王晋博士
2024-12-28 14:27:09
美国彻底失算了:乌总统人选民调出炉,乌克兰民众可是一点都不傻

美国彻底失算了:乌总统人选民调出炉,乌克兰民众可是一点都不傻

风华讲史
2024-12-28 09:26:48
身家曾达150亿元,石油大亨栽倒:不但破产,还要坐牢到99岁!

身家曾达150亿元,石油大亨栽倒:不但破产,还要坐牢到99岁!

每日经济新闻
2024-12-28 18:39:03
赵薇离婚背后不简单:黄负责应对欠款,赵负责保全资产?

赵薇离婚背后不简单:黄负责应对欠款,赵负责保全资产?

二向箔
2024-12-28 18:31:55
老公啪啪很厉害,到底有多爽?

老公啪啪很厉害,到底有多爽?

硬派健身
2024-12-28 21:05:12
武契奇的话还是说早了,塞尔维亚首都人山人海都是反对他的声音!

武契奇的话还是说早了,塞尔维亚首都人山人海都是反对他的声音!

星辰故事屋
2024-12-28 15:18:55
男子在桂林劫杀摩的司机后潜逃,24年后被昆明警方抓获

男子在桂林劫杀摩的司机后潜逃,24年后被昆明警方抓获

澎湃新闻
2024-12-28 16:28:16
王晶说过,票房为王,没票房啥也不是。这句话在甄子丹身上验证了

王晶说过,票房为王,没票房啥也不是。这句话在甄子丹身上验证了

探寻生活中的足迹
2024-12-27 01:06:59
金正恩抗乌援俄付出惨重代价,朝鲜特种部队被现代化战争打垮

金正恩抗乌援俄付出惨重代价,朝鲜特种部队被现代化战争打垮

环球热点快评
2024-12-28 11:58:17
“影子不会说谎”等35人自导自演被抓,江宁婆婆:不全是自导自演,有真的

“影子不会说谎”等35人自导自演被抓,江宁婆婆:不全是自导自演,有真的

老郭在学习
2024-12-28 09:19:14
2024-12-29 01:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
9838文章数 175811关注度
往期回顾 全部

科技要闻

特朗普要求,暂停执行TikTok强制出售令

头条要闻

保姆一声吼保住东家900万养老钱:老板给包5000元红包

头条要闻

保姆一声吼保住东家900万养老钱:老板给包5000元红包

体育要闻

63岁传奇羽毛球解说员,还不想退休

娱乐要闻

突发!赵薇官宣离婚,与黄有龙已分开多年

财经要闻

谁是中国第一工业?谁在支撑就业?

汽车要闻

长安启源C798内饰官图发布 配备副驾零重力座椅

态度原创

手机
数码
健康
公开课
军事航空

手机要闻

澎湃OS再次公布进展通报:仅两项问题被优化,进度稍微变缓

数码要闻

CES 2025将至:卷轴屏笔记本、智能穿戴等新品齐亮相

属于北京的一处精神“乌托邦”宝地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国下水全球首艘弹射型两栖攻击舰

无障碍浏览 进入关怀版