网易首页 > 网易号 > 正文 申请入驻

Tokenformer:基于参数标记化的高效可扩展Transformer架构

0
分享至

本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案,该方案通过参数标记化实现了模型的高效扩展和计算优化。

论文动机

如今的人工智能离不开Transformer,因为它是大型语言模型背后的基础架构。然而它的影响力并不仅限于自然语言处理。Transformer在其他领域也发挥着重要作用,比如计算机视觉领域中的Vision Transformer(ViT)就扮演着重要角色。随着我们的进步,模型规模不断扩大,从头开始训练模型变得越来越昂贵且不可持续

论文的研究团队观察到,虽然Transformer架构在多个领域取得了巨大成功,但其可扩展性受到了严重限制,主要是因为在token-parameter交互计算方面采用了固定的线性投影方法。

Tokenformer创新设计

Tokenformer消除了在增加模型规模时需要从头开始重新训练模型的需求,大大降低了成本。

论文中提出的关键创新包括:

  1. 完全基于注意力的架构设计
  • 不仅用于token之间的交互
  • 还用于token和模型参数之间的交互
  • 提供了更大的架构灵活性
  1. 参数标记化方法
  • 将模型参数视为可学习的token
  • 使用交叉注意力机制管理交互
  • 支持动态参数扩展

Transformer vs Tokenformer — 架构对比

让我们从高层次比较传统的Transformer架构和Tokenformer:



Transformer高层流程

在左侧,我们可以看到原始Transformer架构的简化视图。从底部的输入token序列开始:

输入首先通过线性投影块来计算注意力块的输入,即Q、K和V矩阵。这个阶段涉及模型参数和输入token之间的交互,使用线性投影进行计算。然后,自注意力组件允许输入token之间相互交互,通过注意力块进行计算。最后,前馈网络(FFN)产生下一层的输出,同样表示使用线性投影计算的token和参数之间的交互。

论文指出,传统Transformer架构中的这种线性投影设计限制了模型的灵活性和可扩展性。当需要增加模型规模时,必须改变这些线性投影层的维度,这就需要重新训练整个模型。

Tokenformer的架构创新

Token-参数交互是通过线性投影组件计算的,这些组件具有固定大小的参数,在增加模型规模时需要从头开始训练。Tokenformer的主要理念是创建一个完全基于注意力的模型,包括token-参数交互,以实现一个更灵活的架构,支持增量参数数量的增加。

Tokenformer高层流程

在上面架构图的右侧,我们可以看到Tokenformer架构的简化视图:

为了计算自注意力块的输入(Q、K和V矩阵),输入token被送入一个称为token-参数注意力的新组件,在这里除了输入token外,还传入了参数。输入token代表查询部分,参数代表token-参数注意力块的键和值部分。然后有和之前相同的自注意力组件。最后为了准备下一层的输出,用另一个token-参数注意力块替代了前馈网络,其中来自自注意力块的输出用作查询,再次包含了不同的参数用于键和值矩阵。

Tokenformer架构详解



论文中的详细架构图展示了Tokenformer的完整设计。主要包括:

  1. 输入处理
  • def process_input(X, K_P, V_P):
    # X: 输入tokens
    # K_P, V_P: 参数tokens
    attention_scores = compute_attention(X, K_P)
    return weighted_sum(attention_scores, V_P)
  1. 改进的注意力机制
  • def improved_attention(query, key, value):
    # 使用改进的softmax (theta函数)
    scores = theta(matmul(query, key.transpose()))
    return matmul(scores, value)

Pattention机制详解

论文对比了标准注意力机制和新提出的Pattention机制:



原始注意力机制的计算公式

Pattention的计算公式

这种新的注意力机制设计具有以下优势:

  1. 更好的梯度稳定性
  2. 支持动态参数扩展
  3. 保持输出分布的连续性

FFN的革新

传统Transformer中的前馈网络被替换为:

  1. 两个连续的pattention块
  2. 通过残差连接与输入token合并
  3. 支持参数的动态扩展# 增量模型增长

在架构图的右下方,我们可以看到当想要通过添加新参数来增量增加模型规模时会发生什么。基本上是在每个pattention块的键和值矩阵中添加更多的参数token行,但保留已训练的参数token。然后在训练更大模型时所有token都会继续更新,从实验结果中可以看到,相比从头开始训练,规模增加的模型训练速度要快得多。

实验结果



论文中呈现的实验结果显示了y轴上的Tokenformer模型性能和x轴上的训练成本,与从头训练的Transformer进行比较:

  1. 基线模型(蓝线)
  • 使用3000亿个token从头训练的Transformer模型
  • 不同圆圈大小代表不同的模型规模(从124M到1.4B参数)
  1. Tokenformer性能(其他颜色线)
  • 红线:从1.24亿参数扩展到14亿参数
  • 仅使用300亿个token进行增量训练
  • 最终性能与完整训练相当,但训练成本显著降低
  1. 效率提升
  • 黄线表明使用600亿个token的增量训练
  • 达到了比传统Transformer更好的性能
  • 同时保持较低的训练成本

关键优势

论文的实验结果证明了Tokenformer在以下方面的优势:

  1. 计算效率
  • # 传统Transformer的计算复杂度
    flops_transformer = O(n_layer * d_model^2 * T + d_model * T^2)
    # Tokenformer的计算复杂度
    flops_tokenformer = O(n_layer * d_token * N * T + d_token * T^2)
    # 其中N为参数token数量,可以灵活调整
  1. 扩展性能
  • 支持从124M到1.4B参数的顺滑扩展
  • 保持模型性能的同时显著降低训练成本
  • 实现了更高效的参数利用
  1. 实际应用价值
  • 降低了大模型训练的资源门槛
  • 支持模型的持续演进和更新
  • 提供了更环保的AI模型训练方案

未来展望

论文最后提出了几个重要的研究方向:

  1. 将Tokenformer扩展到混合专家系统
  2. 探索参数高效的迁移学习方法
  3. 研究视觉-语言模型的统一架构
  4. 开发基于Tokenformer的设备-云协同系统
  5. 提升模型的可解释性

这些方向都显示了Tokenformer架构的巨大潜力,有望在未来的AI发展中发挥重要作用。

论文地址

https://avoid.overfit.cn/post/af881e4ed65b424693211253d66cf2b1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年中央一号规定之:这些人的户口可以迁回农村

2025年中央一号规定之:这些人的户口可以迁回农村

一桶浆糊要一统江湖
2025-02-26 21:55:03
红薯不能随便吃?医生直言:吃红薯的这些禁忌,现在知道也不晚

红薯不能随便吃?医生直言:吃红薯的这些禁忌,现在知道也不晚

轩辕岛
2025-02-25 12:00:03
乌方称不能保证“入约”就“归还”核武器,鲁比奥:这不是一个“认真的提议”

乌方称不能保证“入约”就“归还”核武器,鲁比奥:这不是一个“认真的提议”

环球网资讯
2025-02-26 19:36:03
马卡报:因飞行恐惧症,卢卡斯-佩雷斯将自驾1700公里去荷兰

马卡报:因飞行恐惧症,卢卡斯-佩雷斯将自驾1700公里去荷兰

懂球帝
2025-02-26 12:08:29
国民党主席将换人?朱立伦真正野心暴露无遗,马英九公开站队

国民党主席将换人?朱立伦真正野心暴露无遗,马英九公开站队

绝对军评
2025-02-27 08:10:55
东莞往事:我在玩具厂大饱眼福

东莞往事:我在玩具厂大饱眼福

三惊胖爷
2025-02-27 14:14:49
超级顶薪!5年3.45亿美元,他才25岁啊,莫布利成最大拦路虎

超级顶薪!5年3.45亿美元,他才25岁啊,莫布利成最大拦路虎

球童无忌
2025-02-27 17:25:16
云南一医院被查处

云南一医院被查处

开屏新闻客户端
2025-02-27 12:00:22
迈巴赫车主怒晒轨迹!称自己不知情情况下竟被拿去暴力测试!

迈巴赫车主怒晒轨迹!称自己不知情情况下竟被拿去暴力测试!

小人物看尽人间百态
2025-02-26 18:43:51
亚历山大本季已连续53场得分20+ 自2018-19赛季哈登后最长纪录

亚历山大本季已连续53场得分20+ 自2018-19赛季哈登后最长纪录

直播吧
2025-02-27 12:22:32
举报南师大女博士的“男友”:他实际也非常卑劣无耻,犯法应严惩

举报南师大女博士的“男友”:他实际也非常卑劣无耻,犯法应严惩

影像温度
2025-02-26 11:47:03
伦纳德复出哈登30分6助攻,快船122-114力克公牛

伦纳德复出哈登30分6助攻,快船122-114力克公牛

生活新鲜市
2025-02-27 17:50:07
杰伦-诺威尔:华子隔扣渡边是史上最佳扣篮之一 后者因此淡出联盟

杰伦-诺威尔:华子隔扣渡边是史上最佳扣篮之一 后者因此淡出联盟

直播吧
2025-02-26 23:15:07
如果没有美国,俄罗斯能打赢北约吗?北约:波兰都够俄罗斯喝一壶

如果没有美国,俄罗斯能打赢北约吗?北约:波兰都够俄罗斯喝一壶

西府赵王爷
2025-02-27 12:32:07
五常已明确态度,中国专家:事到如今,中印出兵乌克兰是最佳方案

五常已明确态度,中国专家:事到如今,中印出兵乌克兰是最佳方案

可乐谈情感
2025-02-27 15:11:39
又反转!具俊晔拒绝免费墓地,执意为大S立雕像,亲友心疼他太累

又反转!具俊晔拒绝免费墓地,执意为大S立雕像,亲友心疼他太累

古希腊掌管月桂的神
2025-02-26 17:48:55
哈登单节20分创多项神迹:一数据是NBA历史唯一+比肩库里科比!

哈登单节20分创多项神迹:一数据是NBA历史唯一+比肩库里科比!

Emily说个球
2025-02-27 12:50:59
中美俄稀土储量差距断崖:俄1000万吨,美国180万吨,中国多少?

中美俄稀土储量差距断崖:俄1000万吨,美国180万吨,中国多少?

任紀煙
2025-02-26 19:56:19
跑了10000公里后才发现,小米和特斯拉,根本不是一个档次!

跑了10000公里后才发现,小米和特斯拉,根本不是一个档次!

沙雕小琳琳
2025-02-27 00:42:48
英国同卵双胞胎颠覆实验:一个狂吃脂肪/一个猛吃碳水12周,结果震惊所有人!

英国同卵双胞胎颠覆实验:一个狂吃脂肪/一个猛吃碳水12周,结果震惊所有人!

最英国
2025-02-21 08:11:57
2025-02-27 19:03:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1586文章数 1422关注度
往期回顾 全部

科技要闻

英伟达营收利润仍在狂飙,老黄笑纳R1助攻

头条要闻

女子坐教练腿上练车还同意开房 教练被控强奸未遂喊冤

头条要闻

女子坐教练腿上练车还同意开房 教练被控强奸未遂喊冤

体育要闻

那个阿森纳的巴西天才,成了青岛的姆巴佩

娱乐要闻

杀鸡给猴看!《演员请就位3》被叫停

财经要闻

刘乐:智驾平权,A股投资逻辑有何变化

汽车要闻

豪华配置+魔术拓展孔 零跑B10内饰大揭秘

态度原创

本地
旅游
房产
教育
公开课

本地新闻

云游中国|来雁塔区,变身长安潮人

旅游要闻

昆明一青旅仅限18到20岁客人入住?多方回应

房产要闻

30分钟接轨主城!珠海北站片区迎长租公寓标杆项目

教育要闻

高三的百日誓师大会,十八岁的天空.成人礼一辈子就一次,从今往后就要担当成人的责任和义务

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版