网易首页 > 网易号 > 正文 申请入驻

为什么大型的LLM模型都是使用decoder only模型框架

0
分享至

为什么大型的LLM模型都是使用decoder only模型框架,而不是同时使用编码器与解码器



1. 训练效率:使用decoder only模型框架可以减少模型的参数数量和计算复杂度,从而提高训练效率。同时,由于解码器只需要生成输出序列,而不需要对输入序列进行编码,因此可以更快地训练模型。

2. 推理速度:在推理阶段,使用decoder only模型框架可以减少模型的推理时间,因为只需要生成输出序列,而不需要对输入序列进行编码。

3. 预测准确性:大型的LLM模型通常需要处理大量的数据和复杂的语言结构,使用decoder only模型框架可以更好地捕捉输入序列的语义信息,并生成更准确的输出序列。

4. 内存占用减少:Encoder-Decoder架构在处理输入时,尤其是对于变长序列,往往需要对所有输入进行填充(padding),以适应固定尺寸的批次处理,这导致了较高的内存占用。Decoder-only模型则通常不需要这样的填充操作,特别是在使用自回归方式生成文本时,可以按需逐步处理,从而节省内存。

5. 泛化能力:Decoder-only架构,特别是自回归模型如GPT系列,通过让每个单词的预测基于前面已经生成的所有单词,能够学习到文本中的长距离依赖关系。这种自回归性质促进了模型对复杂语言结构的理解,并提升了其在多种任务上的泛化能力

6. 灵活性和多样性:Decoder-only模型在预训练时可以接受广泛多样的输入格式,包括单个词语、句子片段或完整的文档,这为下游任务提供了更多灵活性。相比之下,Encoder-Decoder模型在设计上更侧重于将输入编码成固定长度的向量,然后解码为目标输出,这在某些场景下可能限制了其应用范围

7. 研究趋势与实践成功:OpenAI的GPT系列模型展示了Decoder-only架构在生成高质量文本方面的巨大潜力,其成功推动了研究界和工业界对这一架构的进一步探索和采纳。随着这些模型在多个任务上的出色表现,Decoder-only架构成为了构建大型语言模型的主流选择

8. 注意力机制:在Decoder-only架构中,注意力机制是单向的(causal attention),这意味着模型在预测下一个单词时只能关注到之前的单词,而不能看到未来的单词。这种机制使得模型在生成文本时更加符合人类的语言习惯,并且有助于避免重复和冗余的生成#动图详解Transformer

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
慈不带兵、义不经商,下半句更狠!(深刻)

慈不带兵、义不经商,下半句更狠!(深刻)

互联网思维
2024-07-05 23:32:49
巴勒斯坦领导人:伊朗是导致加沙灾难的罪魁

巴勒斯坦领导人:伊朗是导致加沙灾难的罪魁

通往远方的路
2024-07-06 11:15:30
法国大选首轮结果公布,马克龙豪赌遭惨败,他将不再是总统了吗?

法国大选首轮结果公布,马克龙豪赌遭惨败,他将不再是总统了吗?

爆角追踪
2024-07-06 00:04:56
东北一家升学宴成丢人宴,34桌只来半桌,网友:就差把要钱写脸上

东北一家升学宴成丢人宴,34桌只来半桌,网友:就差把要钱写脸上

春秋知晓生
2024-07-06 13:00:22
葡萄牙内讧?B费抢罚任意球,C罗一脸惊愕!赛后二人草草握手!

葡萄牙内讧?B费抢罚任意球,C罗一脸惊愕!赛后二人草草握手!

风过乡
2024-07-06 16:59:48
匈牙利突然取消会谈,德国“震惊”

匈牙利突然取消会谈,德国“震惊”

参考消息
2024-07-06 13:36:12
大搞权钱交易,她被开除公职!

大搞权钱交易,她被开除公职!

鲁中晨报
2024-07-06 18:11:05
世界名画!梅西16年前给亚马尔洗澡画面国外疯传,球迷:大师开光

世界名画!梅西16年前给亚马尔洗澡画面国外疯传,球迷:大师开光

侧身凌空斩
2024-07-06 17:29:55
湖南九峰水库大坝发生渗漏险情,目前正在抓紧抢险

湖南九峰水库大坝发生渗漏险情,目前正在抓紧抢险

界面新闻
2024-07-06 19:14:53
日本紧张证实:一艘中国海军舰艇驶过日本领海,安装了监测浮标!

日本紧张证实:一艘中国海军舰艇驶过日本领海,安装了监测浮标!

硬核Deeper
2024-07-05 21:55:21
党委统一指挥+上海总部示范,全国超8000名饿了么外卖小哥亮明党员身份

党委统一指挥+上海总部示范,全国超8000名饿了么外卖小哥亮明党员身份

上观新闻
2024-07-06 06:05:10
美国即将完成撤军,俄军入驻

美国即将完成撤军,俄军入驻

参考消息
2024-07-06 19:38:09
16个外甥又来舅舅家过暑假了!舅舅:大约花费6万

16个外甥又来舅舅家过暑假了!舅舅:大约花费6万

金羊网
2024-07-06 20:01:35
太卷了!金晨凭一己之力将饮料广告拉升一个高度,跳舞的她在发光

太卷了!金晨凭一己之力将饮料广告拉升一个高度,跳舞的她在发光

七公子娱乐
2024-07-06 18:32:52
发生溃口的团洲垸曾被称为“湖南第一险”,1996年曾受重创

发生溃口的团洲垸曾被称为“湖南第一险”,1996年曾受重创

澎湃新闻
2024-07-06 15:02:33
无声处惊雷,电视台公开宣传:器官捐献有诸多好处!网友开始冷笑

无声处惊雷,电视台公开宣传:器官捐献有诸多好处!网友开始冷笑

眼光很亮
2024-07-06 14:42:01
媒体人:崔康熙有自己的尊严和傲气,0-6后他应该也不想再执教了

媒体人:崔康熙有自己的尊严和傲气,0-6后他应该也不想再执教了

直播吧
2024-07-06 22:08:23
回旋镖到了,“爱国”大V被封杀,打着民族主义的网红彻底凉透了

回旋镖到了,“爱国”大V被封杀,打着民族主义的网红彻底凉透了

眼光很亮
2024-07-06 07:51:51
3小时冲上飙升榜第3!《疯狂的石头》后,最好看的喜剧电影出现了

3小时冲上飙升榜第3!《疯狂的石头》后,最好看的喜剧电影出现了

晴晴的娱乐日记
2024-07-06 14:59:20
8辆封堵卡车被冲走!洞庭湖决口220米,现场指挥部发声

8辆封堵卡车被冲走!洞庭湖决口220米,现场指挥部发声

鲁中晨报
2024-07-06 15:23:05
2024-07-06 23:44:49
人工智能研究所AI
人工智能研究所AI
python人工智能领域分享
148文章数 765关注度
往期回顾 全部

科技要闻

AI公司没看上去有钱

头条要闻

16个外甥又到舅舅家过暑假:2年前花掉舅舅6万"私房钱"

头条要闻

16个外甥又到舅舅家过暑假:2年前花掉舅舅6万"私房钱"

体育要闻

糟糕的裁判,毁了“提前上演的决赛”

娱乐要闻

49岁林志玲在日本带娃被偶遇

财经要闻

李迅雷建议每年发5万亿国债十年50万亿

汽车要闻

预售12.3万-15.7万 吉利银河E5开启预售

态度原创

亲子
时尚
家居
健康
旅游

亲子要闻

宝宝皱眉玩手指,旁边的配音绝了,宝宝:糟了,被发现了

霸总真的是魏哲鸣的统治领域

家居要闻

自然韵律 木质家居的宁静美学

人类为何至今无法攻克渐冻症?

旅游要闻

7月8日起,广州这些旅游景区取消实名预约→

无障碍浏览 进入关怀版