网易首页 > 网易号 > 正文 申请入驻

谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量

数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5也无法幸免。

如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。

有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致,但论文表明,实际情况并不是这么简单。

想数清单词,嵌入维度要够大

Transformer的计数能力与其嵌入维度d和词汇量m(指词汇表中词的数量,非序列长度)的关系密切相关。

详细的原因,就涉及到了Transformer统计词频时的机制。

Transformer通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法

具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算

然而,这种机制的局限性在于,它要求词汇表中的每个词都有一个独立的正交向量表示,因此嵌入维度必须大于词汇量

嵌入维度不足时,词向量就无法保持正交性,词频的线性叠加也就无法实现了。

此时Transformer要实现计数,可以通过注意力机制(CountAttend)来实现,但需要一个随序列长度n线性增长的大型“逆转MLP”层。

具体来说,模型首先通过注意力赋予被查询词较大的权重,再利用位置编码将注意力权重提取到值向量的最后一个元素,这个元素实际记录了被查询词的出现频率的倒数。

这意味着,模型需要一个大小为O(n)的MLP层来计算1/x函数(x为某个词出现的次数)。

但进一步分析表明,任何常数层ReLU网络都无法在o(n)的神经元数量下逼近1/x函数

因此,对于固定规模的Transformer,这种方案无法推广到任意长度的序列。当序列长度超出训练集长度时,模型的计数能力会急剧恶化。

长度非主要因素,词汇表中数量是关键

为了验证这一结论,作者一共进行了两个实验。

第一个实验,是在一个从头开始训练的Transformer模型上进行的,具体有关参数如下:

  • 使用一个由两个Transformer层、四个注意力头组成的标准模型;
  • 嵌入维度d的取值范围为8到128;
  • 对每个固定的d,词汇量m从5到150变化,分别测试20个不同的值;
  • 模型使用Adam优化器从零开始训练,批量大小为16,学习率为10^-4,训练10万步。

训练和评测数据通过随机采样生成。首先从大小为m的词汇表中均匀采样n个词,构成一个长度为n的序列。

序列长度n设置为n=10m,平均每个词出现的次数固定为10次,一共使用了1600个样本进行测试。

作者发现,随着词汇量的增加,模型的计数准确率呈阶梯状下降,临界点恰好出现在词汇量超过嵌入维度的时刻

为了进一步量化模型的计数能力,作者定义了一个指标m_thr,表示模型的计数准确率下降到80%时的临界词汇量。

直观地说,m_thr反映了在给定嵌入维度下,模型可以“承受”的最大词汇量,m_thr越大说明模型的计数能力越强。

结果显示,对于计数(QC)和找出最高频词(MFC)的任务,m_thr都随嵌入维度d的增大而近似线性增长

第二个实验则是在预训练的Gemini 1.5模型上开展,在这个实验中,作者更关注词汇量对计数能力的影响。

他们设计了一系列计数任务,每个任务使用不同大小的词汇表,并把每个词在序列中出现的平均次数固定。

这意味着,在实验组当中,词汇量越大,序列长度也就越长。

作为对照,作者还设置了一个“Binary Baseline”,词汇表中只有固定为两个词,但序列长度与主实验组相同。

这样一来,就可以判断出带来模型计数误差的究竟是词汇量还是序列长度。

实验结果显示,随着词汇量的增加,Gemini 1.5在计数任务上的平均绝对误差显著上升,而“Binary Baseline”的误差要低得多。

这表明,词汇量的增加,而非序列长度的增长,是导致大模型计数能力下降的主要原因。

不过作者也表示,虽然这项研究一定程度上划定了大模型计数能力的上下界,但这些界限还不够紧致,距离理想的结果还有一定差距。

同时,作者也没有探究增加Transformer的层数是否会改变这一结论,需要未来开发新的技术工具才能进一步验证。

论文地址:
https://arxiv.org/abs/2407.15160

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
独库公路大堵车源头找到了!原来是这一车人,云A的,而且是故意

独库公路大堵车源头找到了!原来是这一车人,云A的,而且是故意

深析古今
2025-06-11 16:10:38
6元一碗面竟算“豪华宴请”?基层干部:这锅我不背!

6元一碗面竟算“豪华宴请”?基层干部:这锅我不背!

三农老历
2025-06-12 02:22:04
俄总统助理:俄乌注定会成为紧密盟友!乌方:袭击俄一核心火药厂!谈论第三轮谈判仍为时过早

俄总统助理:俄乌注定会成为紧密盟友!乌方:袭击俄一核心火药厂!谈论第三轮谈判仍为时过早

每日经济新闻
2025-06-11 16:08:21
安徽省委决定,蔡国军履新

安徽省委决定,蔡国军履新

鲁中晨报
2025-06-12 09:54:08
反转?女子被高压水枪射瞎,男方想30万私了,景区回应曝真相!

反转?女子被高压水枪射瞎,男方想30万私了,景区回应曝真相!

古希腊掌管松饼的神
2025-06-11 18:25:45
拍出108万天价的LABUBU,原材料竟是PVC?批发价每吨仅数千元

拍出108万天价的LABUBU,原材料竟是PVC?批发价每吨仅数千元

不掉线电波
2025-06-11 17:33:07
中方正式确认,三个月后举行大阅兵,两国收到请帖,日本被点名

中方正式确认,三个月后举行大阅兵,两国收到请帖,日本被点名

苏浩
2025-06-09 14:50:22
2024年全国各地人口数据出炉!增长的省份只剩几个了!

2024年全国各地人口数据出炉!增长的省份只剩几个了!

樱桃大房子
2025-06-11 22:04:04
限制芯片出口未能奏效,白宫AI主管:中国模型仅落后美国不到半年

限制芯片出口未能奏效,白宫AI主管:中国模型仅落后美国不到半年

环球网资讯
2025-06-12 06:42:29
7岁男孩超市内与伙伴追逐,被控致54岁女营业员摔伤索赔18万;法院一审宣判:按照6:3:1担责

7岁男孩超市内与伙伴追逐,被控致54岁女营业员摔伤索赔18万;法院一审宣判:按照6:3:1担责

大风新闻
2025-06-11 20:08:33
暴乱中的凯撒:左派急先锋纽森的变脸时刻

暴乱中的凯撒:左派急先锋纽森的变脸时刻

Wilsonhe8
2025-06-11 20:22:15
高考结束了,网络又开始了一片骂战:北京考生300分上清华?

高考结束了,网络又开始了一片骂战:北京考生300分上清华?

深析古今
2025-06-11 22:50:14
拍卖价108万的Labubu原始售价5位数,首任藏家5年前购自演员郑恺的潮牌店,拍卖价82万的Labubu也曾是他的

拍卖价108万的Labubu原始售价5位数,首任藏家5年前购自演员郑恺的潮牌店,拍卖价82万的Labubu也曾是他的

极目新闻
2025-06-11 18:06:21
如果不是医保局的通报,都不知道已经烂成这样了!

如果不是医保局的通报,都不知道已经烂成这样了!

闲侃闲侃
2025-06-11 20:23:31
浙江一富婆约拍多人,现场不雅画面流出,丈夫又曝光1800张不雅照

浙江一富婆约拍多人,现场不雅画面流出,丈夫又曝光1800张不雅照

瓜哥的动物日记
2025-06-11 15:39:22
两天深入沟通,双方表示取得进展,中美经贸磋商达成措施框架

两天深入沟通,双方表示取得进展,中美经贸磋商达成措施框架

环球网资讯
2025-06-12 06:42:15
武契奇突访乌克兰,又一个跳车了?

武契奇突访乌克兰,又一个跳车了?

山河路口
2025-06-11 18:47:55
馆长上海直播曝马路超平整 台湾大批网友没话说:真的输了

馆长上海直播曝马路超平整 台湾大批网友没话说:真的输了

金牛传音
2025-06-11 13:46:43
女子被射瞎最新进展,肇事男已经找到,家属想出三十万私了

女子被射瞎最新进展,肇事男已经找到,家属想出三十万私了

映射生活的身影
2025-06-11 17:51:27
美媒爆料:马斯克发帖表达悔意前,曾给特朗普打电话

美媒爆料:马斯克发帖表达悔意前,曾给特朗普打电话

环球网资讯
2025-06-12 08:19:41
2025-06-12 10:19:00
量子位 incentive-icons
量子位
追踪人工智能动态
10638文章数 176167关注度
往期回顾 全部

科技要闻

因DeepSeek 阿里称工程师春节睡办公室研发

头条要闻

潘粤明炮轰国足教练伊万:你指望它拯救中国足球

体育要闻

一位中国老板,复兴了欧洲百年俱乐部

娱乐要闻

那尔那茜定向委培违约事件 持续发酵

财经要闻

"特马"互撕反转?特朗普回应马斯克反悔

汽车要闻

5万级5座纯电微型车 奇瑞QQ多米正式上市

态度原创

家居
亲子
教育
艺术
公开课

家居要闻

木质灰调 现代轻奢质感

亲子要闻

三亚全市幼儿园停课

教育要闻

证明:三角形内角和是180度,难吗?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?