网易首页 > 网易号 > 正文 申请入驻

不依赖token,字节级模型来了!直接处理二进制数据

0
分享至

数字游民 投稿
量子位 | 公众号 QbitAI

最新GPT,不预测token了。

微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)

通过直接处理原生二进制数据,bGPT将所有输入内容都视为字节序列,从而可以不受限于任何特定的格式或任务。

能预测CPU行为,准确率超过99.99%;还能直接模拟MIDI——一种音乐传输和存储的标准格式。

研究团队认为,传统的深度学习往往忽视了字节——数字世界的构建基石。

不论是信息的形式还是操作,都是通过二进制格式编码和处理的。字节构成了所有数据、设备和软件的基础,从计算机处理器到我们日常使用的电子产品中的操作系统。

这篇论文的标题清晰地指出了其目标:

超越语言模型:将字节模型作为数字世界的模拟器。

模拟CPU行为准确率超99.99%

bGPT通过字节级处理,不仅能够应用于常规的AI生成和理解任务,还能处理更多非传统应用

例如,它能够直接模拟MIDI——一种音乐传输和存储的标准格式,之前的研究由于MIDI的二进制本质而避免了直接对这类数据的建模。

但bGPT天生适合此类任务。它能够准确模拟符号音乐数据转换算法,在将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

模拟CPU行为方面,bGPT展现出超过99.99%的准确率。这些实验显示了bGPT在处理原生二进制数据方面的强大能力和可扩展性。

bGPT还展示了在处理诸如文本、图像和音频传统媒体文件的生成/分类任务上的潜力,而且不需要任何针对特定模态的定制

研究团队训练了一个大约有100M参数的bGPT,根据论文中的实验结果,bGPT可以与同样规模的文本模型(GPT-2)、视觉模型(ViT)和音频模型(AST)在各自的模态下有着可比的性能。

字节到块策略:拓展序列建模长度

在处理数字数据时,bGPT代表了一次重要的进步。

因为字节的粒度非常细,处理的字节序列通常较长,这对基于Transformer的传统模型来说是一个挑战。由于自注意机制的复杂度是二次方的,处理长序列的效率和可扩展性受到了限制。

bGPT的研发团队此前在音乐AI领域推出了CLaMP项目,并因此在ISMIR 2023上获得了最佳学生论文奖。

基于这项成果,bGPT采取了一种“字节到块(patch)”的转化方法。这个方法不仅极大提升了数据处理效率,还让长序列数据的处理和扩展变得更加简便。

bGPT包含三个关键组成部分:

  1. 线性投影层:通过线性投影将每个字节块转化为密集向量表示,既保留了关键信息,又降低了维度。
  2. 块级解码器:顺序处理块的embeddings以预测下一个块的特征,使用自回归机制学习字节序列的整体结构。
  3. 字节级解码器:根据块级解码器的预测特征来预测每个块内的字节序列,这一过程独立于每个块进行,依据当前块的特征表示。

bGPT提供了一种有前景的解决方案来应对传统模型在处理字节级数据时面临的挑战,显著提高了处理大规模数字数据序列的效率和可扩展性。

拓宽边界:bGPT与未来数字世界的无限潜力

尽管bGPT展现出巨大的潜力,但其也存在一定的局限性和改进空间。

目前,bGPT只能处理不超过8KB的数据序列,对于需要生成大量数据的现代应用来说,这一容量显然不够。这一局限主要由于训练和部署这类模型需要巨大的计算资源需求。

为了推进bGPT的实用性和适用范围,未来的研究将专注于开发更高效的算法和利用硬件进步以降低计算成本,使bGPT能够更加经济高效地处理更大规模的数据序列,从而拓宽其应用前景。

在探讨字节模型未来的话题中,来自世界各地的网友们已经提出了一系列脑洞。

他们探讨了在裸机上运行纯粹的神经网络,以取代操作系统执行命令的前景,或者利用网络修剪和自我学习来优化连接,使得超大规模网络具备自我重构的能力。

虽然实现这些目标需要时间,但bGPT有望实现将所有数据以字节形式输入,通过超大规模自我重构网络处理后再以字节形式输出的终极目标。

或许,在探索bGPT能力的边界时,想象力才是唯一的限制。

长期来看,bGPT展示的字节模型在推动人工智能进步方面展现了两大巨大潜能。

首先,它有望实现一个统一模型,将计算机中的所有数据整合起来,为实现真正的通用人工智能(AGI)迈出关键一步。

其次,bGPT推动了将AI作为操作系统(LLM OS)的概念,即利用这种字节模型作为核心,直接与文件、软件及底层硬件数据进行深度交互。

这不仅与Andrej Karpathy的AI愿景不谋而合,更重要的是,它开启了使用AI模拟数字世界各种层面的可能性——从精确模拟CPU操作到系统级软件的行为模拟,bGPT的能力远超传统界限。通过这种方式,bGPT有望成为数字世界的全面模拟器,探索和理解从基础硬件到复杂系统级软件操作的每一个角落。

单凭对计算机文本数据的深入建模,我们已经见证了ChatGPT如何引发社会的广泛关注。

然而,文本数据在数字世界中海量数据的宏观图景里,不过只是冰山一角而已。想象一下,如果我们能够利用计算机中存储的所有形式的数据——无论是文本、图像、音频,还包括更复杂的二进制数据,乃至软件、操作系统和硬件本身的信息——来训练模型,能否创造出一个更加深入理解和精确模拟数字世界各个层面的模型?

bGPT的代码和模型已开源,如果你对探索字节级模型感兴趣,可以尝试在自己的数据集上使用bGPT进行训练,大胆探索它的潜能。

论文:https://arxiv.org/abs/2402.19155
代码:https://github.com/sanderwood/bgpt
模型:https://huggingface.co/sander-wood/bgpt
项目主页:https://byte-gpt.github.io

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英国又打头阵了:为什么有俄代表出现在联合国大会?

英国又打头阵了:为什么有俄代表出现在联合国大会?

桑未落
2024-09-27 21:33:34
原来取外号是中国人的天赋技能啊!网友:我爸外号太硬 让我继承了

原来取外号是中国人的天赋技能啊!网友:我爸外号太硬 让我继承了

有趣的火烈鸟
2024-08-31 00:31:06
演习暴露歼20弱点?火力不足、功能单一,遇到同代机发挥不出优势

演习暴露歼20弱点?火力不足、功能单一,遇到同代机发挥不出优势

文雅笔墨
2024-09-28 04:17:58
江苏昆山成立调查组对学校“发霉面包”事件展开调查

江苏昆山成立调查组对学校“发霉面包”事件展开调查

环球网资讯
2024-09-27 23:55:15
阿兰德龙去世一个月,日裔女友控诉:3个孩子怕我分家产把我赶走

阿兰德龙去世一个月,日裔女友控诉:3个孩子怕我分家产把我赶走

照见古今
2024-09-27 17:44:39
现在网络上又流行起来“探花”

现在网络上又流行起来“探花”

吃瓜党二号头目
2024-09-18 19:26:09
猴哥说车结婚两周年仍沉默!妻子发声:丧偶式婚姻,已分居8个月

猴哥说车结婚两周年仍沉默!妻子发声:丧偶式婚姻,已分居8个月

裕丰娱间说
2024-09-27 19:47:47
女子吐槽老公丑的千万别生女儿,女儿真的会像爸爸,评论笑死我了

女子吐槽老公丑的千万别生女儿,女儿真的会像爸爸,评论笑死我了

有趣的火烈鸟
2024-09-28 02:56:13
房地产新政首日,上海七盘齐开:21万/平的翠湖六期、中海领邸双双“日光”

房地产新政首日,上海七盘齐开:21万/平的翠湖六期、中海领邸双双“日光”

界面新闻
2024-09-27 23:28:48
极品!真乃极品!岛国女神渡边夏菜,这身材着实极品!

极品!真乃极品!岛国女神渡边夏菜,这身材着实极品!

打麻将的仔
2024-09-22 13:15:06
价格大涨!网友直呼“吃不起”,常州的情况是…

价格大涨!网友直呼“吃不起”,常州的情况是…

中吴网
2024-09-27 23:47:54
美国全球通缉,逮捕助华为突破5G的芯片大佬陈正坤,现在怎样了?

美国全球通缉,逮捕助华为突破5G的芯片大佬陈正坤,现在怎样了?

吐不满的痰娱
2024-09-24 14:22:48
官方突然宣布!公开全红婵新身份,终于等到这一天,全网恭喜

官方突然宣布!公开全红婵新身份,终于等到这一天,全网恭喜

娱乐八卦木木子
2024-09-27 14:31:12
俄军伤亡数据曝光!死亡超十万,每死亡一名乌军六俄士兵陪葬!

俄军伤亡数据曝光!死亡超十万,每死亡一名乌军六俄士兵陪葬!

国际情爆猿
2024-09-28 02:19:28
天意?福建一家六口寺庙避雨遇难身亡,生前最后一条朋友圈曝光

天意?福建一家六口寺庙避雨遇难身亡,生前最后一条朋友圈曝光

娱乐帝皇丸
2024-09-27 16:51:33
1米82的张梓琳身材太出挑,有着逆天的长腿,也有着女神的光环

1米82的张梓琳身材太出挑,有着逆天的长腿,也有着女神的光环

视点历史
2024-09-28 00:10:02
55年授衔怪事:13军军长是中将,两位副军长是少将,政委只是大校

55年授衔怪事:13军军长是中将,两位副军长是少将,政委只是大校

文雅笔墨
2024-09-26 12:15:33
曾精确预言911的盲眼神婆预测今年8大事件,涉及中国的一条极震撼

曾精确预言911的盲眼神婆预测今年8大事件,涉及中国的一条极震撼

毓麟讲故事
2024-02-05 12:17:51
局势一夜变天!岛内开始清算?赖清德下死手,国民党或孤军奋战

局势一夜变天!岛内开始清算?赖清德下死手,国民党或孤军奋战

男女那点事儿儿
2024-09-27 16:44:36
山东小伙,在吉尔吉斯斯坦承包土地种蔬菜,被包工头看中做女婿

山东小伙,在吉尔吉斯斯坦承包土地种蔬菜,被包工头看中做女婿

史无戏言
2024-09-27 19:32:04
2024-09-28 06:14:44
量子位
量子位
追踪人工智能动态
10009文章数 175529关注度
往期回顾 全部

科技要闻

国产电动汽车,为何鲜有召回?

头条要闻

男子举报杨永信1年多后收到回复 曾一度准备着要自杀

头条要闻

男子举报杨永信1年多后收到回复 曾一度准备着要自杀

体育要闻

中网大冷!张帅2-0横扫6号种子纳瓦罗

娱乐要闻

《哈利波特》麦格教授去世 享年89岁

财经要闻

见证历史!A股持续暴涨 后市怎么走?

汽车要闻

标配电子外后视镜 东风本田灵悉L售12.98万

态度原创

艺术
亲子
游戏
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

亲子要闻

姐姐给弟弟同学钩了一个帽子,弟弟回来说同学很喜欢那个帽子

赛博黄金“黑暗之魂”系列5折促销 魂三134元

公开课

眼花失眠抽筋,你的肝该调调了

军事要闻

中国向太平洋发射洲际弹道导弹 现场图里藏着细节

无障碍浏览 进入关怀版