网易首页 > 网易号 > 正文 申请入驻

大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!

0
分享至

白交 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

太快了太快了。

一夜间,大模型生成已经没什么延迟了……来感受下这速度。

眼花缭乱了吧,生成速度已经接近每秒500 tokens。

还有更直观的列表对比,速度最高能比以往这些云平台厂商快个18倍吧。

(这里面还有个熟悉的身影:Lepton)

网友表示:这速度简直就是飞机vs走路

值得一提的是,这并非哪家大公司进展——

初创公司Groq,谷歌TPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)

据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。

换言之,任何一个大模型都可以部署实现。

目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。

他们还在官网上喊话奥特曼:

你们推出的东西太慢了……

每秒接近500tokens

既然如此,那就来体验一下这个号称「史上最快推理」的Groq。

先声明:不比较生产质量(手动狗头)。就像他自己说的那样,内容概不负责。

目前,演示界面上有两种模型可以选择。

就选择Mixtral 8x7B-32k和GPT-4同擂台对比一下。

提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。

结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。

不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……

至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。

除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接从OpenAI的API进行简单切换。

可以免费试用10天,这期间可以免费获得100万Tokens。

目前支持Llama 2-70B 和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。

价格方面,他们保证:一定低于市面上同等价格。

不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens

谷歌TPU团队创业项目

Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是谷歌TPU的原班人马。

公司领导层的10人中,有5人都曾有谷歌的工作经历,3人曾在英特尔工作。

创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。

Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。

LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。

据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而 Groq 设置每个tokens大约需要1焦耳到3焦耳。

因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。

延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。

甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。

据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。

在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。

结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。

Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。

此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。

而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。

它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。

目前,Groq的官网正在招人。

技术岗位年薪为10万-50万美元,非技术岗位则为9万-47万美元。

“目标是三年超过英伟达”

除此之外,这家公司还有个日常操作是叫板喊话各位大佬

当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满~

马斯克也曾被他痛斥,说“剽窃”自己的名字。

在最新讨论中,他们疑似又有了新操作。

一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:

三年时间内赶超英伟达

这下好了,黄院士的核武器有新的目标了。

参考链接:
[1]https://wow.groq.com/
[2]https://news.ycombinator.com/item?id=39428880

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网红东北雨姐坐商务舱外出!全程戴口罩神情落寞,老蒯随行无交流

网红东北雨姐坐商务舱外出!全程戴口罩神情落寞,老蒯随行无交流

裕丰娱间说
2024-11-12 10:39:58
难以分辨?从今以后,中国又多了1个南沙区!

难以分辨?从今以后,中国又多了1个南沙区!

南沙部落
2024-11-12 10:29:55
揭秘:斯诺登在港澳潜逃时发生枪战,我军出动击毙多人,曝光细节

揭秘:斯诺登在港澳潜逃时发生枪战,我军出动击毙多人,曝光细节

兰姐说故事
2024-11-12 22:00:03
3:0!上海女排五胜,高意主力不稳,福建队怯战,却收获意外惊喜

3:0!上海女排五胜,高意主力不稳,福建队怯战,却收获意外惊喜

跑者排球视角
2024-11-12 21:23:20
一百多年过去了,现在再来看“戊戌变法”的内容,不由得一声叹息

一百多年过去了,现在再来看“戊戌变法”的内容,不由得一声叹息

文史道
2024-11-07 06:45:02
范冰冰竟然搭上了马斯克?被封杀的这些年,她到底忙了些什么?

范冰冰竟然搭上了马斯克?被封杀的这些年,她到底忙了些什么?

柴叔带你看电影
2024-11-12 00:07:40
国产替代加速!2024年绩优+高增长光刻机名单曝光,建议收藏!

国产替代加速!2024年绩优+高增长光刻机名单曝光,建议收藏!

风口招财猪
2024-11-13 01:50:07
根本不给机会!广东队失意后卫被彻底打入冷宫,当初该主动离开?

根本不给机会!广东队失意后卫被彻底打入冷宫,当初该主动离开?

老叶评球
2024-11-12 11:16:27
特斯拉销量骤降;本田发动机调查;零跑考虑新基地;宝马利润暴跌 | 11月13日汽车行业日报

特斯拉销量骤降;本田发动机调查;零跑考虑新基地;宝马利润暴跌 | 11月13日汽车行业日报

汽车圈大小事儿
2024-11-13 01:03:05
马筱梅直播双脸浮肿,被指一脸“孕”相,疑似遵循传统先不公

马筱梅直播双脸浮肿,被指一脸“孕”相,疑似遵循传统先不公

娱圈小愚
2024-11-12 13:48:46
弘一法师:钱没了可以再挣,工作没了可以再找,朋友没了可以再交

弘一法师:钱没了可以再挣,工作没了可以再找,朋友没了可以再交

清风拂心
2024-11-09 09:15:03
由于对中国的制造业成本一无所知,很多外国网友惨遭反复打脸。

由于对中国的制造业成本一无所知,很多外国网友惨遭反复打脸。

侃半仙
2024-11-11 22:20:21
《再见爱人4》新一期 观众疯狂吐槽 不能把这几个人换下去就别播了

《再见爱人4》新一期 观众疯狂吐槽 不能把这几个人换下去就别播了

娱乐的小灶
2024-11-11 09:49:31
山东:解除!重要预报:今夜起将迎明显降雨,两个降雨时段公布,大风降温连着来

山东:解除!重要预报:今夜起将迎明显降雨,两个降雨时段公布,大风降温连着来

鲁中晨报
2024-11-12 13:57:05
这家3000多人的游戏大厂,今日入驻全球总部大厦!

这家3000多人的游戏大厂,今日入驻全球总部大厦!

记录生活日常阿蜴
2024-11-12 10:08:10
22岁厨师相亲42岁老板娘,一眼就沦陷:姐姐好温柔,见面就送鞋子

22岁厨师相亲42岁老板娘,一眼就沦陷:姐姐好温柔,见面就送鞋子

唐小糖说情感
2024-11-12 16:25:57
欧洲那么多名酒,为何海盗们偏偏爱喝朗姆酒,朗姆酒真这么好喝?

欧洲那么多名酒,为何海盗们偏偏爱喝朗姆酒,朗姆酒真这么好喝?

历史碟中谍
2024-11-12 16:36:25
新发动机果然给力,歼-35A飞出一串马赫环,为10年前雪耻!

新发动机果然给力,歼-35A飞出一串马赫环,为10年前雪耻!

天下布武
2024-11-12 15:54:26
3:2!江苏女排2分险胜,北京主二传回避,金烨接64次一传

3:2!江苏女排2分险胜,北京主二传回避,金烨接64次一传

跑者排球视角
2024-11-13 00:23:31
证监会的重要发声!A股继续迎来“反攻”行情(11.12)?

证监会的重要发声!A股继续迎来“反攻”行情(11.12)?

风口招财猪
2024-11-12 01:49:42
2024-11-13 03:28:49
量子位
量子位
追踪人工智能动态
9592文章数 175692关注度
往期回顾 全部

科技要闻

除去销量,比亚迪还剩什么?

头条要闻

特朗普胜选后 欧洲三大芯片商就对华芯片出口集体发声

头条要闻

特朗普胜选后 欧洲三大芯片商就对华芯片出口集体发声

体育要闻

失踪人口回归!马拉西亚进入曼联U21对阵哈镇的比赛名单

娱乐要闻

妖怪逼叶珂注销账号!称黄晓明不知情

财经要闻

严介和家族还不上数十万元小账单?

汽车要闻

昊铂HL官图发布 将于2024广州车展首发亮相

态度原创

教育
健康
本地
数码
艺术

教育要闻

QS100后最值得申请的英国大学!

花18万治疗阿尔茨海默病,值不值?

本地新闻

重庆记忆|跟黑神话悟空一起打卡大足石刻

数码要闻

曝三星83英寸QD-OLED电视2025年推出 或用两种屏幕

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

无障碍浏览 进入关怀版