网易首页 > 网易号 > 正文 申请入驻

超越GPT-4o,Claude 3.5一夜封王!10倍编码速度逆天,全网最全实测来了

0
分享至


新智元报道

编辑:编辑部

【新智元导读】昨夜上线的Claude 3.5 Sonnet,性能直接吊打了GPT-4o,甚至价格还更便宜。网友们纷纷展开实测,有人表示自己一半的工作已经可以由它替代了!而最让人惊喜的新功能,莫过于Artifacts了。

就在昨天,Anthropic深夜发布了下一代旗舰大模型Claude 3.5 Sonnet。

据称,Claude 3.5 Sonnet不仅在评估中胜过GPT-4o,还保持了作为「中杯」的最优性价比,超过了自家的Claude 3 Opus。


如今,Claude 3.5 Sonnet已经面向全球开启免费试用了。

在费用上,Sonnet处理每百万输入token仅需3美元,每百万输出token仅为15美元。

对比之下,GPT-4o的每百万输入token收费5美元,每百万输出token为15美元,在价格上可以说是不相上下。正式对打时,各家可以说是已经都压低到了成本价。


前OpenAI对齐团队负责人Jan Leike表示,我喜欢Sonnet新模型。我经常要求它向我解释ML论文。虽然不一定全对,但可能比我略读要好,而且速度也快得多。自动对齐研究越来越近了......


有网友同样表示,「我有一半的工作都可以由Claude 3.5 Sonnet来完成,我真是太兴奋了」。


Anthropic的产品经理Michael Gerstenhaber将新模型称之为「世界上最智能的模型」。

他表示,「我们正处于这个行业寒武纪大爆发的开端」。

今年晚些时候,Claude 3.5 Haiku和最强版Claude 3.5 Opus将会陆续推出。

模型厂商们是彻底卷起来了!

网友实测

Claude 3.5 Sonnet发布之后,在全网掀起轩然大波,网友们纷纷上手开启一波测试。

10倍编码速度惊人

先来看看Claude 3.5 Sonnet写代码的速度有多可怕。

网友仅在一次对话中,就用threejs+cannonjs创建出一个3D太阳系模型,包含了物体和碰撞效果。


另一个网友称,使用Claude 3.5 Sonnet进行编码比GPT-4,或任何其他大型语言模型效率高10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,简直令人惊叹。


没有什么比使用Claude 3.5 Sonnet一次性编写一个程序,来解密维吉尼亚密码更棒的事了。




许多网友纷纷夸赞Claude 3.5 Sonnet速度快到起飞。


2分钟一个小游戏

一位开发者直接用了不到2分钟,做出了一个戴着太阳镜的小狗吃骨头的游戏。



另有人花了3分钟的时间,做出了马里奥克隆版,并且为角色提供了动画效果。


还有另一款「原创」游戏Color Cascade。


用2分钟创建一个蛇梯棋游戏。

网友表示,「我可以通过新的Artifacts功能实时查看代码并玩游戏。使用Claude的编码体验比GPT-4和Gemini好10倍」。


这位网友用Sonnet做了一款乒乓球游戏。


不像ChatGPT,它没有用到编码解释器。在这个过程中,我们可以制作文档、笔记和其他内容,其中一个选项的html/jss。

神经网络可视化

有人还去做了可视化深度学习,不过因为消息限制,不得不暂停。



下面是用动画效果解释反向传播的工作原理。


重建3D「模拟矩阵」

Claude 3.5 Sonnet是第一个能在首次尝试中,重现电影《黑客》中「数据流」3D场景的模型。



而且,在制作恐怖游戏上,Claude 3.5 Sonnet设计的3D结构比Opus更好。



SVG效果图

Claude 3.5 Sonnet可以画出独角兽SVG图。



它甚至可以生成芯片制造工艺流程示意图。


「井字棋」游戏失败

OpenAI研究科学家,德扑之父使用新模型之后表示,

像GPT-4o(现在还有Claude 3.5 Sonnet)这样的前沿模型,在某些方面可能达到了「聪明的高中生」的水平,但它们在像「井字棋」这样的基本任务上无法完成。

人们曾希望原生的多模态训练能够有所帮助,但事实并非如此。




Artifacts改变交互

从上文也可以看出,这次更新的一大亮点,就是Claude 3.5引入的超强实时交互功能Artifacts了。

这一功能,可以说是开启了交互式AI最有潜力的形式。

它标志着Claude从对话式AI向协作工作环境的转变。而在未来,Anthorpic的设想是,整个组织都能在共享空间中集中知识、文档、工作,而Claude会随时提供服务。

在沃顿商学院教授Ethan Mollick看来,Artifacts可以说是一个简化版的代码解释器。

他上手创建的,是这样一个螃蟹小游戏。

开始的版本是这样的,稍显平淡。


教授直接问,能不能让游戏恐怖一点?然后氛围感瞬间就上来了。


大家的直观感受是,使用Claude和Artifacts,就像在IDE中工作一样。


这位日本网友介绍说,Artifacts简单来说,就是一个显示代码预览的功能。它很容易直观地理解,可以用于多种目的。

-网站创建

-形状

-图形

-文档

-简单游戏

它可以帮忙创建简单的网站。


只要跟它说“制作一个计算器应用程序”,一个使用React的计算器应用程序预览就完成了。


通过Artifacts,可以让Sonnet使用HTML创建简单的幻灯片材料。

这位网友发现,这个过程中可以向Sonnet展示设计图片,它们会把这些图片用作参考。


Claude 3.5 Sonnet不仅编码效率比GPT-4o或任何其他LLMs都高10倍,而且因为Artifacts功能可以在聊天的旁边生成并运行代码,因而可以提供令人惊叹的用户体验。

比如让它用React生成一个贪吃蛇的游戏。


随后,我们还可以用自然语言对游戏进行修改,比如做一个美观的背景,或者让蛇有一个化身。


因为可以一边创建游戏,一边立刻在右侧窗口中玩这个游戏,Artifacts功能可以说是彻底贯彻了从对话式人工智能转向协同工作环境的想法。


总的来说,Artifacts似乎是Claude长远远景的一个信号。

长期以来,Anthropic一直表示自己主要关注企业,并且计划将Claude变成一种工具,让企业「安全地」将他们的知识、文档和正在进行的工作集中在一个共享空间中。

听起来,这种概念更像是Notion或Slack,而不是ChatGPT。而在这种系统中,Anthropic的模型将处于整个系统的中心。

吊打GPT-4o,上一代2倍速

总的来说,Claude 3.5 Sonnet在生成速度方面,实现了飞升,是上一代超大杯Claude 3 Opus的2倍。

而且,在视觉方面的表现,新模型全面超越了GPT-4o。OpenAI上个月刚发布的新模型,没想到这么快被取而代之。


以下是官方博客中,做的一些基准测试。

从图中可以看出,Claude 3.5已经在多数基准中,领先GPT-4o、Gemini 1.5,以及Llama-400B的模型。

在代码基准中,Claude 3.5在零样本情况下,取得了92%的成绩。在数学上,零样本+CoT加持Claude 3.5还是有些落后于GPT-4o。


在视觉基准上,Claude 3.5 Sonnet在视觉问答MMMU基准上,略逊于GPT-4o。

不过,视觉数学推理、科学表格、图表问答、文件问答上,都拿下了最高分。

Claude不仅能准确识别、转录图像中的文字内容,还结合了强大的代码生成能力,将多个模态真正集成在一起。


与众不同的是,Claude 3.5 Sonnet并不像GPT-4o那样集成了语音助手,或者能够生成图像,而且Anthropic暂时也没有这一打算。

Anthropic联创兼总裁Daniela Amodei在接受彭博独家采访中提到,「我们的目标是使其成为所有企业业务的首选模型」。


她继续称,从研究的角度来看,我们能够生成图像输出,但绘制一只「滑雪的猫」图像并不是我们的企业客户所要求的,所以我们并不优先考虑这一点。

目前,制药巨头Pfizer已经利用Claude模型,帮助发现新药物。

未来,模型越智能,就越有能力支持这种非常高水平的智力工作。显然,Anthropic正在努力为它想要瞄准的企业公司进一步差异化。

可以扩展Claude交互方式的新功能Artifacts,便是一个新的尝试。

Anthropic的改进速度,简直令人惊叹。

如今Anthropic的这一步,必将逼得其他竞争对手跟上。

要知道,Claude不像Gemini或ChatGPT那样受到更多关注,但它在比赛中却非常受欢迎。

参考资料:

https://www.anthropic.com/news/claude-3-5-sonnet

https://techcrunch.com/2024/06/20/anthropic-claims-its-latest-model-is-best-in-class/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这才是拜登皮下的真面目

这才是拜登皮下的真面目

蓝钻故事
2024-06-26 21:08:20
队史首位状元!老鹰选法国天才里萨谢 会成下一位“文班亚马”吗

队史首位状元!老鹰选法国天才里萨谢 会成下一位“文班亚马”吗

醉卧浮生
2024-06-27 08:10:14
A股:历史已经在重演,做好准备吧,明天周五会迎来更大级别反攻

A股:历史已经在重演,做好准备吧,明天周五会迎来更大级别反攻

一丛深色花儿
2024-06-27 11:37:07
河北男子被逼下跪爬行后续:4名霸凌者身份曝光,教育局急于甩锅

河北男子被逼下跪爬行后续:4名霸凌者身份曝光,教育局急于甩锅

六毛朵朵
2024-06-27 16:58:25
北京地铁冲突激烈升级:让座风波引爆网络,谁是对谁是错?

北京地铁冲突激烈升级:让座风波引爆网络,谁是对谁是错?

一口娱乐
2024-06-27 11:33:49
热搜第一!李雪琴自称不会游泳却有二级证书 发证单位:符合资质

热搜第一!李雪琴自称不会游泳却有二级证书 发证单位:符合资质

醉卧浮生
2024-06-27 18:41:16
预警!预警!预警!暴雨、大暴雨又要来了!

预警!预警!预警!暴雨、大暴雨又要来了!

北青网-北京青年报
2024-06-27 15:13:09
日本人苏州遇袭后续:持刀男子身份被扒,冲突原因疑似曝光了

日本人苏州遇袭后续:持刀男子身份被扒,冲突原因疑似曝光了

海豚女王
2024-06-27 12:01:10
南海局势大变?中国人被大规模抓捕,中使馆紧急回应!

南海局势大变?中国人被大规模抓捕,中使馆紧急回应!

趣说世界哈
2024-06-27 11:37:58
2-1!2-0!欧洲杯爆冷:小组赛剧终,16强全部诞生,8队出局

2-1!2-0!欧洲杯爆冷:小组赛剧终,16强全部诞生,8队出局

叶青足球世界
2024-06-27 05:02:42
文班:我对球队选卡斯尔很开心 他是本届选秀中最成熟的球员之一

文班:我对球队选卡斯尔很开心 他是本届选秀中最成熟的球员之一

直播吧
2024-06-27 21:16:05
国防部:坚决反对美西方在乌克兰问题上甩锅推责

国防部:坚决反对美西方在乌克兰问题上甩锅推责

新京报
2024-06-27 17:11:25
王子文吴谨言同框,俩人穿搭不同气质差别也很大,但红黑配真养眼

王子文吴谨言同框,俩人穿搭不同气质差别也很大,但红黑配真养眼

影苏爱时尚
2024-06-25 19:21:11
985副校长,履新教育部司长!

985副校长,履新教育部司长!

青塔
2024-06-27 11:09:33
华为获得三个国家级一等奖!

华为获得三个国家级一等奖!

互联鱼
2024-06-27 11:26:59
国家发改委机关服务中心计华投资管理有限公司原董事长钱一民被查

国家发改委机关服务中心计华投资管理有限公司原董事长钱一民被查

新京报
2024-06-27 17:32:10
伊万能做到吗?国足拿小组第4的生死线找到了:13分,少1分也不行

伊万能做到吗?国足拿小组第4的生死线找到了:13分,少1分也不行

足球大腕
2024-06-27 17:17:33
官媒下场!南方医科大强硬处罚俞莉老师后,央媒、党媒强势发声

官媒下场!南方医科大强硬处罚俞莉老师后,央媒、党媒强势发声

十三级台阶
2024-06-26 21:55:50
觉醒吧!中国需要真实声音,拒绝盲目歌颂!

觉醒吧!中国需要真实声音,拒绝盲目歌颂!

雪莉故事汇
2024-06-24 07:27:47
“反清复明”天地会,在海外建立了一个国家,国土面积比日本还大

“反清复明”天地会,在海外建立了一个国家,国土面积比日本还大

文史道
2024-06-26 21:40:06
2024-06-27 22:42:44
新智元
新智元
AI产业主平台领航智能+时代
11205文章数 65539关注度
往期回顾 全部

科技要闻

朱啸虎:高度怀疑GPT-5还能不能做出来

头条要闻

身家300亿前东北首富陷债务漩涡 旗下公司还不上75万

头条要闻

身家300亿前东北首富陷债务漩涡 旗下公司还不上75万

体育要闻

排名只比国足高14位 他们打进欧洲杯16强

娱乐要闻

李雪琴北大学历情况被扒,牵扯多人

财经要闻

争5亿房产、传4P丑闻,百亿大佬又开打了

汽车要闻

32万公里实车直播拆解 极氪凭事实证明实力!

态度原创

时尚
本地
亲子
游戏
公开课

钮祜禄氏的心头好,这些皇家高定你爱了么?

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

亲子要闻

急救小知识

微软专利文件遭曝光 疑似被搁置的Xbox云主机

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版