网易首页 > 网易号 > 正文 申请入驻

杀疯了!Gemini 2.5狂飙「高尔顿板」测试,编码横扫所有OpenAI模型

0
分享至

新智元报道

编辑:犀牛

【新智元导读】谷歌的AI编码能力正在掀起一场风暴!在高尔顿板测试中,Gemini 2.5 Flash以惊艳表现击败OpenAI多款模型,连谷歌首席科学家Jeff Dean都为其点赞。谷歌新模型「dayhush」已在网页开发领域崭露头角,性能超越Gemini 2.5 Pro,被网友称为「AI编码的地震性突破」。

编码能力一直是顶尖模型宣传的重点。

尤其是,AI大神Karpathy带火vibe coding(氛围编程)概念后,普通人也可以通过AI体验到编程的乐趣。

游戏、网页、3D建模,再加上最近爆火的MCP协议,大家玩得不亦乐乎。

不只是娱乐,很多AI专家、公司CEO、行业分析师甚至认为,AI可能会在2-3年内取代绝大部分的程序员。

AI编程真的有那么强吗?哪家的效果更好?

就在最近,网友RameshR通过高尔顿板(Galton board)测试,对比了Gemini 2.5 Flash、GPT-4o mini、o4-mini-high及o3等几个最新的模型。

结果他发现,Gemini 2.5 Flash在这项高尔顿板测试中表现炸裂,而OpenAI的几个模型则完全不行,没能搞定这个任务。

RameshR表示,Gemini 2.5 Flash几乎瞬间就能get到意图,生成的代码简洁又漂亮。

在Gemini 2.5 Flash上,他一共提示5次就搞定了。而在OpenAI的模型上,RameshR则折腾了半小时都没有完成,最后直接选择放弃。

可以看出,Gemini 2.5 Flash生成的动画中,整个高尔顿板的排布都没有明显的问题,小球的运动、碰撞也基本符合物理规律。

当然,最后小球的排列也是遵循正态分布。

RameshR的高尔顿板测试帖子发出后立即点燃了网友们的兴致,就连谷歌的首席科学家Jeff Dean也出来给他点赞。

当然,也是为了给Gemini 2.5 Flash站台。

资深工程师Ray Fernando使用相同的提示词在o4-mini-high上进行了测试,结果表现还是不太完美。

他不得不又在GPT-4.1上重新试了一次,表现还是差强人意。

图片下边柱子和固定的小球已经重合到一起了,小球的排列也不符合正态分布的规律。

还有网友使用其他的模型做了测试,比如Alex Kotenko就使用了Claude 3.7。

他表示在使用了相同的初始提示和一次后续调整就完成了测试。只不过从结果来看,小球的排列并不怎么符合正态分布。

而Isaac Naor则使用Gork模型一次就完成了测试。

可以看出Gork模型生成的动画在界面和小球的运动上表现还可以。

但小球最后的排列并不太符合正态分布规律,距离Gemini 2.5 Flash还有差距。

谷歌正势如破竹

这还只是Gemini 2.5 Flash的表现,Gemini 2.5 Pro的效果只会更好。

谷歌DeepMind正势如破竹!在第七代TPU Ironwood的加持下,Gemini模型不仅性能很强,性价比也格外的高。

谷歌似乎是找到了最佳编码模型的秘密。

刚刚,网友AshutoshShrivastava发帖称,谷歌又又又推出了一个新模型「dayhush」,已在网页开发领域上线。

更加夸张的是,这个新模型似乎比Gemini 2.5 Pro更出色。他还提供了新模型的一些更详细信息。

测试过「dayhush」的网友Taro Bushidō表示,「这将是对AI编码的一次地震性转变。」

网友MuffinV也认为,Dayhush是一个大的飞跃。

它的思考时间更长,效果也最好,而且目前没有任何其他模型能达到这种水平。

他使用Dayhush模型创建了一些知名网站,效果非常棒。

「没有任何模型能够如此精确地创建youtube和spotify的用户界面。」他说。

参考资料:

https://x.com/rezmeram/status/1912973797206155424

https://x.com/RDeepl/status/1913494086000279786

https://x.com/ai_for_success/status/1913482666566955305

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开封2小时,细菌数量暴涨!很多人天天在喝,有人甚至进急诊……

开封2小时,细菌数量暴涨!很多人天天在喝,有人甚至进急诊……

南粤女声
2026-06-03 19:15:30
【2026.6.3】爆姐的饭后爆料:生命不止,爆料不息!

【2026.6.3】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-06-03 22:48:20
甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

神奇的锤子
2025-02-23 22:11:02
傅首尔自曝2年瘦了38斤:学会了健康地吃家常菜和点外卖

傅首尔自曝2年瘦了38斤:学会了健康地吃家常菜和点外卖

韩小娱
2026-06-03 05:32:52
14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

14亿人都不会忘却!揭开核酸大王张核子的真面具:权力变现大公

大鱼简科
2026-02-07 09:52:29
美股芯片股盘前大涨,迈威尔科技涨超10%,英特尔涨超7%,中概股普跌,国际油价拉升

美股芯片股盘前大涨,迈威尔科技涨超10%,英特尔涨超7%,中概股普跌,国际油价拉升

21世纪经济报道
2026-06-03 18:58:16
沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

沙坦类药物7种,只有2种不伤肝,选错小心肝损伤!

药师方健
2026-06-02 22:46:28
$1.36亿全现金交易!维州最贵豪宅及毗邻公寓楼出售

$1.36亿全现金交易!维州最贵豪宅及毗邻公寓楼出售

澳洲红领巾
2026-06-01 14:54:57
乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

乌克兰相关人士表示,通过军事手段恢复乌克兰1991年边界是可能的

山河路口
2026-06-03 14:26:05
国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

国际乒联亲宣!64岁蔡振华再破天花板,让刘国梁和乒坛“沉默”了

以茶带书
2026-05-05 17:10:10
暴雨一夜绝收570万亩!1.4万亿斤粮食却创新高!谁在吃气候红利?

暴雨一夜绝收570万亩!1.4万亿斤粮食却创新高!谁在吃气候红利?

三农雷哥
2026-06-03 16:30:51
女人有以下4种表现,往往是允许你撩的信号

女人有以下4种表现,往往是允许你撩的信号

叶飞飞情感屋
2026-06-03 19:20:31
72岁林青霞剪了短发年轻25岁不止,穿白色连衣裙,完全没有大妈味

72岁林青霞剪了短发年轻25岁不止,穿白色连衣裙,完全没有大妈味

蓓小西
2026-04-16 09:32:13
为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

为什么领导都喜欢上班?网友曝光领导抽屉都是性用品:丝袜、套套

黯泉
2026-06-01 15:33:05
纳达尔:打破我在法网的纪录,比打破德约的24冠更难

纳达尔:打破我在法网的纪录,比打破德约的24冠更难

懂球帝
2026-06-03 23:45:34
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
穆里尼奥:我能让科纳特重返巅峰

穆里尼奥:我能让科纳特重返巅峰

绿茵狂热者
2026-06-03 00:03:08
从涨停到跌停,25万股民坐上过山车,*ST闻泰上演天地板

从涨停到跌停,25万股民坐上过山车,*ST闻泰上演天地板

21世纪经济报道
2026-06-03 16:31:50
曾是TVB实力派演员,如今却沦落拍短剧,这四位演员让人唏嘘不已

曾是TVB实力派演员,如今却沦落拍短剧,这四位演员让人唏嘘不已

手工制作阿歼
2026-06-04 01:38:39
郑钦文的失败是必然结果!爆红后商业代言邀约不断,疏于打球磨练

郑钦文的失败是必然结果!爆红后商业代言邀约不断,疏于打球磨练

童叔不飙车
2026-05-26 22:43:00
2026-06-04 03:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

头条要闻

男子不想上班辞职后上武当山当道士 8个月后选择下山

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

时尚
数码
旅游
健康
游戏

月经、初潮与生育真相,那些藏在动画片里的性启蒙

数码要闻

高通CEO安蒙:“2026年是智能体之年”,Token成AI新货币

旅游要闻

“一票跨两省”还游客完整壶口 | 新京报社论

违规干细胞抗衰美容,为何肆无忌惮

曝《塞尔达》传奇重制版将亮相!任天堂发布会下周见

无障碍浏览 进入关怀版