网易首页 > 网易号 > 正文 申请入驻

OpenAI一更新,把我朋友圈变成了吉卜力?

0
分享至


自打前天凌晨,奥特曼这老小子发布了 GPT-4o 文生图模型以后,哥们是真被这玩意给刷屏了。

这两天一打开工作群,就能看到编辑部同事们拿 GPT-4o 疯狂整活,有做头像的,有做表情包的,还有画漫画的,点子王是一个比一个高。


甚至我一打开小红书,首页推送的好多也都是拿 GPT 画画的。。。

好好好,看来 OpenAI 这是真支棱了,奥特曼抱完孩子,归来仍是顶流是吧。


可能有差友还不知道这是发生啥了,简单说吧,OpenAI 放出来了个 GPT-4o 文生图模型,这玩意直接让用嘴 P 图、敲字画图的离谱需求,成了可能。

不仅在他们官网直接就能用,而且效果可以说是相当攒劲,当时看完我就一个想法,这波可能要把不少 AI 从业者和设计师们都给整得怀疑人生了。。。


你瞅瞅他们官网的演示案例,像什么抓拍的马克思、心有猛虎的小猫;还有让简单的草图变成照片、让倒影里的摄影师转过身来和你击掌啥的,这特么你告诉我居然没P图?

于是,昨天一大早,哥们就爬起来充了 20 刀,直接上手就是一个测的开。

爽玩了一天以后,我只能说,虽然瑕疵还是有不少,但至少从四个方面看,OpenAI 这一波的生图功能,确实又秀又6。


首先,画面保持和图片风格转化方面,4o 主打一个驾轻就熟。

在经过了金毛火锅的同意下,我们拿出了一张火锅和机器狗的对峙照片,来让 AI 转成漫画版。


你瞅瞅,这神态,真别说还挺对味的。

虽然细节上有点翻车,把火锅眼睛补上了,但鉴于咱给的图也比较糊,倒也可以理解。

反过来,把画改成真实风格,这玩意搞得也不错,我们也上传了一张刻在不少人基因里的孔子图片,让它以此为原型,生成一张真实照片。


反正看到效果,不知道大伙们感受到一股时空穿越的感觉没?

对比一下目前其他搞得不错的文生图模型,大伙儿可能就会对GPT-4o到底什么水平有个参考了。

下面这几幅都是同一套提示词搞出来的,依次是 Midjourney , ImageFX , GPT-4o和之前挺火的 Gemini-2.0-flash-exp 。


很明显,GPT-4o 和 Midjourney 是一档的,而且效果可以说遥遥领先于同行。。。

不过,虽然类似风格转化和逼真图像生成的活,像 Midjourney 之类的 AI 也能跟 GPT-4o 掰掰手腕,大伙们之间顶多就是 80 分和 90 分之间的差别。

而接下来的四点,可能真的就是 Only OpenAI can do 了。


第一个是在文本的渲染上,4o 模型这次残暴得甚至有点可怕。

看下面这个,我让他生成一个学者在白板上写量子力学的公式和理论,虽然内容我也基本告诉它了,但这又有数学公式又有框图的,怎么说也很难整对吧。


结果人家全识别出来整到板书上去了,白板的倒影效果甚至都能做出来。

以防大伙们不知道这是个啥水平,相同的提示词,我用 OpenAI 某友商旗下的模型试了试,效果是这样的。

虽然看起来是那么一回事儿,但细看一下图里的文字内容,你就知道为啥 OpenAI 这波有点强得离谱了。


第二个就是在多主体的生成上,4o 模型这次主打一个又准又狠。

比如大伙们请看这段提示词,小小的一段话里面暗藏玄机,7个不同的元素里,个数和颜色都不一样。。。


其他模型这边,则直接慌了阵脚,交出了这样的作业,在数字上翻了车。


反观 OpenAI 这边,分毫不差地执行了咱的要求,稳如老狗简直是。

按照 OpenAI 的说法,其他模型在处理 5-8 个对象时就顶不住了,而 4o 最多能处理 10-20 个不同的对象。

而且你要回头细品,还会发现 OpenAI 的图里元素都不是跟别的模型一样随机摆放的,而是有设计,像是一个有故事的动画场景一样。。。


最后一点,我觉得最牛的,那就是 4o 的图片生成模型在对于文字和图像的理解这方面,就跟长了脑子一样。

比如说在复杂指令,特别是在长文本上理解上,它不仅能搞懂你想表达啥,还跟开挂一样,能把你要的那个画面直接给到。

咱在测试的时候还专门给它上了强度,叫它画一个房间里的大象,但不能让观众直接看见有大象,得是那种明明存在,但所有人都看不见,但在氛围里又真的存在的大象。

很刁钻是吧,就是像这种复杂指令,你看看它怎么处理。


该说不说,看到这个图的时候我是真没想到,这人家都能画出来,还是写实风格的,用光影搞了一个透明的空气大象。

除了理解,它这种把知识作为链接,真正能把让文本和图像联系起来的能力尤其出色。

举个例子,不给任何参考信息,让它直接用插图解释一样牛顿发现的光的折射原理,他能直接给出教科书级的专业插图。


所以说,这 OpenAI 也是支棱起来了,在大家都以为他要拉的时候,搞出来这么一个牛逼哄哄的东西。

不过,这玩意之所以比以往的文生图模型厉害,里边其实也有一些说法。

在技术博客里,OpenAI 说他们用的是自回归方法,而不是以前文生图里常用的Diffusion 扩散模型。前者是不停靠之前的信息来预测后面的,再用后面的预测更后面的;Diffusion 则是让模型从一堆乱码中,逐渐从混乱变清晰。


相比 Diffusion,自回归的好处恰恰就是在语义识别上更牛,特别是你要给出唠唠叨叨的一大串需求的时候,以前的文生图模型就理解不全面,所以大家老是没法跑出来符合自己心意的图。

所以在用 GPT-4o 问生图的时候你就会发现,这玩意出图实际上也是从上往下,一点一点画出来的,就跟 AI 写文章一样一个词一个词往外蹦,这就很自回归。


好玩的是,OpenAI 第一次大火就是在用了自回归 Transformer 模型的GPT-3.5上,没想到现在图片生成领域,他们又靠着自回归扳回一局。

当然了,用了这种新方法,可能生成图片的时间会稍微长一点,但是 OpenAI 觉得,为了这么高质量的图片,这点时间还是值得的。


或许也因为是自回归模型的原因,GPT-4o 生成的图片也会出现一些大模型幻觉

但这倒不是多根手指啥的,而是图片元素如果过多,或者长度太长,到后面就会崩了。

比方下面这个,我们让它生成一堆元素贴纸组成的海报:


结果虽然你一打眼觉得它好像搞得像模像样,但细看就会发现,它多搞了机器人和冲浪者,弄丢了无人机,就还是比较马虎的。

官方博客还说,他们虽然在拉丁文字处理上整挺好,但对别的小语种,就不大行了。

比如我们搞点三哥那边的文字,它给生成的就有问题,细节上也是缺胳膊少腿的。


但话又说回来,这其实也都能理解。照我看,相比 GPT-4o 尚有的这些小缺点,这玩意给业界最大的震撼恐怕还不止是图片质量,而是它越来越让人意识到,AI更新的速度实在是太快了。

以前费老大劲研究出来的那些所谓的“经验”,在模型能力突飞猛进面前,真的就显得有点尴尬,甚至可能一夜之间就变得毫无价值。

比如有个老哥,看到 GPT-4o 的效果以后,心态就崩了。


好不容易花了大把时间,又是琢磨提示词,又是各种调参,刚把一个提示词或者工作流弄得差不多能打个 70 分了,结果没过几天,人家又冒出来个知识库加工作流的新玩意儿,直接把之前的努力给顶替了。等你刚适应了知识库加工作流,还没捂热乎呢,更厉害的智能体又来了。

所以说这么来看的话,我们使用AI的这些经验,保质期实在跟不上 AI 的速度,于是真正能让你立于不败之地的,还得是模型本身的能力够不够硬。

也就是说,模型能力强了,很多以前需要我们绞尽脑汁去琢磨的东西,模型自己就能轻松搞定,我们的创造力也能更自由,而这,才是技术爆发时代对人的红利。

撰文:纳西

编辑:江江 & 面线

美编:焕妍

图片、资料来源

OpenAI,X(@remixdesigner),小红书等,部分图源网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

缅甸的地震不止是7.9级,同时也可能是一次“超音速灾难”。

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
丹尼尔斯有望创2000年以来单赛季抢断纪录 历史纪录为301次!

丹尼尔斯有望创2000年以来单赛季抢断纪录 历史纪录为301次!

直播吧
2025-03-31 10:40:23
出生于1984年,张锡锋已任浙江嘉兴市秀洲区委书记

出生于1984年,张锡锋已任浙江嘉兴市秀洲区委书记

澎湃新闻
2025-03-31 19:36:29
无数人心中的NO.1封神美剧,值得通宵去看

无数人心中的NO.1封神美剧,值得通宵去看

来看美剧
2025-03-31 23:24:37
玉体横陈,有容“乃”大……

玉体横陈,有容“乃”大……

印象逍遥子
2025-03-27 17:28:10
华为又一重磅产品发布!

华为又一重磅产品发布!

电动知家
2025-03-31 13:38:52
乌军游骑兵特种部队在别尔哥罗德歼灭俄军精锐第76空降师突击队

乌军游骑兵特种部队在别尔哥罗德歼灭俄军精锐第76空降师突击队

环球热点快评
2025-03-31 13:55:47
电话打到北京,特朗普亲口表态,中方高层接到电话,谈拢一条共识

电话打到北京,特朗普亲口表态,中方高层接到电话,谈拢一条共识

军器战位
2025-03-31 22:03:27
为什么说社保的本质是税?还是很重的税!

为什么说社保的本质是税?还是很重的税!

阿莱美食汇
2025-03-30 21:58:36
2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

2024年中国生育率数据出炉:老百姓对“断绝香火”危机的冷漠!

诗词中国
2024-12-27 13:25:22
一集裸十次,HBO把美剧拍明白了

一集裸十次,HBO把美剧拍明白了

来看美剧
2025-03-10 14:13:30
官宣下课!罗泽告别球迷:我永远是莱比锡人,感谢你们对我的支持

官宣下课!罗泽告别球迷:我永远是莱比锡人,感谢你们对我的支持

直播吧
2025-04-01 07:13:14
阿里收购一家创业公司,只为让前钉钉总裁回归 | 钛媒体焦点

阿里收购一家创业公司,只为让前钉钉总裁回归 | 钛媒体焦点

钛媒体APP
2025-03-31 22:00:18
被喷烂的特斯拉FSD,怎么突然牛起来了

被喷烂的特斯拉FSD,怎么突然牛起来了

蓝字计划
2025-03-31 17:05:21
美的集团彻底清仓小米 合计套现近20亿元!

美的集团彻底清仓小米 合计套现近20亿元!

21世纪经济报道
2025-03-31 13:37:36
蔚来纯电小车萤火虫内饰公布:可选 8 种配色“浮光氛围灯”

蔚来纯电小车萤火虫内饰公布:可选 8 种配色“浮光氛围灯”

IT之家
2025-03-31 19:53:12
埃迪:没打篮球时就被和姚明比较 在休斯敦甚至被认成姚明

埃迪:没打篮球时就被和姚明比较 在休斯敦甚至被认成姚明

直播吧
2025-03-31 16:20:25
自信满满!里夫斯为何拒绝湖人4年9000万的续约合同?

自信满满!里夫斯为何拒绝湖人4年9000万的续约合同?

田先生篮球
2025-03-31 09:53:40
媒体人:有无赵睿新疆完全不一样 刘炜执教首个赛季不用过多苛责

媒体人:有无赵睿新疆完全不一样 刘炜执教首个赛季不用过多苛责

直播吧
2025-03-31 23:13:15
“句句不提乡愁,句句都是乡愁!”这名初三女生的作文为何感动全网?

“句句不提乡愁,句句都是乡愁!”这名初三女生的作文为何感动全网?

潇湘晨报
2025-03-29 09:59:07
Makiyo被光速打脸,S妈接受专访:欠钱是事实,今生不还来生还

Makiyo被光速打脸,S妈接受专访:欠钱是事实,今生不还来生还

阿凫爱吐槽
2025-03-30 21:26:37
2025-04-01 07:35:00
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
8688文章数 488281关注度
往期回顾 全部

科技要闻

朱啸虎放狠话遭行业围攻,普通人该信谁?

头条要闻

美国前常务副国务卿:我们从没遇到过特朗普这样的总统

体育要闻

用断过的右腿倒钩,32岁中国前锋的重生

娱乐要闻

金秀贤记者会说谎被拆穿!就是他本人!

财经要闻

200亿估值人形机器人,陷停摆危机

汽车要闻

《重返巅峰》:雷诺集团的"非典型复兴"与中国方程式

态度原创

本地
健康
游戏
艺术
公开课

本地新闻

春色满城关不住|来重庆酉阳,赴一场世外桃源之约

嚼槟榔+吸烟+HPV感染=口腔癌?

《燕云十六声》新主线剧情4.3解锁 凉州篇四月上线

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

李玫瑾:为什么性格比能力更重要?