网易首页 > 网易号 > 正文 申请入驻

OpenAI一更新,把我朋友圈变成了吉卜力?

0
分享至


自打前天凌晨,奥特曼这老小子发布了 GPT-4o 文生图模型以后,哥们是真被这玩意给刷屏了。

这两天一打开工作群,就能看到编辑部同事们拿 GPT-4o 疯狂整活,有做头像的,有做表情包的,还有画漫画的,点子王是一个比一个高。


甚至我一打开小红书,首页推送的好多也都是拿 GPT 画画的。。。

好好好,看来 OpenAI 这是真支棱了,奥特曼抱完孩子,归来仍是顶流是吧。


可能有差友还不知道这是发生啥了,简单说吧,OpenAI 放出来了个 GPT-4o 文生图模型,这玩意直接让用嘴 P 图、敲字画图的离谱需求,成了可能。

不仅在他们官网直接就能用,而且效果可以说是相当攒劲,当时看完我就一个想法,这波可能要把不少 AI 从业者和设计师们都给整得怀疑人生了。。。


你瞅瞅他们官网的演示案例,像什么抓拍的马克思、心有猛虎的小猫;还有让简单的草图变成照片、让倒影里的摄影师转过身来和你击掌啥的,这特么你告诉我居然没P图?

于是,昨天一大早,哥们就爬起来充了 20 刀,直接上手就是一个测的开。

爽玩了一天以后,我只能说,虽然瑕疵还是有不少,但至少从四个方面看,OpenAI 这一波的生图功能,确实又秀又6。


首先,画面保持和图片风格转化方面,4o 主打一个驾轻就熟。

在经过了金毛火锅的同意下,我们拿出了一张火锅和机器狗的对峙照片,来让 AI 转成漫画版。


你瞅瞅,这神态,真别说还挺对味的。

虽然细节上有点翻车,把火锅眼睛补上了,但鉴于咱给的图也比较糊,倒也可以理解。

反过来,把画改成真实风格,这玩意搞得也不错,我们也上传了一张刻在不少人基因里的孔子图片,让它以此为原型,生成一张真实照片。


反正看到效果,不知道大伙们感受到一股时空穿越的感觉没?

对比一下目前其他搞得不错的文生图模型,大伙儿可能就会对GPT-4o到底什么水平有个参考了。

下面这几幅都是同一套提示词搞出来的,依次是 Midjourney , ImageFX , GPT-4o和之前挺火的 Gemini-2.0-flash-exp 。


很明显,GPT-4o 和 Midjourney 是一档的,而且效果可以说遥遥领先于同行。。。

不过,虽然类似风格转化和逼真图像生成的活,像 Midjourney 之类的 AI 也能跟 GPT-4o 掰掰手腕,大伙们之间顶多就是 80 分和 90 分之间的差别。

而接下来的四点,可能真的就是 Only OpenAI can do 了。


第一个是在文本的渲染上,4o 模型这次残暴得甚至有点可怕。

看下面这个,我让他生成一个学者在白板上写量子力学的公式和理论,虽然内容我也基本告诉它了,但这又有数学公式又有框图的,怎么说也很难整对吧。


结果人家全识别出来整到板书上去了,白板的倒影效果甚至都能做出来。

以防大伙们不知道这是个啥水平,相同的提示词,我用 OpenAI 某友商旗下的模型试了试,效果是这样的。

虽然看起来是那么一回事儿,但细看一下图里的文字内容,你就知道为啥 OpenAI 这波有点强得离谱了。


第二个就是在多主体的生成上,4o 模型这次主打一个又准又狠。

比如大伙们请看这段提示词,小小的一段话里面暗藏玄机,7个不同的元素里,个数和颜色都不一样。。。


其他模型这边,则直接慌了阵脚,交出了这样的作业,在数字上翻了车。


反观 OpenAI 这边,分毫不差地执行了咱的要求,稳如老狗简直是。

按照 OpenAI 的说法,其他模型在处理 5-8 个对象时就顶不住了,而 4o 最多能处理 10-20 个不同的对象。

而且你要回头细品,还会发现 OpenAI 的图里元素都不是跟别的模型一样随机摆放的,而是有设计,像是一个有故事的动画场景一样。。。


最后一点,我觉得最牛的,那就是 4o 的图片生成模型在对于文字和图像的理解这方面,就跟长了脑子一样。

比如说在复杂指令,特别是在长文本上理解上,它不仅能搞懂你想表达啥,还跟开挂一样,能把你要的那个画面直接给到。

咱在测试的时候还专门给它上了强度,叫它画一个房间里的大象,但不能让观众直接看见有大象,得是那种明明存在,但所有人都看不见,但在氛围里又真的存在的大象。

很刁钻是吧,就是像这种复杂指令,你看看它怎么处理。


该说不说,看到这个图的时候我是真没想到,这人家都能画出来,还是写实风格的,用光影搞了一个透明的空气大象。

除了理解,它这种把知识作为链接,真正能把让文本和图像联系起来的能力尤其出色。

举个例子,不给任何参考信息,让它直接用插图解释一样牛顿发现的光的折射原理,他能直接给出教科书级的专业插图。


所以说,这 OpenAI 也是支棱起来了,在大家都以为他要拉的时候,搞出来这么一个牛逼哄哄的东西。

不过,这玩意之所以比以往的文生图模型厉害,里边其实也有一些说法。

在技术博客里,OpenAI 说他们用的是自回归方法,而不是以前文生图里常用的Diffusion 扩散模型。前者是不停靠之前的信息来预测后面的,再用后面的预测更后面的;Diffusion 则是让模型从一堆乱码中,逐渐从混乱变清晰。


相比 Diffusion,自回归的好处恰恰就是在语义识别上更牛,特别是你要给出唠唠叨叨的一大串需求的时候,以前的文生图模型就理解不全面,所以大家老是没法跑出来符合自己心意的图。

所以在用 GPT-4o 问生图的时候你就会发现,这玩意出图实际上也是从上往下,一点一点画出来的,就跟 AI 写文章一样一个词一个词往外蹦,这就很自回归。


好玩的是,OpenAI 第一次大火就是在用了自回归 Transformer 模型的GPT-3.5上,没想到现在图片生成领域,他们又靠着自回归扳回一局。

当然了,用了这种新方法,可能生成图片的时间会稍微长一点,但是 OpenAI 觉得,为了这么高质量的图片,这点时间还是值得的。


或许也因为是自回归模型的原因,GPT-4o 生成的图片也会出现一些大模型幻觉

但这倒不是多根手指啥的,而是图片元素如果过多,或者长度太长,到后面就会崩了。

比方下面这个,我们让它生成一堆元素贴纸组成的海报:


结果虽然你一打眼觉得它好像搞得像模像样,但细看就会发现,它多搞了机器人和冲浪者,弄丢了无人机,就还是比较马虎的。

官方博客还说,他们虽然在拉丁文字处理上整挺好,但对别的小语种,就不大行了。

比如我们搞点三哥那边的文字,它给生成的就有问题,细节上也是缺胳膊少腿的。


但话又说回来,这其实也都能理解。照我看,相比 GPT-4o 尚有的这些小缺点,这玩意给业界最大的震撼恐怕还不止是图片质量,而是它越来越让人意识到,AI更新的速度实在是太快了。

以前费老大劲研究出来的那些所谓的“经验”,在模型能力突飞猛进面前,真的就显得有点尴尬,甚至可能一夜之间就变得毫无价值。

比如有个老哥,看到 GPT-4o 的效果以后,心态就崩了。


好不容易花了大把时间,又是琢磨提示词,又是各种调参,刚把一个提示词或者工作流弄得差不多能打个 70 分了,结果没过几天,人家又冒出来个知识库加工作流的新玩意儿,直接把之前的努力给顶替了。等你刚适应了知识库加工作流,还没捂热乎呢,更厉害的智能体又来了。

所以说这么来看的话,我们使用AI的这些经验,保质期实在跟不上 AI 的速度,于是真正能让你立于不败之地的,还得是模型本身的能力够不够硬。

也就是说,模型能力强了,很多以前需要我们绞尽脑汁去琢磨的东西,模型自己就能轻松搞定,我们的创造力也能更自由,而这,才是技术爆发时代对人的红利。

撰文:纳西

编辑:江江 & 面线

美编:焕妍

图片、资料来源

OpenAI,X(@remixdesigner),小红书等,部分图源网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

只卖9.9的翻译耳机,疯狂收割老外。

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
经典!PC 最精简的街机模拟器,只需8GB,能玩一整年

经典!PC 最精简的街机模拟器,只需8GB,能玩一整年

黑猫科技迷
2025-04-03 19:31:12
狗头萝莉否认有艾滋病:当初网上只是秀身材,没有出卖身体

狗头萝莉否认有艾滋病:当初网上只是秀身材,没有出卖身体

映射生活的身影
2025-04-04 11:12:32
男篮亚洲杯分档出炉:中国男篮排名亚洲第六进入第二档

男篮亚洲杯分档出炉:中国男篮排名亚洲第六进入第二档

直播吧
2025-04-05 09:55:23
恭喜!陈芋汐完美两跳夺首金,中国跳水开门红,全红婵陈若琳鼓掌

恭喜!陈芋汐完美两跳夺首金,中国跳水开门红,全红婵陈若琳鼓掌

李喜林篮球绝杀
2025-04-05 10:44:39
谢浩男选择了谢妈!落地深圳,就回妈妈身边,没穿谢爸买的衣服!

谢浩男选择了谢妈!落地深圳,就回妈妈身边,没穿谢爸买的衣服!

沧海一书客
2025-04-04 21:02:56
美越混血“李美越”,吃中国饭砸中国碗,这种洋鬼子早该封杀了

美越混血“李美越”,吃中国饭砸中国碗,这种洋鬼子早该封杀了

果娱
2025-04-03 14:19:12
共和党参议员Cruz质疑特朗普关税 警告中期选举可能惨败于民主党

共和党参议员Cruz质疑特朗普关税 警告中期选举可能惨败于民主党

财联社
2025-04-05 06:15:06
“黑帮洪门”强势回归!消灭台独,赖清德傻眼了,洪门有多厉害?

“黑帮洪门”强势回归!消灭台独,赖清德傻眼了,洪门有多厉害?

说天说地说实事
2025-03-30 21:32:40
海鸥新商品上架被标定1亿价格!BIG 6嫌贵老板却谈到:不愁卖

海鸥新商品上架被标定1亿价格!BIG 6嫌贵老板却谈到:不愁卖

里芃芃体育
2025-04-05 05:00:05
艾莎·霍华德成功从爱德华兹获得巨额财富,并嘲讽普通女性没有金主爸爸

艾莎·霍华德成功从爱德华兹获得巨额财富,并嘲讽普通女性没有金主爸爸

雷速体育
2025-04-04 11:52:00
吃播网红恩克半年吃110只羊,眼神呆滞脸黑成炭,网友求他别吃了

吃播网红恩克半年吃110只羊,眼神呆滞脸黑成炭,网友求他别吃了

华人星光
2025-01-16 12:49:12
必须曝光!奇瑞电车5万公里电池就报废,终身质保成空谈?

必须曝光!奇瑞电车5万公里电池就报废,终身质保成空谈?

参谋长说车
2025-04-03 18:51:29
特朗普,突然生变!

特朗普,突然生变!

证券时报
2025-04-04 15:39:03
《浪姐6》李晟再夺第一,流量小花却纷纷溃败!

《浪姐6》李晟再夺第一,流量小花却纷纷溃败!

电和影
2025-04-03 21:46:01
美联储主席鲍威尔:美联储有条件等一等 再考虑是否调整政策

美联储主席鲍威尔:美联储有条件等一等 再考虑是否调整政策

财联社
2025-04-04 23:35:33
17万的“理想”,给它先做到了

17万的“理想”,给它先做到了

新车评网
2025-04-03 13:16:49
刺激!31%控球率仍胜,4-0,西甲第16完胜西甲第7,终结3轮不胜

刺激!31%控球率仍胜,4-0,西甲第16完胜西甲第7,终结3轮不胜

侧身凌空斩
2025-04-05 04:57:39
冯巩返乡为曾祖父扫墓!现场无一辆豪车,副部级待遇全程太低调

冯巩返乡为曾祖父扫墓!现场无一辆豪车,副部级待遇全程太低调

未曾青梅
2025-04-04 17:49:26
北京一房东偷拍情侣租客,获刑!“剃须刀、洗面奶都能藏摄像头……”

北京一房东偷拍情侣租客,获刑!“剃须刀、洗面奶都能藏摄像头……”

环球网资讯
2025-04-04 23:08:21
贵州女教师赵庆梅执行死刑,22名女生沦为受害者,全班仅2人幸免

贵州女教师赵庆梅执行死刑,22名女生沦为受害者,全班仅2人幸免

罪案洞察者
2025-03-26 09:33:07
2025-04-05 11:16:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
8708文章数 488296关注度
往期回顾 全部

科技要闻

特朗普:将再给TikTok禁令75天宽限期

头条要闻

牛弹琴:中方强硬反击美方后 特朗普宣称中国"玩不起"

体育要闻

C罗:我不会追求1000球 没实现也无所谓

娱乐要闻

汪小菲懒理S妈暗讽,带孩子户外散步

财经要闻

特朗普宣布将再给予TikTok禁令75天宽限期

汽车要闻

别克GL8陆尚内饰官图发布 有望上海车展亮相

态度原创

房产
数码
亲子
公开课
军事航空

房产要闻

被合生珠光朱氏兄弟拖垮的村民们

数码要闻

三星为电影院行业推出 Onyx Cinema LED 拼接大屏

亲子要闻

农村孩子小时候最爱的零食,脆脆的,甜甜的

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军持续对也门多地空袭已致257人死伤