网易首页 > 网易号 > 正文 申请入驻

OpenAI深夜紧急直播狙击谷歌!新GPT-4o图像生成免费用,文本控制更准,Altman自制AGI梗图

0
分享至

智东西3月26日报道,今日凌晨1点,谷歌发布Gemini 2.5思考模型家族首个Gemini 2.5 Pro实验版本,大约一小时后,OpenAI创始人兼CEO萨姆·阿尔特曼就开直播发布了迄今为止最先进的图像生成器GPT-4o图像生成技术。

这是ChatGPT生成功能一年多后的首次重大升级,更新点在于其可以生成更准确呈现文本、遵循指令,OpenAI还为其挂载了固有知识库,其可以根据知识库或上下文帮用户生成、编辑图像。

阿尔特曼在直播里现场自拍生成了一张AGI梗图,最右侧的就是阿尔特曼。

阿尔特曼还发了一篇小长文谈了自己的感想,第一点他谈到看到这个模型产生的第一批图像,“很难理解它们真的是由AI制作的”,第二点他提到了这一模型的风险,其拉高了创作自由的水平线,OpenAI将知识自由和控制权交到用户手中,他们认为尊重社会最终会选择为AI设定的非常宽泛的界限是正确的做法。

今天起,GPT-4o图像生成已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户推出,企业和教育用户将很快允许访问。这项功能也可以在Sora中使用、或者通过专用的DALL·E GPT访问。开发人员很快将能够通过API使用GPT-4o生成图像,并在未来几周内推出访问权限。

与作为扩散模型运行的DALL·E根本区别是,GPT-4o图像生成是原生嵌入在ChatGPT中的自回归模型。OpenAI根据在线图像和文本的联合分发来训练模型,使得模型可以学习图像与语言的关系,使其生成有用、一致且具备上下文感知的图像。

不过,OpenAI的博客提到,因为这个模型会创建更详细的图片,所以图像需要更长的渲染时间,通常会达到一分钟。

一、可生成手写体文字、图像编辑、照片级质感,还能利用知识库做海报

OpenAI在官方博客中发出了不少GPT-4o的生图案例。

其中一个提示词是“用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型OpenAI标志的T恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影”,提示词后文还附上了需要在白板上出现的文字。

GPT-4o生成的图像考虑到了每个细节:白板上的文字、主角的衣服、背影的海湾大桥、摄影师。

第二个提示词是:“摄影师的自拍照片,她转身与他击掌。”图像中,两位主角的动作发生变化后,白板上的人物倒影也对应发生变化,其余文字、海湾大桥的倒影没变。

下一个提示词中主要生成的内容是“两个20多岁的女巫阅读路标的照片级实感图像”。并附上了上下文对图像中路牌上的内容、周围环境的信息进行了补充,并给出了从背景到前景的人物与其他物体位置关系。在生成的结果中, 女巫形象、周边环境等的信息都基本符合需求。

还有更为实用的场景是,让GPT-4o生成菜单,提示词中除了需要包含的菜品、价格及简介外,还需要生成的图像中包含这家餐厅的名称、主要亮点以及菜单风格。

此外,用户还可以通过自然对话进一步优化图像。

例如设计以一只猫为原型的电子游戏。可以先创建主要角色,上传一只猫的图片并为其添加侦探帽和单片眼镜,然后通过生成以这只猫为主的游戏界面、场景、用户界面等。

其次是贴纸,生成极简主义小浣熊吃草莓的贴纸,粗白色边框和透明背景,然后换风格改灰色浣熊、添加小浣熊正在吃草莓的细节。

GPT-4o的图像可以遵循详细的提示,如处理多达10-20个不同的对象。下面给出了16个对象,GPT-4o生成了对应的图像。

GPT-4o可以分析和学习用户上传的图像,将其详细信息无缝集成到其上下文中,为图像生成提供信息。

例如下面的提示词是基于一些参考图,生成三角形车轮的车辆绘制设计图,其生成图像的风格与参考图类似,且附上了提示词中的重要部件、专利等信息。第二轮提示词将其放到纽约市的场景中,基本信息也并没有丢失,并与周围环境进行了融合。

GPT-4o还可以将其知识与文本、图像联系起来。如给出包含4种最受欢迎的鸡尾酒的手写卡片、制作视觉信息图说明为什么旧金山雾气大等。

二、自回归模型为生成模型引入新风险,编辑一致性、幻觉、多概念呈现仍需改进

因为GPT-4o图像生成是原生嵌入在ChatGPT中的自回归模型,这引入了一些不同于以前生成模型的新功能,并带来了新的风险:

图像到图像转换:此功能允许GPT-4o图像生成将一个或多个图像作为输入,并生成相关或修改的图像;

照片真实感:GPT-4o图像生成的高级照片级真实感功能意味着其输出在某些情况下可以具有照片的外观;

指令遵循:GPT-4o图像生成可以按照详细的说明,并呈现文本和指令图,引入与早期模型不同的实用性和风险。

目前,OpenAI研究人员已经发现其生成图像方面的局限性:

图像方面,GPT-4o有时会对海报等较长的图片裁剪得过于紧凑;模型难以保持对用户上传的人脸的编辑一致性;用户编辑图像生成的如拼写错误的特定部分的请求并不总是有效的,并且还可能以未请求的方式更改图像的其他部分或引入更多错误;GPT-4o难以依赖于知识库的一次准确呈现10-20多个不同的概念,例如完整的元素周期表。

此外,其在生成图像方面也会存在幻觉,在上下文信息较少的提示情况下,图像生成功能可能会编造信息,以及在复杂度高的情况下,模型难以渲染菲拉丁语言,并产生错误的字符。

其博客提到,对用户上传的人脸的编辑一致性的错误将在一周内得到修复。

在研究过程中,为了解决GPT-4o图像生成带来的独特安全挑战,OpenAI使用了多种缓解策略:

聊天模型拒绝:在ChatGPT和API中,主要聊天模型充当第一道防线,防止生成违反相关政策的内容。根据其训练后的安全措施,聊天模型可以根据用户的提示拒绝触发图像生成过程。

提示阻止:此策略在调用GPT-4o图像生成工具后发生,包括在文本或图像分类器将提示标记为违反我们的策略时阻止该工具生成图像。通过先发制人地识别和阻止提示,此措施有助于防止生成不允许的内容。

输出屏蔽:此方法在生成图片后应用,它结合使用多种控制措施,包括儿童性虐待材料(CSAM)分类器和以安全为中心的推理监控器,以屏蔽违反政策的图片输出。该监控器是一个多模态推理模型,经过自定义训练,可以对内容政策进行推理。通过评估生成后的输出,从而提供额外的保护措施,防止用户创建不允许的内容。

加强对未成年人的保护措施:OpenAI使用上面列出的所有缓解措施为未满18岁的用户创造更安全的体验,并设法限制这些用户创建某些类别可能不适合年龄的内容。目前禁止13岁以下的用户使用OpenAI的任何产品或服务。

结语:图像生成模型再进化

图像生成模型此前在文字生成、对需求的准确理解上都有一定局限性,这也是当前多模态模型企业们重点突破的方向。此次,GPT-4o的图像生成能更精确地遵循指示、渲染文字,还支持多轮迭代优化图像时保持角色形象一致,在图像生成的质量上实现了提升。

不过,从目前的生成结果来看,GPT-4o的图像生成还存在幻觉、裁剪不当、编辑无法保持一致性等问题,这也是OpenAI后续研发的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚轰炸完伊朗,美军引以为傲的B-52轰炸机,险些在空中解体

刚轰炸完伊朗,美军引以为傲的B-52轰炸机,险些在空中解体

光辉与阴暗
2026-03-28 00:03:00
电商平台包邮到港后受香港民众喜爱,网友:真是赚美金花人民币了

电商平台包邮到港后受香港民众喜爱,网友:真是赚美金花人民币了

映射生活的身影
2026-03-10 15:35:44
“爸爸昨晚打妈妈,妈妈疼得直叫”,孩子的话让姥姥脸红:不敢说

“爸爸昨晚打妈妈,妈妈疼得直叫”,孩子的话让姥姥脸红:不敢说

大果小果妈妈
2026-02-04 13:32:40
自战事爆发以来 伊朗平均每天卖油能多赚1.7亿

自战事爆发以来 伊朗平均每天卖油能多赚1.7亿

财联社
2026-03-27 11:05:06
保姆偷拿了家里2瓶茅台去卖,我没揭穿只辞退了她,临走时她指了指旧皮鞋,我一看瞬间瘫坐在地

保姆偷拿了家里2瓶茅台去卖,我没揭穿只辞退了她,临走时她指了指旧皮鞋,我一看瞬间瘫坐在地

今夜有个好故事
2026-03-11 17:26:56
伊朗严正警告国际原子能机构总干事

伊朗严正警告国际原子能机构总干事

界面新闻
2026-03-27 15:58:46
史无前例!美元改版:纸币上将印上特朗普签名,美财长:彰显总统取得的“历史性成就”,十分合适!多家机构上调美国经济衰退概率

史无前例!美元改版:纸币上将印上特朗普签名,美财长:彰显总统取得的“历史性成就”,十分合适!多家机构上调美国经济衰退概率

每日经济新闻
2026-03-27 15:05:04
商务部:对美国破坏全球产供链相关做法和措施发起贸易壁垒调查

商务部:对美国破坏全球产供链相关做法和措施发起贸易壁垒调查

证券时报
2026-03-27 16:38:08
日本慌了,韩国急了,如今的中国乌鲁木齐,先进制造悄然成势

日本慌了,韩国急了,如今的中国乌鲁木齐,先进制造悄然成势

疯狂的小历史
2026-03-22 10:45:55
大雨或暴雨!江苏最新预测

大雨或暴雨!江苏最新预测

江苏警方
2026-03-27 19:36:51
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

鹤羽说个事
2026-03-25 22:21:29
姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

姐姐摸了下弟弟的小脚丫,我直接破防了!这画面也太暖了吧!

王二哥老搞笑
2026-02-28 04:28:55
奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

南权先生
2026-02-13 15:17:51
1980年,一个军械库仓库管理员,他是如何让66军炮兵团叛变的?

1980年,一个军械库仓库管理员,他是如何让66军炮兵团叛变的?

百年历史老号
2024-03-29 18:56:45
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
“洗衣机”来真的了!国产激光武器真实打击画面

“洗衣机”来真的了!国产激光武器真实打击画面

环球网资讯
2026-03-27 08:37:49
国乒全队抵达澳门,孙颖莎一路热聊,王楚钦打闹,俩人同框太好磕

国乒全队抵达澳门,孙颖莎一路热聊,王楚钦打闹,俩人同框太好磕

球盲百小易
2026-03-28 01:07:56
自卫官持刀强闯中国使馆,六问日本当局:究竟是个人“独狼”行动还是有组织策划?

自卫官持刀强闯中国使馆,六问日本当局:究竟是个人“独狼”行动还是有组织策划?

上观新闻
2026-03-27 13:30:15
早上常吃鸡蛋的人,这5点要尽早知道,别不当回事,吃亏的是身体

早上常吃鸡蛋的人,这5点要尽早知道,别不当回事,吃亏的是身体

熊猫医学社
2026-03-01 11:30:03
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
2026-03-28 04:23:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11460文章数 117016关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

头条要闻

男医生给孕妻做彩超 丈夫崩溃撞墙:不过了 明天就离婚

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

旅游
亲子
健康
游戏
公开课

旅游要闻

日照岚山“打飞的”赏春成新时尚

亲子要闻

“孕妻彩超现场最荒唐的一幕”:无知偏执,正在逼疯正常人!

干细胞抗衰4大误区,90%的人都中招

离谱!PS5全系暴涨 GTA6还没出主机先买不起了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版