网易首页 > 网易号 > 正文 申请入驻

Midjourney V6刷屏,但它最可怕的地方居然不是那些神图?

0
分享至

Midjourney在沉寂九个月后推出了Midjourney V6,这个文生图产品体现出的更细腻的细节处理,更强大的语言理解能力和更加“不像AI”的图片效果在过去几天引发一片惊呼。

作为一个闭源的模型产品,Midjourney的魔法配方并不为人所知,但就像OpenAI和Google一样它会在产品更新时发布官方技术公告,有心人还是可以从中一窥模型能力提升的技术原理。

而我们去扒了扒它透露的信息后,发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….

Midjourney v6生成,电影月光光心慌慌的假剧照,图片源自reddit

图片模型的突破,却靠的是语言模型能力?

“Midjourney v6作为一个“文生图”模型,此次改进的核心能力却来自其自然语言处理能力的提升。

这首先是对提示词理解的’跟随能力’的提升。在其官方文档中,这被称为“prompt following”。简单来说,这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力,Midjourney现在能够更好地解析复杂的提示,无论是关键词、命令还是问题,都能够准确把握。

Midjourney v6生成,电影疤面煞星的假剧照,图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强,另外则依靠模型连贯性的提升。

所谓连贯性,用一个经典的故事就能解释。A问B:“下午大扫除,你来吗?”B说:“我去!我不去!”那么B的意思毫无疑问是不去,因为上文中的大扫除非常累,而B说的“我去!”在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。

Midjourney v6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit

这两个自然语言能力上的改进,Midjourney具体是如何做的?

在跟随能力方面的改进,主要基于三个方面:

上下文管理,它通过分析上下文关系来更准确地理解用户意图;序列建模,利用循环神经网络(RNN)和长短时记忆网络(LSTM)来捕捉对话中的长期依赖;以及交互状态跟踪,它持续追踪用户的目标、意图和对话状态,以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。

Midjourney v6生成,圣诞夜惊魂版的小丑和哈莉奎茵,图片源自reddit

但它毕竟是个文生图模型,也就是语言能力和图片能力结合的模型,这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同,Midjourney v6生成的图片目前来看,全部是公共资源。

也就是说你花钱买了服务以后,图片是公共的,模型会生成两份,你拿一份,V6的服务器(也就是V6 discoard)也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中,继续训练模型以提高性能。

Midjourney v6生成,一只猫拿着手枪,图片源自reddit

所以这还引出一个有意思的话题,如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段,而数据真的成为模型训练的决定性因素后,是不是文生图模型有可能训练出比大语言模型更强的语言能力?

在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说,想要提高连贯性并不简单,涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型,事实上简化了过程,由于它不涉及与用户进行持续对话,因此无需应用束搜索等启发式算法,也无需处理自然语言生成中的后处理问题,如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务,从而显著提升了其在理解和响应用户输入时的逻辑一致性。

Midjourney v6生成,猎魔人杰洛特与超人的结合,二者皆有同一演员亨利·卡维尔饰演,图片源自reddit

懂视觉的模型能有更好的文字能力?

图像模型却靠语言能力突破,这其实已经不是第一次。此前同样引发一阵骚动的Dalle3,也是如此。作为OpenAI的模型,背靠ChatGPT,语言能力自然更强。

在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式,以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT,所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中,V6增加的另一个非常重要的能力,也与语言有关。Midjourney称,其现在拥有了文本绘制能力,虽然依然较弱。

对于人工智能绘图来说,能绘制文本无疑是一项重大进步。

文字不再是乱码。图源:X.com

这个能力并非像看起来那样,直接来自模型里大语言模型的模块。在官方更新里,文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂,但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据,是一些通过泛化和模糊处理的图像内容。我们都知道,分辨率越高的图片数据量越大,反之,越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样,他们是按照统计学的一个概念叫做“模式识别”,通过图片中的特征来理解。使用泛化和模糊的图片好处在于,小数据量的图片读取速度快,训练时间就短。但想要用这种训练方式来理解文字是非常难的,因为文字是一种符号,这种泛化处理对于图像中的文字尤其不利,即使是微小的变形或模糊都可能导致文字难以辨认。同时,训练所使用的图像分辨率很低,那么生成图片时,分辨率也不会高到哪里去。

图片上的文字与图像整体风格融合。图片来源:X.com

而Midjourney的训练方法,其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型(denoising diffusion probabilistic models),这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下,就像我们用软件修复模糊的老照片,Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。

图片来源:X.com

也就是说,这是像Midjourney这样的图像模型一直在做的事情,训练越久优化越久它的图像“放大”能力就越强,也就会逐渐产生关于文字的生成能力。

在直觉上,这种能力肯定不如“纯粹”的语言模型的语言能力,但一些研究已经在给出不同的指向,在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论,当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成,则差很多。

这也许就是视觉想对文字说的话。图源:X.com

这是一种很奇怪也很有意思的现象,这一次V6似乎把它再一次轻微的展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时,一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。

欢迎加入这个星球,见证硅基时代发展↓

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英媒:妻子不愿住沙特而选择住巴林 杰拉德上下班需跨国通勤1小时

英媒:妻子不愿住沙特而选择住巴林 杰拉德上下班需跨国通勤1小时

直播吧
2025-01-03 22:21:37
裁判专家谈赵睿是否被犯规:裁判不是故意的,但百分之一万是漏判

裁判专家谈赵睿是否被犯规:裁判不是故意的,但百分之一万是漏判

体育哲人
2025-01-03 20:54:14
男子要买5台奔驰女销售大喜其提供24小时私人服务,结果发现被骗

男子要买5台奔驰女销售大喜其提供24小时私人服务,结果发现被骗

沙雕小琳琳
2025-01-03 21:58:36
郭德纲笑了杨议哭了,好好的拜师仪式,被德云社九城跨年同演打败

郭德纲笑了杨议哭了,好好的拜师仪式,被德云社九城跨年同演打败

晓徙历史
2025-01-03 21:17:53
空缺4个月后,重庆市大渡口区迎来新任区委书记

空缺4个月后,重庆市大渡口区迎来新任区委书记

汲古知新
2025-01-02 21:08:08
捷豹汽车推出限时优惠活动:XEL售18.98万元起,XFL售26.98万元起

捷豹汽车推出限时优惠活动:XEL售18.98万元起,XFL售26.98万元起

IT之家
2025-01-03 14:53:07
在巴黎见到吉娜,没滤镜她五官尖嘴猴腮,而且身材也没那么有料

在巴黎见到吉娜,没滤镜她五官尖嘴猴腮,而且身材也没那么有料

星光历史
2025-01-03 10:24:31
笑死,来上海过元旦的韩国人,打死也想不到自己会成为中国热搜!

笑死,来上海过元旦的韩国人,打死也想不到自己会成为中国热搜!

青青子衿
2025-01-03 23:18:38
冬喝苹果水,内热自己退!3种神仙搭配,清内热,补津液,健脾胃

冬喝苹果水,内热自己退!3种神仙搭配,清内热,补津液,健脾胃

荷兰豆爱健康
2025-01-03 11:40:29
上海知青被迫和藏族姑娘分手,40年后义诊,救治的男孩竟是亲孙子

上海知青被迫和藏族姑娘分手,40年后义诊,救治的男孩竟是亲孙子

兰姐说故事
2025-01-03 17:00:03
大S一直在比较,台媒爆大S跨年夜所戴项链价值27万,故事又来了!

大S一直在比较,台媒爆大S跨年夜所戴项链价值27万,故事又来了!

飞花文史
2025-01-03 12:46:35
太狠了!俄军黄种人士兵单手刀战,牙齿死咬住乌军,厮杀画面公开

太狠了!俄军黄种人士兵单手刀战,牙齿死咬住乌军,厮杀画面公开

一群怪咖
2025-01-03 10:47:10
西部排名又乱了:勇士创NBA奇迹,湖人收大礼,4队排名互换

西部排名又乱了:勇士创NBA奇迹,湖人收大礼,4队排名互换

篮球大视野
2025-01-03 16:14:03
世界媒体报道叙利亚元旦!原来只是抛弃一个垃圾政府就能换新天

世界媒体报道叙利亚元旦!原来只是抛弃一个垃圾政府就能换新天

大风文字
2025-01-02 17:08:39
有后悔药卖吗?广东两大旧将合砍65+19+18 他们仍有能量

有后悔药卖吗?广东两大旧将合砍65+19+18 他们仍有能量

胖子喷球
2025-01-03 21:51:11
轰动互联网的肉搏战胜利者,这名俄军竟然是一个雅库特人!

轰动互联网的肉搏战胜利者,这名俄军竟然是一个雅库特人!

凯撒谈兵
2025-01-03 21:29:40
3人出局,8人加入!国足变年轻了:诞生2大惊喜,00后崛起

3人出局,8人加入!国足变年轻了:诞生2大惊喜,00后崛起

叶青足球世界
2025-01-03 18:58:44
A股“蛇吞象”借壳上市,20亿吞并70亿,2025第一重组真龙!

A股“蛇吞象”借壳上市,20亿吞并70亿,2025第一重组真龙!

股常虹
2025-01-04 00:27:09
国家发改委:今年消费者买手机、平板、智能手表手环有补贴

国家发改委:今年消费者买手机、平板、智能手表手环有补贴

南方都市报
2025-01-03 11:34:17
彻底撕破脸Shams:巴特勒向热火申请交易!

彻底撕破脸Shams:巴特勒向热火申请交易!

直播吧
2025-01-03 12:26:42
2025-01-04 06:56:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
1848文章数 10312关注度
往期回顾 全部

科技要闻

比亚迪纯电动车与特斯拉年销量仅相差3万辆

头条要闻

樊振东接棒刘翔、谷爱凌成体育顶流 3天与3个品牌签约

头条要闻

樊振东接棒刘翔、谷爱凌成体育顶流 3天与3个品牌签约

体育要闻

汽车城的年轻人,不想继续躺平摆烂

娱乐要闻

曝顶流把女友藏行李箱见面 或王一博?

财经要闻

2025年,工资要全面上涨了?

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

家居
手机
艺术
旅游
公开课

家居要闻

素色现代 开启简洁生活

手机要闻

三星和苹果正在开发新的电池技术以与中国手机厂商竞争

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

北京:严禁打清华、北大等名校旗号收客!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版