网易首页 > 网易号 > 正文 申请入驻

太好了!是豆包文生图模型,AI生成中字有救了

0
分享至

作者 | 阿虎 月山橘‍‍‍‍

编辑 | 卷毛

“别把豆包不当干粮!”

今天,在2024火山引擎FORCE原动力大会上,字节豆包一口气发布了多项重磅更新,在演示视频中,豆包看着这幅画说,它虽然看起来小小的不起眼,但也有着重要的价值。

作为字节跳动在大模型领域的旗舰产品,豆包在国内众多同类竞品中一直是一个不容忽视的存在。

据显示,豆包月访问量超2000万,下载量超860万,位列国内榜第一。

据官方最新数据,豆包大模型的日均tokens使用量于12月突破了4万亿大关,在7个月内增长超过33倍,这个数字背后体现了庞大、复杂的AI技术应用和需求。

在竞争激烈的国内大模型市场,各家都在忙着提升模型性能和拓展应用场景,下面我们一起来看看,豆包的这些更新有哪些值得关注的点。


豆包视觉理解模型升级,“加量不加价”

一直以来,视觉理解能力都是衡量AI多模态认知能力的核心,也是迈向AGI的关键一步。AI能够“看见”和“理解”世界,意味着能够更全面地理解和处理复杂的任务,而不仅仅是简单的语音或文本响应。

在识图能力几乎成了所有AI对话类产品标配的当下,豆包这波属于是“加量不加价”,不仅升级了识图性能,还把价格打了下来。

据官方介绍,豆包视觉理解模型有着更强的内容识别能力更强的推理能力更细腻的视觉描述能力。然而,每千tokens输入价格仅为3厘,也就是说一块钱就能处理284张720P的图片,比行业价格便宜85%

目前,豆包App的识图能力就是基于最新的视觉理解模型。用户可以同时上传图片并输入文本问题,模型能够综合理解并给出回答。

这里我们上传了一张空间透视较为复杂的图片,豆包准确地描述了图中小猫的表情、衣服和地板的颜色、空间关系、以及按钮等细节。

一些生活中常见的使用场景如翻译外文菜单、识别图中景点并介绍、看图解题/debug、看图创作等,自然也都不在话下。

据官方发布的demo视频,豆包还和抖音商城进行了打通,可以一键搜索同款。

不过,真正的视觉理解,不仅仅是识别图像中人/物的基础特征,还需要理解对象之间的关系,这个过程就涉及深度的推理能力。

太好了!是豆包文生图模型,AI生成中字有救了

“让我们说中文”,这次真的能让AI实现了。

基于豆包文生图模型、豆包视频生成模型,即梦近期上线了“一键生成海报”和“动态海报”的能力,成为首个可以生成图片中文字的AI产品。

比如,最近我们在写一篇“给抽象AI视频颁奖”的稿子,需要一张头图。我向AI表达了以下需求,让他帮我生成一张海报:

请帮我生成一张海报,主要用于视频内容宣传推广 类似于奖状的形式,中间偏上方横排写着中文字“奖状”,字体大,一定要符合奖状的样式。 其他小元素可以是各种抽象的、难以理解的场景,比如机器人吃苹果,像素风格 底部写着“AI新榜出品,仅供娱乐”,需要有设计感,电影效果 还需要在画面中生成一个符合海报的小logo,一个女孩带着3D眼镜观看电视,线条简单,比例为1:1

虽然生成后的部分小字还是有乱码的情况,但整体的完成度还是比较高的。并且,即梦平台还支持后编辑,我们可以进一步修改、消除不需要的元素,甚至将它变成动态海报。

另外,最近很流行的胶片风头像,只要在提示词中加入“梦核、胶片、闪光灯效果”等提示词,也可以靠即梦生成了:

即梦首页上也有不少创作者生成的产品海报、新年祝福、手机壁纸等等。

可以说,相比此前流行的Recraft生图模型,豆包文生图模型直接把国内用户的痛点解决了,在中文理解上更懂我们,也更适配需要中文字体的设计师们。

豆包音乐大模型升级,可局部修改歌词

除了视觉系的模型升级,豆包音乐大模型也迎来了更新。

豆包音乐模型发布3个月后,已经能支持长达3分钟的音乐生成,还可以利用旋律、节奏、和声等信息,使整首歌在风格、情感等音乐元素上保持一致。

用户可以在“海绵音乐”(https://www.haimian.com/create)中体验豆包音乐大模型的效果。

只要上传一张图,或是输入一句话的创意灵感,就可以让AI生成一首中文歌。比如,我们上传了一张最近流行的“自己吓自己”名场面,并输入“写一首新的水调歌头”,来听听效果:

如果对生成的歌词不满意,AI没有突出“自己吓自己”的经典语句,我们可以对歌词进行局部修改,AI会控制好具体的数字,我们只要按格填空就可以了。

另外,据官方介绍,“海绵音乐”后续会发布多张图片生成音乐,以及视频生成音乐的玩法,爱整活儿的玩家们可以期待一波。

豆包3D大模型发布,一句话生成3D世界

豆包也加入AI生成3D模型赛道了。

根据官方发布的Demo,豆包3D模型和数字孪生平台veOmniverse一起使用,就可以实现AIGC仿真模拟器。

比如,用户只需输入文本“生成一个符合机器人作业的车间场景”,就可以实时生成并搭建起一个具体的车间场景。将生成的模型上传到云后,布局师还能实时调用并完成场景设计,一定程度上提升了创作效率和协作体验。

在现场,火山引擎还专门设置了3D打印的区域,“啪”一下AI生成的模型就成为了你手中实实在在的资产。

从今年5月豆包大模型家族正式亮相,短短7个月,豆包全家桶已经连续发布了视频生成、视觉理解等多种模型。

谭待在媒体群访环节透露,火山引擎有计划部署推理模型,现在可以看到豆包大模型在推理、数学理解能力上的雏形。这些模型能力已经应用在豆包、即梦等C端产品上。

另外,在现场,火山引擎还升级了火山方舟、扣子和HiAgent三款产品平台,帮助更多企业高效开发AI应用。

值得一提的是,从此次现场发布来看,字节内部的确正在提升剪映和即梦产品的优先级。

此前,据《智能涌现》报道,抖音管理层判断ChatBot类产品已经达到了“隐形天花板”,长期更理想的产品形式需要更视觉化的产品体验和更低使用门槛。因此,字节已经提升了剪映和即梦的产品优先级,尝试打造AI时代的“抖音”。

更视觉化的产品体验,也成为了豆包大模型此次发布的焦点。

谭待在接受媒体群访时表示,语言用来描述世界,但首先还是要理解世界。这也是豆包推出视觉理解模型的意义所在。

他强调,火山引擎的目标是朝着中国大模型领域、新的技术变革第一名发展。

“现在我们并不关注市场竞争,因为大模型市场仍处于早期阶段,我们更关心有哪些用户需求,到底还没被满足。让成本更低,应用性能更好,让大家用起来。从长期来看,大模型的C端和B端应该是齐头并进发展。”谭待补充道。

2024年无疑是大模型快速发展的一年,这一年中,我们看到了各家厂商开卷视频模型,陆续推出实时视频通话能力……作为国内热门厂商的字节跳动、火山引擎也不想掉队。

就像谭待在现场所说,“当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。”

这趟列车会带我们驶向什么样的AI未来,豆包正通过TA的能力交出答卷。

「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄仁勋:英语专业的学生有可能成为最成功的那批人

黄仁勋:英语专业的学生有可能成为最成功的那批人

麦可思研究
2026-05-30 11:19:36
人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

芹姐说生活
2026-06-01 19:10:38
“车位泡沫”彻底破了!越来越多的地下停车位没人买了,原因有四

“车位泡沫”彻底破了!越来越多的地下停车位没人买了,原因有四

阿离家居
2026-06-01 02:06:39
2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

2010年深圳女子重症抢救,丈夫拔掉呼吸机致其死亡,法院判决亮了

猫眼观史
2025-04-11 22:19:55
俄外长最新涉华表态:俄中关系是全球事务中主要稳定因素

俄外长最新涉华表态:俄中关系是全球事务中主要稳定因素

环球网资讯
2026-06-01 19:09:11
洪秀柱曾坦言:大陆高层老一辈对武统有顾虑,但年轻一代不同

洪秀柱曾坦言:大陆高层老一辈对武统有顾虑,但年轻一代不同

老慃尾声体育解说
2026-06-01 12:44:37
向太说有钱人不会给小孩买名牌,自己给孙女买衣服都不超过100块

向太说有钱人不会给小孩买名牌,自己给孙女买衣服都不超过100块

韩小娱
2026-06-01 23:40:17
普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

普京也无能为力:世界第二空军,为何拿不下乌克兰的天空

民间胡扯老哥
2026-06-01 06:07:10
打起来了,美军机被击落,以色列军官被斩首,特朗普或从中东撤军

打起来了,美军机被击落,以色列军官被斩首,特朗普或从中东撤军

未来展望
2026-06-02 01:15:44
54岁突然发现,许多中产家庭渐渐穷回去了,以下两个征兆,要警惕

54岁突然发现,许多中产家庭渐渐穷回去了,以下两个征兆,要警惕

趣味萌宠的日常
2026-05-31 11:25:53
大连20辆新能源车被烧,现场画面流出,纵火者身份被扒,原因离谱

大连20辆新能源车被烧,现场画面流出,纵火者身份被扒,原因离谱

法老不说教
2026-06-01 13:40:16
美媒曝伊朗对科威特美军基地袭击致数名美国人轻伤

美媒曝伊朗对科威特美军基地袭击致数名美国人轻伤

新华社
2026-05-30 16:53:06
12年过去,连姆·尼森这部冷门佳作突然流媒体翻红

12年过去,连姆·尼森这部冷门佳作突然流媒体翻红

自愈小日子
2026-06-01 02:01:18
孙浩最红的时候,把在北京漂着的张嘉益接家里住,一住就是十年。

孙浩最红的时候,把在北京漂着的张嘉益接家里住,一住就是十年。

草莓解说体育
2026-05-22 07:25:56
中共山西省委组织部公示

中共山西省委组织部公示

山西经济日报
2026-06-01 10:44:24
从疏通导弹工事到列装新艇 伊朗再出硬招

从疏通导弹工事到列装新艇 伊朗再出硬招

上游新闻
2026-06-01 19:51:22
土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

傲傲讲历史
2026-05-31 09:18:17
王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

王菲背的珑骧帆布包又火了,这包已售罄,窦颖也去看谢霆锋演唱会

荒野老五
2026-05-31 20:16:24
名记:阿森纳今夏首要工作是续约阿尔特塔,新合同年限最少三年

名记:阿森纳今夏首要工作是续约阿尔特塔,新合同年限最少三年

懂球帝
2026-06-02 04:09:18
普京通告全球:俄乌冲突即将结束!泽连斯基求助,美方冷脸拒绝

普京通告全球:俄乌冲突即将结束!泽连斯基求助,美方冷脸拒绝

失我者永失qq
2026-06-01 22:35:37
2026-06-02 04:43:00
头号AI玩家 incentive-icons
头号AI玩家
做内容从业者关心的AI研究
448文章数 23关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

健康
本地
数码
手机
公开课

干细胞临床研究向患者收费?别踩坑

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

手机要闻

华为nova 16系列支持5A速度!传输、流畅度领先友商17 Pro

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版