网易首页 > 网易号 > 正文 申请入驻

大模型通才来了!百川智能全模态模型亮相,实力碾压GPT-4o mini

0
分享至


智东西
作者 程茜
编辑 漠影

临近年关,国产大模型的春节大礼包让人应接不暇!

就在这几天,从全场景深度推理模型Baichuan-M1-preview医疗增强开源模型Baichuan-M1-14B,百川智能大模型频繁上新。

而今天新鲜出炉的全模态模型Baichuan-Omni-1.5,更称得上是“大模型通才”。

这一全模态模型不仅能同时支持文本、图像、音视频全模态理解,还支持文本、音频双模态生成。与此同时,百川还开源了两个评测集,助力国内全模态模型研发生态蓬勃发展。

从综合的测评结果来看,Baichuan-Omni-1.5的多模态能力整体超越了GPT-4o mini。在百川智能深耕的医疗领域,其医疗图片评测成绩更是大幅领先。

可以看出,百川智能作为国产大模型的明星玩家,在模型本身的技术探索以及深耕医疗行业落地上正一往无前。

模型权重地址:

Baichuan-Omini-1.5:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5

Baichuan-Omini-1.5-Base:

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

GitHub地址:

https://github.com/baichuan-inc/Baichuan-Omni-1.5

技术报告:

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

一、文图音视频“通杀”,多项测评超越GPT-4o mini

Baichuan-Omni-1.5的亮眼表现可以集中概括为“全面且强大”。

首先,该模型最突出的特点就是拥有全面的理解和生成能力,既包括对文本、图像、视频、音频全模态内容的理解,还支持文本、音频的双模态生成。

图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、MM-Vet等通用图片评测中,其中通用测试集MM-Vet定义了识别、OCR、知识、语言生成、空间感知和数学计算六大核心VL能力,对于模型性能的表现呈现较为全面。图片的理解层面,Baichuan-Omni-1.5在MMBench-dev、TextVQA val等通用图片评测中领先领先GPT-4o mini。

值得一提的是,除了通用文本、图像、音视频能力外,百川智能的全模态模型更是在医疗赛道上一骑绝尘。医疗图片评测数据集GMAI-MMBench、Openmm-Medical的结果显示,该模型已经大幅超越GPT-4o mini。

音频的理解与生成层面,Baichuan-Omni-1.5不仅支持多语言对话,还能基于其端到端音频合成能力,拥有ASR(自动语音识别)和TTS(文本转语音)功能,并且在此基础上支持音视频实时交互。具体的测评指标上,Baichuan-Omni-1.5在lamma question和AlpacaEval数据集上整体表现远超Qwen2-VL-2B-Instruct、VITA-1.5和MiniCPM-o 2.6。

视频理解层面,百川智能对该模型在编码器、训练数据和训练方法等多个关键环节进行了深入优化,其整体性能同样大幅领先GPT-4o-mini。

综上,Baichuan-Omni-1.5不仅在通用能力上整体超越GPT4o-mini,并且实现了全模态理解、生成的统一

百川智能同时还开源了两个评测集:OpenMM-Medical、OpenAudioBench

OpenMM-Medical用于评估模型医疗多模态能力,包含了来自42个公开医学图像的数据集,如ACRIMA(眼底图像)、BioMediTech(显微镜图像)和CoronaHack(X 射线),共计88996张图像。

OpenAudioBench则用于高效评估模型“智商”,包含5个音频端到端理解子评测集的平台,其中4个来自公开评测集(Llama Question、WEB QA、TriviaQA、AlpacaEval),还有1个是百川自建的语音逻辑推理评测集,该自建评测集共有2701条数据。

一直以来,百川智能在繁荣国内开源生态上都扮演着重要角色。这类开源模型评测数据集为研究人员和开发者提供了统一的标准数据,方便其对不同模型的性能进行客观、公正的评估,同样有助于催生一系列新的语言理解算法和模型架构。

二、全方位优化数据、架构、流程,破解大模型“降智”难题

从单一模态模型到多模态融合,再到全模态模型的进阶,这一技术发展历程为实现模型在千行百业落地应用提供了更多可能性。

然而,随着AI技术的不断发展,如何实现理解和生成的统一,已然成为当下多模态领域研究的一大热点与难点问题

一方面,理解和生成的统一使得模型能模仿人类交互方式,让计算机与人类的沟通更加自然、高效,这也是通用人工智能(AGI)实现的关键环节;另一方面,不同模态的数据在特征表示、数据结构和语义内涵等方面差异巨大,很难做到既能有效地提取多模态特征,又能实现跨模态的信息交互和融合,这也被业界公认为训练全模态模型的最大难题之一。此次Baichuan-Omni-1.5的发布,意味着百川智能应该已经找到了解决上述难题的有效路径。

训练全模态模型的过程中,为解决全模态模型“降智”难题,其研究团队从模型结构、训练策略以及训练数据等多方面进行了全流程的深度优化,真正实现了理解生成统一。

首先是模型结构方面,模型输入部分支持各种模态通过相应的Encoder/Tokenizer输入到大型语言模型中;输出部分则采用了文本-音频交错输出的设计,其中Text Tokenizer和Audio Decoder可以同时生成文本和音频。

其中,Audio Tokenizer由OpenAI发布的开源语音识别翻译模型Whisper增量训练而来,同时具备高级语义抽取和高保真重建音频能力。

为了让模型理解任意分辨率图片,Baichuan-Omni-1.5还引入了能处理最高分辨率可达4K且支持多图推理的NaViT,使得该模型能全面提取图片信息,准确理解图片上的内容。

其次是数据层面,百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库,并使用1700万条全模态数据进行了SFT(监督微调)。

与其余模型的数据不同,全模态模型不仅数据要丰富,还需要更多元化的交错数据。一般而言,现实生活中的信息通常以多种模态同时呈现,且不同模态的数据包含互补的信息,这类多模态数据的融合有助于模型学习到更通用的模式和规律,增强其泛化能力,这也是构建全模态模型的关键之一。

为了加强跨模态理解能力,百川智能还构建了高质量的视觉-音频-文本交错数据,使用1600万图文、30万纯文本、40万音频数据以及跨模态数据对模型进行对齐。并且为了让模型能够同时实现ASR、TTS、音色切换和音频端到端问答,在对齐数据中还专门构建了相应任务的数据。

第三大技术要点就是训练流程,这是让高质量数据真正提升模型能力的核心。

百川智能在预训练和SFT阶段均设计了多阶段训练方案,以整体提升模型效果。

其训练过程主要分为四个阶段,第一阶段以图文训练为主,第二阶段增加音频预训练,第三阶段加入视频数据,最后一个阶段是对齐阶段,最终实现模型对于全模态内容的理解。

在此基础上,Baichuan-Omni-1.5的能力相比于单一的大语言模型或者多模态模型,实现了质的飞跃。

Baichuan-Omni-1.5的发布标志着AI正在从模型能力向落地应用方向发展,此前,模型能力多侧重于语言理解、图像识别等基础能力的增强,这一模型强大的多模态融合能力,将会让技术与实际场景之间结合更为紧密。

百川智能一方面提升了模型在语言、视觉、音频等多模态信息处理上的能力,使其能够应对更复杂、更多样的任务;另一方面全模态模型强大的理解、生成能力,在医疗行业可以用于辅助医生诊断,提高诊断准确性和效率等,对于将AI落地到医疗场景也是非常有益的探索。

或许在不久的将来,百川智能可以让我们清晰看到AGI时代医疗应用的雏形。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这5种药不宜长期服用,可能破坏身体免疫力!很多人都不知道

这5种药不宜长期服用,可能破坏身体免疫力!很多人都不知道

芹姐说生活
2026-05-24 14:15:40
穿越者预言2027全球资源危机,记者:不止他一个人说过

穿越者预言2027全球资源危机,记者:不止他一个人说过

阿郑的读书日常
2025-01-15 10:11:46
雷霆提前一节缴械!SGA惨败提前打卡竟发笑 连庄MVP被小金人嘲讽

雷霆提前一节缴械!SGA惨败提前打卡竟发笑 连庄MVP被小金人嘲讽

颜小白的篮球梦
2026-05-25 10:47:04
大战将至?伊万卡遭暗杀!特朗普怒锁白宫,美军取消休假集体待命

大战将至?伊万卡遭暗杀!特朗普怒锁白宫,美军取消休假集体待命

锅锅爱历史
2026-05-25 01:52:02
5.1亿说砍就砍!加州深夜对高校断供,本地中产沦为最惨接盘侠!

5.1亿说砍就砍!加州深夜对高校断供,本地中产沦为最惨接盘侠!

Decade视角
2026-05-25 21:27:12
赌王千金把情人带回家了

赌王千金把情人带回家了

毒舌扒姨太
2026-05-25 23:10:08
巴基斯坦购65架土耳其隐形战机

巴基斯坦购65架土耳其隐形战机

烽火观天下
2026-05-24 12:59:09
玩家嫌PC太热直接用管子连空调!网友提醒别这么干

玩家嫌PC太热直接用管子连空调!网友提醒别这么干

游民星空
2026-05-24 11:04:32
“偷拍女生裙底”被开除学籍的顾某某,未在江苏省税务局补录公务员体检入围人员名单中

“偷拍女生裙底”被开除学籍的顾某某,未在江苏省税务局补录公务员体检入围人员名单中

都市快报橙柿互动
2026-05-25 21:59:57
郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

郑钦文法网首轮出局!扣420分世界排名跌至第117 已成中国四姐

念洲
2026-05-25 18:45:55
从素人到10亿票房女主,《给阿嬷的情书》李思潼被曝签约虎鲸文娱

从素人到10亿票房女主,《给阿嬷的情书》李思潼被曝签约虎鲸文娱

韩小娱
2026-05-25 20:59:04
瓦斯爆炸非天灾,资本贪婪酿人祸

瓦斯爆炸非天灾,资本贪婪酿人祸

烽火瞭望者
2026-05-25 06:13:09
华为提出的“韬定律”到底是什么?

华为提出的“韬定律”到底是什么?

观察者网
2026-05-25 11:47:11
奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奶茶店施暴女子已被行拘:正脸曝光,身份被扒是老师,工作恐不保

奇思妙想草叶君
2026-05-25 23:22:54
东山枇杷价格一落千丈?官方声明!严重损害东山果农利益!

东山枇杷价格一落千丈?官方声明!严重损害东山果农利益!

江苏城市论坛
2026-05-25 16:10:36
A股收评:超3200只个股飘绿,三大指数集体收涨,科创50涨近6%;芯片板块全天爆发,通信设备、航空上涨,油气领跌

A股收评:超3200只个股飘绿,三大指数集体收涨,科创50涨近6%;芯片板块全天爆发,通信设备、航空上涨,油气领跌

鲁中晨报
2026-05-25 16:06:02
中疾控发布埃博拉防控提示 专家:若怀疑感染不要自己前往医院,最好联系120转运

中疾控发布埃博拉防控提示 专家:若怀疑感染不要自己前往医院,最好联系120转运

红星新闻
2026-05-25 22:35:20
印度热到突破47℃!极端高温席卷全国,民众徒步十几公里找水喝

印度热到突破47℃!极端高温席卷全国,民众徒步十几公里找水喝

牛锅巴小钒
2026-05-26 01:53:50
中国连夜宣布好消息!全世界都没想到,中国居然弯道超车?

中国连夜宣布好消息!全世界都没想到,中国居然弯道超车?

忠于法纪
2026-05-25 09:28:16
糖尿病最危险信号,不是口渴多尿,而是频繁出现这5种异常

糖尿病最危险信号,不是口渴多尿,而是频繁出现这5种异常

芹姐说生活
2026-05-25 14:21:45
2026-05-26 03:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11891文章数 117085关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

本地
手机
数码
时尚
公开课

本地新闻

用云锦的方式,打开江苏南京

手机要闻

iQOO 16再次被确认,规格信息都已清晰,REDMI能招架住吗?

数码要闻

荣耀600系列发布:国补后2294.15元起 续航影像全升级

Bella的戛纳之旅,次次“神级”表现

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版