网易首页 > 网易号 > 正文 申请入驻

商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单

0
分享至

在这个金秋,“日日新·商量”又拿了金牌!

今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:

商汤日日新·商量多模态大模型(SenseChat-Vision5.5)凭借多个任务上的出色表现,总得分位列国内大模型第一梯队,智夺金牌。


商量多模态大模型API入口(限时免费!):https://platform.sensenova.cn/doc?path=/model/mllm.md

商汤“商量”注册体验链接:https://chat.sensetime.com/

凭借其卓越的多模态基础能力和出色的应用能力,商汤SenseChat-Vision 5.5荣获了总分73.56的高分,并在数理逻辑维度取得第一,体现其强大的推理能力。

SenseChat-Vision5.5基础能力突出,数理逻辑维度超越GPT-4o

本次SuperCLUE-V涵盖了国内外最具代表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。

报告称SenseChat-Vision 5.5在基础能力-数理逻辑推理任务如图表推理、场景推理方面具备领先优势。榜单显示,在数理逻辑分析能力中,SenseChat-Vision 5.5超越国内外所有参评模型包括GPT-4o的最新版本,位列第一。



SuperCLUE-V采用细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息,以下为SenseChat-Vision 5.5测试案例部分呈现:





目前,多模态大模型能力显著提升,可提供纯语言、多图理解、语音、文生图、拟人、端侧模拟、行业模型等多模态、多版本、强场景Agent形态。

前瞻构造高阶思维逻辑数据,用推理能力增强AI大模型智能

如今,复杂推理成为各模型之间的重要能力壁垒。对于大模型能力的分层,商汤科技董事长兼首席执行官徐立博士此前就提出三层架构(KRE)理论,即:第一层知识(Knowledge),世界知识的全面灌注;第二层推理(Reasoning),理性思维的质变提升;第三层执行(Execution),世界内容的互动变革。


这三层可以组成一个对于世界提供生产力工具模型的完备能力,其中提升基础模型的推理能力是目前人工智能发展的大方向。徐立博士还提出在垂直行业里如何构造高阶思维逻辑的合成数据,也是制胜关键。

今年7月发布的“日日新5.5”大模型体系就创新使用大量使用合成高阶思维链数据,提升推理思维能力,在数理逻辑、英文、指令跟随等方面能力增强明显,2个多月的时间把基模型的能力提升了30%。

未来,商汤科技将继续坚持基础大模型的持续研发与投入,前瞻探索最先进的大模型技术,突破数据与算力的限制,引领大模型的创新与落地。

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我失业后卖盒饭的第一天,这一份才卖20,还有人嫌贵,这咋卖啊?

我失业后卖盒饭的第一天,这一份才卖20,还有人嫌贵,这咋卖啊?

人情皆文史
2024-12-21 13:03:47
如果没有叶剑英,中国会怎样?

如果没有叶剑英,中国会怎样?

新大观
2024-12-21 18:12:42
媒体:特朗普要求北约大幅提高军费 并计划继续向乌克兰提供军援

媒体:特朗普要求北约大幅提高军费 并计划继续向乌克兰提供军援

财联社
2024-12-21 05:24:32
医保集采,外企为什么集体退出?

医保集采,外企为什么集体退出?

孟大夫之家1
2024-12-20 18:29:05
存款利率,下调

存款利率,下调

鲁中晨报
2024-12-21 13:39:04
40岁文章近况曝光!带女友低调聚餐,开200W大G 松弛感十足!

40岁文章近况曝光!带女友低调聚餐,开200W大G 松弛感十足!

西瓜爱娱娱
2024-12-19 09:30:22
120万一针抗癌药,广东首例患者已出院,30天肿瘤消失!值得吗

120万一针抗癌药,广东首例患者已出院,30天肿瘤消失!值得吗

奇妙的本草
2024-12-18 18:00:03
足协官宣,回应韦世豪质疑,宣布新决定,广州队面临解散危机

足协官宣,回应韦世豪质疑,宣布新决定,广州队面临解散危机

保持热爱0263
2024-12-21 19:46:35
央国企领导班子成员互相批评意见(发言精选)!

央国企领导班子成员互相批评意见(发言精选)!

环球通信
2024-12-21 10:25:48
女子给陌生飞行员捐骨髓,8年后飞机上重逢

女子给陌生飞行员捐骨髓,8年后飞机上重逢

大象新闻
2024-12-20 00:05:29
字节跳动、腾讯:采购了 460000 块 GPU

字节跳动、腾讯:采购了 460000 块 GPU

云头条
2024-12-20 23:27:11
许家印第二!又一“大佬”跑路被抓,诈骗989亿,超5万人血本无归

许家印第二!又一“大佬”跑路被抓,诈骗989亿,超5万人血本无归

阿伧说事
2024-12-19 14:53:22
绝了!上海超市老板强收停车费,拖家带口堵车,被抓上警车仍嚣张

绝了!上海超市老板强收停车费,拖家带口堵车,被抓上警车仍嚣张

涵豆说历史
2024-12-21 19:40:18
民俗学家回应不宜祝“冬至快乐”:过度忌讳

民俗学家回应不宜祝“冬至快乐”:过度忌讳

鲁中晨报
2024-12-21 16:59:18
产科医生说实话:各种接盘侠,以后想找个黄花大闺女实属很难啊!

产科医生说实话:各种接盘侠,以后想找个黄花大闺女实属很难啊!

猫小狸同学
2024-12-21 12:20:03
连续三天“大扫货”!“股神”巴菲特,出手了!

连续三天“大扫货”!“股神”巴菲特,出手了!

鲁中晨报
2024-12-21 17:47:07
解气!发达国家设圈套卖给中国淘汰品,中国绝地反击

解气!发达国家设圈套卖给中国淘汰品,中国绝地反击

阿七说史
2024-12-19 19:03:22
新华社消息|我国修法拟规定每年9月为全国科普月

新华社消息|我国修法拟规定每年9月为全国科普月

新华社
2024-12-21 13:19:18
53岁汪峰真有口福,小20岁女友不穿围裙秀厨艺,颜值都能看饱了!

53岁汪峰真有口福,小20岁女友不穿围裙秀厨艺,颜值都能看饱了!

靓仔史说官
2024-12-21 09:45:12
乌克兰发劝降传单,示意朝鲜士兵去韩国享受生活

乌克兰发劝降传单,示意朝鲜士兵去韩国享受生活

三叔的装备空间
2024-12-21 10:46:10
2024-12-21 22:19:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
65446文章数 655446关注度
往期回顾 全部

科技要闻

OpenAI最强推理模型o3发布!但明年才能用

头条要闻

硅谷大佬突然改口:在开发更强大AI竞赛中 美国落后了

头条要闻

硅谷大佬突然改口:在开发更强大AI竞赛中 美国落后了

体育要闻

“他不再是那个数据刷子了”

娱乐要闻

叶柯现身酒店被偶遇 心情超好 小腹隆起孕肚明显

财经要闻

国潮褪去,李宁掉队!

汽车要闻

预售37.98万 坦克500Hi4-Z将于1月1日上市

态度原创

本地
艺术
旅游
家居
公开课

本地新闻

好吃潮州|潮州腐乳饼,咸甜党都沦陷了

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

300名游客飞三亚无机票:当地称将对乱象顶格处罚

家居要闻

现代轻奢 新中式的和谐交响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版