网易首页 > 网易号 > 正文 申请入驻

清华系出手!全球第一款端侧全模态理解模型开源

0
分享至


智东西
编辑 Panken

智东西12月16日报道,今日,清华系AI Infra创企无问芯穹正式开源端侧解决方案中的全模态理解小模型Megrez-3B-Omni,并同步开源其纯语言模型版本Megrez-3B-Instruct

Megrez-3B-Omni为端侧而生,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,单模态版本的推理速度最大领先同精度模型300%

该模型同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了同尺寸下最优性能。

其多模态能力可灵活切换,响应非常迅速。比如先随手拍张单据照片发给它,问“6个人AA人均多少钱”,再语音输入让它写个诙谐文案催大家交钱,它能立即按要求出稿。


▲Megrez-3B-Omni可实现在语音、图像、文本多个模态之间自由切换

和同样三模态的VITA(based on Mixtral 8×7B)、Baichuan-Omni-7B ,双模态的MiniCPM-V 2.6(based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,以及单一模态的Qwen、Baichuan等模型相比,Megrez-3B-Omni在主流基准测试集上的表现都不逊色。

Megrez-3B-Instruct还提供了WebSearch功能,支持调用外部工具进行网页搜索。

无问芯穹成立于2023年5月,由清华大学电子工程系教授、系主任汪玉教授发起,汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。其技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验,擅长模型轻量化、软硬件协同优化。

该公司以“释放无穹算力,让AGI触手可及”为使命,致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

今年9月,无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲在与智东西等媒体交流时透露,该公司今年已有一些规模化收入,主要来自销售算力,明年会进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式,与合作伙伴做联合的芯片发布,计划明年有一些落地尝试。经其内部测算,无问芯穹预计将在3到5年内实现盈利


作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成,无问芯穹认为要实现端侧AGI,像Megrez-3B-Omni这样的全模态理解模型是必不可少的一环。

无问芯穹称Megrez-3B-Omni是一个能力预览,接下来将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端设备的设置或应用操作,并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。

无问芯穹Github、HuggingFace主页以及Modelers魔乐、ModelScope魔搭等社区均可获取Megrez-3B-Omni及其大语言模型版本。无问芯穹Infini-AI异构云平台上可获取大语言模型版本的API或直接在线体验。

Github地址:https://github.com/infinigence/Infini-Megrez
HuggingFace地址:https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI异构云地址:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

一、图片理解:3B体量对标34B模型表现,轻松识别模糊印刷体、复杂手写字

在图像理解方面,Megrez-3B-Omni参数规模仅为3B,其综合性能表现却可以全面超过34B模型,包括LLaVA-NeXT-Yi-34B等模型,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。



▲图源:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

同时,Megrez-3B-Omni在场景理解、OCR等任务上也表现出色,能够准确洞察和分析图像中的场景内容,高效地从中提取文本信息。

比如发一张模糊截图,哪怕图片里的像素低清,该模型也能秒速识别。


▲Megrez-3B-Omni 屏幕识别

随手拍一张复杂的手写字照片,它也能快速提取里面的关键信息。


▲Megrez-3B-Omni手写字体识别

二、文本理解:超越上一代14B最佳模型,读完课堂笔记秒出考题

在文本理解方面,作为全模态理解模型,Megrez-3B-Omni没有牺牲模型的文本处理能力,将上一代14B大模型的优秀能力压缩至3B规模,以更少的资源消耗,实现了更高的性能输出,显著降低了计算成本、提升了计算效率。


该模型在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度,在文本理解方面取得全球领先地位。这为端侧设备的智能化提供了全新可能。


在理解长文本时,该模型能做到准确意图识别和极速推理。

它可以适用于教育等很多文字工作应用场景。比如让它参考课堂笔记,出一套包含3个问题的课后习题。


▲Megrez-3B-Omni文本理解

或者让它帮忙给代码捉虫。


▲Megrez-3B-Omni代码理解

三、音频理解:输入语音轻松提问,能听音、问图、解文

在语音理解方面,Megrez-3B-Omni的效果比肩行业主流方案,不仅支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,更能支持对输入图片或文字的语音提问,实现不同模态间的自由切换。


用户可以就任意模态内容发出语音指令,Megrez-3B-Omni能根据语音指令直接响应文本,从一长段语音中快速提炼重点。


▲Megrez-3B-Omni语音理解

四、多场景灵活应用:支持网页搜索

Megrez-3B-Instruct还特别提供了WebSearch功能,使得模型能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。


▲WebSearch支持

这样用户就能构建属于自己AI搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限。

模型有时候自身储备已经足够独立解决问题,这时过多的搜索调用反而可能降低推理速度和效果。Megrez-3B-Instruct通过在搜索和对话之间智能切换,避免了过度依赖搜索或完全不调用搜索的问题。

除了可以自动决策工具调用时机之外,Megrez-3B-Instruct还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

这些能力都已集成于Megrez-3B-Instruct模型中,用户可通过System Prompt自由切换。

结语:一体化设计,推动端侧智能

相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。

模型小,不一定就意味着速度快。

在将推理速度大幅提升背后,凭借对硬件特性的深入理解与利用,Megrez-3B-Omni通过软硬件协同优化策略,确保了各参数与主流硬件高度适配,以实现硬件性能的利用最大化。

此前在提供端上智能一体化解决方案方面,无问芯穹秉持软硬协同理念已与多家知名智能设备和终端芯片厂商展开合作。

除端侧全模态理解模型外,该公司有端上推理软件和IP设计方案,不仅支持CPU、GPU、NPU的同时推理,还能通过跨越软硬件层次的系统优化,额外带来最高可达70%的性能提升,最大化端侧硬件性能的利用,适应电脑、平板、手机乃至眼镜等轻量的端侧移动设备。

通过软硬件联合优化,在端上智能一体化解决方案内,无问芯穹还将推出与之相适配的端侧推理软件与LPU IP等,通过“端模型+端软件+端IP”一体化设计,为端侧设备提供更完整、对硬件利用更高效的智能方案,促进大模型在端侧设备上实现更高推理速度与更低能耗。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退休后不论男女,关系再铁也不要和这6种人搭伴旅游,谁去谁后悔

退休后不论男女,关系再铁也不要和这6种人搭伴旅游,谁去谁后悔

情感大使馆
2024-12-16 10:23:09
房租大跳水,中年人冲进租房市场,暴露多少中国家庭的残酷困境

房租大跳水,中年人冲进租房市场,暴露多少中国家庭的残酷困境

毒sir财经
2024-12-15 21:35:18
我国为什么要取消2元人民币?原因很简单,看完您就明白了!

我国为什么要取消2元人民币?原因很简单,看完您就明白了!

素衣读史
2024-12-16 17:32:36
8年作案无痕迹,周克华为何会在2012年被发现?与癫痫女友有关

8年作案无痕迹,周克华为何会在2012年被发现?与癫痫女友有关

博学老K杂谈
2024-12-14 18:35:03
1年只吃26次!超长效口服降糖新药进入新医保,4个细节一定要了解

1年只吃26次!超长效口服降糖新药进入新医保,4个细节一定要了解

奇妙的本草
2024-12-16 18:00:09
韦世豪晒照与卡纳瓦罗相聚:Nice to see you again My boss

韦世豪晒照与卡纳瓦罗相聚:Nice to see you again My boss

直播吧
2024-12-16 22:29:23
“全球最好的降压药”进入我国医保,患者能节省多少药费?

“全球最好的降压药”进入我国医保,患者能节省多少药费?

小彭谈历史
2024-12-15 20:47:55
88岁名声不保,这一次再多的名和利,都救不了自毁前程的魏纪中

88岁名声不保,这一次再多的名和利,都救不了自毁前程的魏纪中

秋姐居
2024-12-15 08:35:08
2比1!国足出线生死战将双杀苦主晋级世界杯,武磊读秒献绝杀

2比1!国足出线生死战将双杀苦主晋级世界杯,武磊读秒献绝杀

小海要说球
2024-12-16 17:29:16
52岁金建希素颜照曝光,馒化严重表情僵硬,全靠科技维持盛世美颜

52岁金建希素颜照曝光,馒化严重表情僵硬,全靠科技维持盛世美颜

红袖说事
2024-12-16 14:58:00
曝阿娇倒追余衍隆,男方小她19岁,神似陈冠希,两人过往私照被扒

曝阿娇倒追余衍隆,男方小她19岁,神似陈冠希,两人过往私照被扒

叶公子
2024-12-16 15:37:38
清洗杰伦格林?火箭、黄蜂酝酿6换1交易,拉梅洛鲍尔空降休斯顿?

清洗杰伦格林?火箭、黄蜂酝酿6换1交易,拉梅洛鲍尔空降休斯顿?

趣闻第一线
2024-12-17 00:28:39
363 元起!苹果突然发布 3 款新品

363 元起!苹果突然发布 3 款新品

全是技能
2024-12-16 09:11:22
俄军,乌军,朝军谁更强?俄罗斯第一次公开,朝鲜特种兵伤亡数字

俄军,乌军,朝军谁更强?俄罗斯第一次公开,朝鲜特种兵伤亡数字

史行途
2024-12-16 16:11:05
深圳悦府坠楼者的妈妈和姐姐,在现场楼下伤心到崩溃

深圳悦府坠楼者的妈妈和姐姐,在现场楼下伤心到崩溃

九方鱼论
2024-12-15 23:59:38
欢呼自由胜利的叙女记者、演员,被要求戴上头巾,不得上街,不得工作,吓得失声痛哭

欢呼自由胜利的叙女记者、演员,被要求戴上头巾,不得上街,不得工作,吓得失声痛哭

华山穹剑
2024-12-14 21:05:08
形势到底有多严峻?朋友失业5年,近乎崩溃,却遭网友指责...

形势到底有多严峻?朋友失业5年,近乎崩溃,却遭网友指责...

慧翔百科
2024-12-16 09:20:31
贵州支教女老师遇害,6岁学生保留证据21年,真凶令人难以置信

贵州支教女老师遇害,6岁学生保留证据21年,真凶令人难以置信

晓艾故事汇
2024-11-25 23:58:32
阿萨德没跑之前,中方在联合国发表立场:支持叙利亚政府打击恐怖主义

阿萨德没跑之前,中方在联合国发表立场:支持叙利亚政府打击恐怖主义

星辰故事屋
2024-12-15 19:37:07
莫言:长久的男女关系,既谈钱又谈性,女的不太矜持,男的不太抠

莫言:长久的男女关系,既谈钱又谈性,女的不太矜持,男的不太抠

清风拂心
2024-11-26 13:15:02
2024-12-17 02:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
9278文章数 116619关注度
往期回顾 全部

科技要闻

极越夏一平:我太想把车卖好 造成今天的错

头条要闻

普京:西方推动俄越"红线" "榛树"导弹将很快批量生产

头条要闻

普京:西方推动俄越"红线" "榛树"导弹将很快批量生产

体育要闻

曼柿德比?阿莫林:打他个滕枯瓜落!

娱乐要闻

曝阿娇倒追余衍隆,男方神似陈冠希

财经要闻

中央财办最新发声!信息量很大

汽车要闻

能便宜2万?智界R7增程版12月19日上市

态度原创

教育
旅游
时尚
房产
公开课

教育要闻

温州日报作文版作文选登:陈多姿《追风少年》

旅游要闻

谢绝携带大量服装道具入园!北京市属公园发布

年末见朋友,随意但精致的头发造型靠它们~

房产要闻

信号!海口二手房价,今年首次止跌!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版