网易首页 > 网易号 > 正文 申请入驻

参数小,性能强!开源多模态模型—TinyGPT-V

0
分享至

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型

此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。

所以,非常适用于中小型企业和个人开发者,同时可以部署在手机、笔记本等移动设备上。

开源地址:https://github.com/DLYuanGod/TinyGPT-V

论文地址:https://arxiv.org/abs/2312.16862



TinyGPT-V主要架构

TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

开发人员选择了微软最新开源的Phi-2,作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数,但理解和推理能力非常强,在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

视觉编码器采用了与MiniGPT-v2相同的架构,基于ViT的EVA模型。这是一个预训练好的视觉基础模型,在整个TinyGPT-V的训练过程中保持冻结状态。



线性投影层的作用则是,将视觉编码器提取的图像特征嵌入到大语言模型中,使大语言模型能够理解图像信息

TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构,这样可以最大程度复用BLIP-2的预训练成果。

第二层线性投影层用新的高斯分布初始化,目的是弥补前一层输出和语言模型嵌入层之间的维度差距。

TinyGPT-V训练流程

TinyGPT-V的训练经过了四个阶段,每个阶段所使用的数据集及实验流程各不相同。

第一阶段是热身训练,目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集,总计约500万幅图像和对应的描述文本。

第二阶段进行预训练,目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段,每个阶段有5000个迭代。



第三阶段进行指令调优,使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练,如“描述这张图片的内容”。

第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集,如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

同时采用了与第二阶段类似的学习率策略,最终使得损失从2.720下降到了1.399。

为了测试TinyGPT-V的性能,研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。



结果显示,TinyGPT-V的参数很小,性能却非常强悍,例如,在VSR空间推理任务上,以53.2%的准确率,超过所有参与测试的模型。

本文素材来源TinyGPT-V论文,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震撼!京港澳高速湖北北段56座桥梁全拆除,网友:为啥要炸了重建

震撼!京港澳高速湖北北段56座桥梁全拆除,网友:为啥要炸了重建

乡野小珥
2024-06-30 19:52:38
三大消息:菲本土爆发激战;外交部发声哀悼;南海大局已定!

三大消息:菲本土爆发激战;外交部发声哀悼;南海大局已定!

青年的背包
2024-07-01 22:29:20
陷抄袭争议~网友质疑其与《琅琊榜》海报太相似

陷抄袭争议~网友质疑其与《琅琊榜》海报太相似

大众日报
2024-07-01 20:48:18
上身比基尼,下身牛仔裤,44的秦岚把「腰臀比」的完美展现到极致

上身比基尼,下身牛仔裤,44的秦岚把「腰臀比」的完美展现到极致

娱乐皮皮酱
2024-06-04 23:57:24
叫嚣对标NVIDIA的国产芯片公司退市!300亿市值只剩7亿 户均亏39万

叫嚣对标NVIDIA的国产芯片公司退市!300亿市值只剩7亿 户均亏39万

快科技
2024-07-01 13:30:08
痰是肺部健康的信号,咳出黑痰、黄痰、白痰,分别暗示了什么?

痰是肺部健康的信号,咳出黑痰、黄痰、白痰,分别暗示了什么?

静海
2024-01-04 20:34:10
刚刚,美国大破防!中国网友许愿成功,美国只有一条退路...

刚刚,美国大破防!中国网友许愿成功,美国只有一条退路...

新财迷
2024-07-01 16:55:16
差点9-1!西班牙变态统治力:狂射35脚,8成控球!大黑马自闭了!

差点9-1!西班牙变态统治力:狂射35脚,8成控球!大黑马自闭了!

风过乡
2024-07-01 06:54:10
白俄罗斯:若主权独立受威胁,将使用核武器

白俄罗斯:若主权独立受威胁,将使用核武器

参考消息
2024-07-01 10:50:14
董宇辉突然被全网抵制,上海师范大学老教授公开抨击,称他很虚伪

董宇辉突然被全网抵制,上海师范大学老教授公开抨击,称他很虚伪

新游戏大妹子
2024-06-30 12:10:35
解放军连续四天围台,台军高层发现不对,吴谦改了对台军称呼

解放军连续四天围台,台军高层发现不对,吴谦改了对台军称呼

战域笔墨
2024-06-28 13:03:39
重回正轨!西班牙自2012年夺冠后,首次在大赛淘汰赛90分钟内取胜

重回正轨!西班牙自2012年夺冠后,首次在大赛淘汰赛90分钟内取胜

直播吧
2024-07-01 05:53:05
刘烨大骂周迅:只会跟导演睡的二流演员!周迅一句回应直戳他心窝

刘烨大骂周迅:只会跟导演睡的二流演员!周迅一句回应直戳他心窝

小啾咪侃侃史
2024-06-23 13:02:20
马克西五年2.04亿续约:连签5人总计4.44亿 大帝还不摸东决地板?

马克西五年2.04亿续约:连签5人总计4.44亿 大帝还不摸东决地板?

颜小白的篮球梦
2024-07-01 21:09:01
V字雨带在我国出现,河南山东迎来喜雨!预警升级:警惕危险天气

V字雨带在我国出现,河南山东迎来喜雨!预警升级:警惕危险天气

中国气象爱好者
2024-07-01 20:54:11
10万人冲上街,台湾要变天!退役老将喊话大陆:中国人不打中国人

10万人冲上街,台湾要变天!退役老将喊话大陆:中国人不打中国人

趣知史馆
2024-06-03 19:50:03
暑假时和女友去爬山,她的竹马被蛇咬到下体,她毫不犹豫俯身帮忙

暑假时和女友去爬山,她的竹马被蛇咬到下体,她毫不犹豫俯身帮忙

风月故事汇
2024-06-29 10:10:02
85岁刘诗昆携全家现身!1岁儿被首前相夫人抱着,温情互动惹人羡

85岁刘诗昆携全家现身!1岁儿被首前相夫人抱着,温情互动惹人羡

裕丰娱间说
2024-07-01 10:02:00
被打马赛克的杨颖彻底慌了!给辛巴带货,被恭维是顶流却满脸无措

被打马赛克的杨颖彻底慌了!给辛巴带货,被恭维是顶流却满脸无措

木子爱娱乐大号
2024-06-30 18:06:29
首次访华就给下马威?中国当即撤走仪仗队:摆正态度、想明白再来

首次访华就给下马威?中国当即撤走仪仗队:摆正态度、想明白再来

笔墨V
2024-07-01 22:31:37
2024-07-01 23:52:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
341文章数 51关注度
往期回顾 全部

科技要闻

天兵科技巩义现场工作人员:正寻找黑匣子

头条要闻

媒体:法国人民集体投下否决票 马克龙的时代结束了

头条要闻

媒体:法国人民集体投下否决票 马克龙的时代结束了

体育要闻

他们距离创造历史,只差1分33秒

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

债牛疯狂不止,引央行“出手”!

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

本地
健康
亲子
公开课
军事航空

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

人类为何至今无法攻克渐冻症?

亲子要闻

给20后萌娃打疫苗,还没开始打,就在宝宝脸上看到了恐惧

公开课

连中三元是哪三元?

军事要闻

泽连斯基:俄乌谈判可采取“第三国调解”模式

无障碍浏览 进入关怀版