Talk预告｜北京大学PKU-DAIR余昭辰：从多模态理解到生成 - 从LLM到Diffusion Model|pku|with|image|model|diffusion

Talk预告｜北京大学PKU-DAIR余昭辰：从多模态理解到生成 - 从LLM到Diffusion Model

2024-06-25 08:27:38　来源: 将门创投

北京举报

分享至

本期为TechBeat人工智能社区第603期线上Talk。

北京时间6月26日(周三)20:00，北京大学PKU-DAIR实习生余昭辰的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是:“从多模态理解到生成 - 从LLM到Diffusion Model”，届时他将向大家介绍PKU-DAIR课题组在大语言模型和扩散模型两个领域上的最新研究成果，并提出将LLM和Diffusion Model进行结合的新思路。

Talk·信息

主题：从多模态理解到生成 - 从LLM到Diffusion Model

嘉宾：北京大学PKU-DAIR实习生 · 余昭辰

时间：北京时间6月26日(周三)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

大语言模型（Large Language Models, LLMs）与扩散模型（Diffusion Models）都是生成模型，可以根据输入条件生成新的数据样本。大语言模型主要生成文本，扩散模型生成图像或其他形式的数据。两者都是当前人工智能研究的热点领域，LLM/MLLM更侧重于多模态数据的理解与推理，而Diffusion Model更侧重于生成多模态数据，建模其分布。本次talk将介绍本课题组在两个领域上的最新研究成果，并提出将LLM和Diffusion Model进行结合的新思路。

Talk大纲

1. 增强大语言模型推理的思维缓存方法——Buffer of Thought

2. 将扩散模型用于不同数据建模生成：

（1）文生视频——ContextDiff；

（2）文生3D——IPDreamer；

（3）3D小分子药物设计——IRDiff

3. 将LLM与Diffusion Model进行结合，用于复杂多模态数据生成：

（1）组合式/长文本文生图——RPG；

（2）组合式/复杂文生视频——VideoTetris；

（3）拥有世界知识的图形编辑器——EditWorld

Talk·预习资料

论文链接： https://arxiv.org/abs/2406.04271 项目名称： Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models 项目链接： https://github.com/YangLing0818/buffer-of-thought-llm

论文链接： ‍https://openreview.net/forum?id=nFMS6wF2xq‍ 项目名称： Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing - ICLR 2024 项目链接： https://github.com/YangLing0818/ContextDiff

论文链接： https://arxiv.org/2310.05375 项目名称： IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts 项目链接： https://github.com/YangLing0818/IPDreamer

论文链接： https://openreview.net/forum?id=eejhD9FCP3 项目名称： Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation (ICML 2024) 项目链接： https://github.com/YangLing0818/IRDiff

论文链接： https://arxiv.org/2401.11708 项目名称： Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs - ICML 2024 项目链接： https://github.com/YangLing0818/RPG-DiffusionMaster

论文链接： https://arxiv.org/2406.04277 项目名称： VideoTetris: Towards Compositional Text-To-Video Generation 项目链接： https://github.com/YangLing0818/VideoTetris

论文链接： https://arxiv.org/2405.14785 项目名称： EditWorld: Simulating World Dynamics for Instruction-Following Image Editing 项目链接： https://github.com/YangLing0818/EditWorld

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

余昭辰

北京大学PKU-DAIR · 实习生

余昭辰，北京大学数据与智能实验室（PKU-DAIR）本科实习生，研究方向为扩散模型与大模型，已在ICLR、ICML等顶会上一作发表两篇论文，担任NeurIPS等顶会审稿人。

个人主页: https://www.techbeat.net/grzytrkj?id=38118

团队介绍：

北京大学数据与智能实验室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR实验室）由北京大学计算机学院崔斌教授领导，长期从事数据库系统、大数据管理与分析、AI系统、AIGC等领域的前沿研究，在理论和技术创新以及系统研发上取得多项成果，已在国际顶级学术会议和期刊发表学术论文300余篇，发布多个开源项目。课题组同学曾数十次获得包括CCF优博、CAAI优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作，与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索，解决实际问题，进行科研成果的转化落地。

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>

预约本期Talk

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.