上海科技大学设计一个统一的计算机辅助设计(CAD)生成系统CAD-MLLM,这是首个能够基于多模态输入来生成参数化CAD模型的系统。该系统可以根据用户提供的文本描述、图片、点云或这些形式的任意组合轻松生成CAD模型。(链接在文章底部,代码即将开源)
具体来说,在CAD-MLLM框架中,利用CAD模型的命令序列,并使用先进的大型语言模型(LLMs)将这些多样化的多模态数据与CAD模型的矢量化表示之间的特征空间对齐。为了促进模型训练,设计了一个全面的数据构建和标注流程,为每个CAD模型配备了相应的多模态数据。由此产生的数据集被命名为Omni-CAD,它是首个包含每个CAD模型的文字描述、多视角图像、点云以及构造序列的多模态CAD数据集,它包含了大约450,000个实例及其CAD构造序列。
01 技术原理
构建一个CAD模型的过程可以用简单的步骤来说明。首先,在一个选定的2D平面上画一个草图,这就是草图操作。接着,通过拉伸操作把这个2D草图“拖”成一个3D的立体形状。
如果需要进一步编辑,可以再创建一个新的3D立体形状,然后用布尔运算中的“并集”操作把这两个3D形状“合并”成一个完整的整体。类似的布尔运算(比如差集和交集)还能用来创建更复杂的几何模型。最终,这个CAD模型可以通过一系列的操作指令清楚地表示出来。
CAD-MLLM提出了一种网络,可以同时处理最多三种类型的输入数据。对于非文本的输入数据,首先会通过一个固定的预训练编码器进行处理,接着再通过一个投影层,将这些数据的特征对齐到一个共享的大型语言模型(LLM)特征空间中。
然后,这个网络将提示信息(Prompt)和多模态特征结合起来,并通过LoRA对语言模型进行微调,最终基于这些组合输入生成精确的CAD模型。
从提出的Omni-CAD数据集中抽取了五个样本,用来展示 多模态条件数据 与对应的真实CAD模型,上图 展示多种输入和它们生成的CAD模型效果!
基于点的重建结果,并将CAD-MLLM方法与基于点的B-rep(边界表示)重建基线进行了对比。图中的蓝线表示重建模型中的悬空边。 CAD-MLLM 方法能够生成 高保真的重建结果 。 大多数重建结果是严格的流形结构,几乎没有悬空边(也就是没有蓝线)。 相比之下,基线方法的重建结果存在大量悬空边。 对比图清楚地表明,CAD-MLLM方法在拓扑结构方面表现更优越!
https://arxiv.org/pdf/2411.04954欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.