工程绘图CAD被AI攻破了？上海科技大学推出首个多模态CAD生成方法CAD-MLLM|序列|草图|cad|mllm

工程绘图CAD被AI攻破了？上海科技大学推出首个多模态CAD生成方法CAD-MLLM

2024-11-26 20:49:41　来源: 带你学AI

广东举报

分享至

上海科技大学设计一个统一的计算机辅助设计（CAD）生成系统CAD-MLLM，这是首个能够基于多模态输入来生成参数化CAD模型的系统。该系统可以根据用户提供的文本描述、图片、点云或这些形式的任意组合轻松生成CAD模型。（链接在文章底部，代码即将开源）

具体来说，在CAD-MLLM框架中，利用CAD模型的命令序列，并使用先进的大型语言模型（LLMs）将这些多样化的多模态数据与CAD模型的矢量化表示之间的特征空间对齐。为了促进模型训练，设计了一个全面的数据构建和标注流程，为每个CAD模型配备了相应的多模态数据。由此产生的数据集被命名为Omni-CAD，它是首个包含每个CAD模型的文字描述、多视角图像、点云以及构造序列的多模态CAD数据集，它包含了大约450,000个实例及其CAD构造序列。

01 技术原理

构建一个CAD模型的过程可以用简单的步骤来说明。首先，在一个选定的2D平面上画一个草图，这就是草图操作。接着，通过拉伸操作把这个2D草图“拖”成一个3D的立体形状。

如果需要进一步编辑，可以再创建一个新的3D立体形状，然后用布尔运算中的“并集”操作把这两个3D形状“合并”成一个完整的整体。类似的布尔运算（比如差集和交集）还能用来创建更复杂的几何模型。最终，这个CAD模型可以通过一系列的操作指令清楚地表示出来。

CAD-MLLM提出了一种网络，可以同时处理最多三种类型的输入数据。对于非文本的输入数据，首先会通过一个固定的预训练编码器进行处理，接着再通过一个投影层，将这些数据的特征对齐到一个共享的大型语言模型（LLM）特征空间中。

然后，这个网络将提示信息（Prompt）和多模态特征结合起来，并通过LoRA对语言模型进行微调，最终基于这些组合输入生成精确的CAD模型。

从提出的Omni-CAD数据集中抽取了五个样本，用来展示多模态条件数据与对应的真实CAD模型，上图展示多种输入和它们生成的CAD模型效果！

基于点的重建结果，并将CAD-MLLM方法与基于点的B-rep（边界表示）重建基线进行了对比。图中的蓝线表示重建模型中的悬空边。 CAD-MLLM 方法能够生成高保真的重建结果。大多数重建结果是严格的流形结构，几乎没有悬空边（也就是没有蓝线）。相比之下，基线方法的重建结果存在大量悬空边。对比图清楚地表明，CAD-MLLM方法在拓扑结构方面表现更优越！

https://arxiv.org/pdf/2411.04954

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.