LLM重写CAD：从文本提示到可制造3D模型的范式革命

几十年来，计算机辅助设计（CAD）一直是专业人士的专属领域，他们需要熟练操作SolidWorks、AutoCAD和Fusion 360等复杂软件。将一个概念性想法转化为可制造的3D模型，需要掌握参数化约束、拉伸、放样和布尔运算——这道高门槛将工程师与创业者截然分开。然而，一股新的研究浪潮正在拆除这道壁垒，其核心思路是将CAD生成视为一个语言建模问题。与生成看起来不错但无法通过工程检验的像素化3D网格不同，这些系统输出的是一系列结构化的CAD基元和操作序列，它们严格遵循孔间距、壁厚和承重几何等现实约束。其核心创新在于对大型语言模型进行微调，使其能够理解并生成CAD操作语言，从而将自然语言描述直接转化为工程上可行的三维模型。

技术深度解析

从文本生成3D网格（例如DreamFusion、Point-E）到文本生成CAD，这一跨越并非渐进式改进，而是一次根本性的架构变革。早期的生成式3D模型输出的是体素网格或神经辐射场（NeRF），虽然视觉效果令人印象深刻，但缺乏制造所需的参数化、基于约束的结构。一个CAD模型并非一个形状，而是一系列操作序列：拉伸草图、切割孔洞、添加圆角、应用阵列。这一突破的关键在于将CAD模型表示为一种程序化语言。

架构概览：
由MIT和斯坦福等机构的研究人员率先提出，并在开源项目如'Text2CAD'（GitHub：约4.5k星）和'CADGPT'（GitHub：约2.8k星）中得到复现的主流方法，包含三个阶段：
1. 文本到命令的翻译： 一个经过微调的LLM（通常基于LLaMA或GPT-3.5类模型）接收自然语言提示，并生成一系列CAD操作。这类似于代码生成，但其“语言”是针对Open CASCADE或Parasolid等CAD内核的领域特定语言（DSL）。
2. 约束推断： 一个辅助模块（通常是图神经网络或专用Transformer）从文本中提取几何约束——例如，“四个等距孔”会变成一个带有明确间距参数的阵列约束。这是确保可制造性的关键步骤。
3. 渲染与验证： 命令序列在CAD内核中执行，生成边界表示（B-Rep）实体。验证循环会检查常见错误：自交几何、零厚度壁或不可能的孔位。如果验证失败，模型会重新生成或调整参数。

关键工程细节：
- 训练数据： 秘诀在于数据集。DeepCAD数据集（包含10,000多个带有完整命令历史记录的模型）和ABC数据集（包含100万个以上B-Rep模型）被用于创建配对的文本-命令序列。研究人员还通过GPT-4生成的合成提示对其进行了增强，从而构建了从自然语言到CAD DSL的丰富映射。
- 分词化： CAD命令被分词化为一个固定的操作词汇表（例如`extrude`、`revolve`、`fillet`、`hole`）和参数（长度、角度、半径）。模型输出这些令牌的序列。
- 通过条件控制实现可控性： 为了确保保真度，模型使用基于约束令牌条件的无分类器引导（CFG）。例如，提示“一个带有5mm孔的支架”将条件化输出，生成一个半径参数接近5mm的孔令牌，并对偏差施加学习到的惩罚。

基准性能：
| 模型 | 命令准确率 (%) | 约束违反率 (%) | 平均推理时间 (秒) | 参数化可编辑性 |
|---|---|---|---|---|
| Text2CAD (v1.0) | 72.3 | 18.5 | 2.1 | 是（部分） |
| CADGPT (v0.9) | 68.1 | 22.0 | 3.4 | 是（完全） |
| 基线：GPT-4 + CAD插件 | 55.0 | 35.0 | 8.7 | 否（静态网格） |
| 人类专家（手动） | 95.0 | 2.0 | 600+ | 是 |

数据要点： 尽管基于LLM的CAD生成器在准确率上仍远不及人类专家（72%对95%），但其运行速度优势高达300倍。较高的约束违反率（18-22%）是投入生产使用的主要障碍，但随着更好的验证循环和更大数据集的引入，这一指标正在迅速改善。

关键参与者与案例研究

LLM驱动的CAD商业化竞赛正在升温，形成了三个截然不同的阵营：现有CAD供应商、AI原生初创公司和开源社区。

现有巨头：防御性举措
- Autodesk： CAD领域的巨无霸一直在悄悄地将LLM功能集成到Fusion 360中。其“Fusion Assistant”使用微调模型将文本提示转换为参数化特征创建。早期用户反馈显示，它在处理简单零件（支架、法兰）时表现出色，但在复杂装配体上则力不从心。Autodesk的策略是将LLM作为副驾驶嵌入，而非替代品，从而维持其订阅收入。
- Dassault Systèmes： 其3DEXPERIENCE平台现在包含一个“自然语言设计”模块，利用在其庞大的工业零件库上训练的专有模型。他们的重点在于航空航天和汽车领域，这些领域对约束精度要求极高。

AI原生初创公司：颠覆者
- Morphy (YC W24)： 这家隐形初创公司已筹集1200万美元，用于构建一个直接输出STEP文件的文本到CAD工具。其差异化优势在于“约束优先”架构，该架构在渲染之前使用单独的验证模型检查几何有效性。他们声称对于少于10个特征的零件，成功率达到95%。
- Brickly (种子轮，400万美元)： Brickly专注于消费市场，瞄准爱好者和教育工作者。其模型在乐高兼容零件数据集上训练，允许用户输入“一个2x4的砖块，顶部带有一个1x2的螺柱”，然后获得一个可打印的STL文件。虽然达不到工业级标准，但它展示了这项技术的民主化潜力。

时间归档

延伸阅读

常见问题

这次模型发布“LLMs Rewrite CAD: From Text Prompts to Manufacturable 3D Models”的核心内容是什么？

For decades, computer-aided design (CAD) has been the exclusive domain of specialists wielding complex software like SolidWorks, AutoCAD, and Fusion 360. The process of translating…

从“Can LLM CAD replace SolidWorks for professional engineers?”看，这个模型发布为什么重要？

The leap from text-to-3D meshes (e.g., DreamFusion, Point-E) to text-to-CAD is not incremental—it is a fundamental architectural shift. Early generative 3D models output voxel grids or neural radiance fields (NeRFs), whi…

围绕“What are the best open source text to CAD models on GitHub?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。