技术深度解析
从文本生成3D网格(例如DreamFusion、Point-E)到文本生成CAD,这一跨越并非渐进式改进,而是一次根本性的架构变革。早期的生成式3D模型输出的是体素网格或神经辐射场(NeRF),虽然视觉效果令人印象深刻,但缺乏制造所需的参数化、基于约束的结构。一个CAD模型并非一个形状,而是一系列操作序列:拉伸草图、切割孔洞、添加圆角、应用阵列。这一突破的关键在于将CAD模型表示为一种程序化语言。
架构概览:
由MIT和斯坦福等机构的研究人员率先提出,并在开源项目如'Text2CAD'(GitHub:约4.5k星)和'CADGPT'(GitHub:约2.8k星)中得到复现的主流方法,包含三个阶段:
1. 文本到命令的翻译: 一个经过微调的LLM(通常基于LLaMA或GPT-3.5类模型)接收自然语言提示,并生成一系列CAD操作。这类似于代码生成,但其“语言”是针对Open CASCADE或Parasolid等CAD内核的领域特定语言(DSL)。
2. 约束推断: 一个辅助模块(通常是图神经网络或专用Transformer)从文本中提取几何约束——例如,“四个等距孔”会变成一个带有明确间距参数的阵列约束。这是确保可制造性的关键步骤。
3. 渲染与验证: 命令序列在CAD内核中执行,生成边界表示(B-Rep)实体。验证循环会检查常见错误:自交几何、零厚度壁或不可能的孔位。如果验证失败,模型会重新生成或调整参数。
关键工程细节:
- 训练数据: 秘诀在于数据集。DeepCAD数据集(包含10,000多个带有完整命令历史记录的模型)和ABC数据集(包含100万个以上B-Rep模型)被用于创建配对的文本-命令序列。研究人员还通过GPT-4生成的合成提示对其进行了增强,从而构建了从自然语言到CAD DSL的丰富映射。
- 分词化: CAD命令被分词化为一个固定的操作词汇表(例如`extrude`、`revolve`、`fillet`、`hole`)和参数(长度、角度、半径)。模型输出这些令牌的序列。
- 通过条件控制实现可控性: 为了确保保真度,模型使用基于约束令牌条件的无分类器引导(CFG)。例如,提示“一个带有5mm孔的支架”将条件化输出,生成一个半径参数接近5mm的孔令牌,并对偏差施加学习到的惩罚。
基准性能:
| 模型 | 命令准确率 (%) | 约束违反率 (%) | 平均推理时间 (秒) | 参数化可编辑性 |
|---|---|---|---|---|
| Text2CAD (v1.0) | 72.3 | 18.5 | 2.1 | 是(部分) |
| CADGPT (v0.9) | 68.1 | 22.0 | 3.4 | 是(完全) |
| 基线:GPT-4 + CAD插件 | 55.0 | 35.0 | 8.7 | 否(静态网格) |
| 人类专家(手动) | 95.0 | 2.0 | 600+ | 是 |
数据要点: 尽管基于LLM的CAD生成器在准确率上仍远不及人类专家(72%对95%),但其运行速度优势高达300倍。较高的约束违反率(18-22%)是投入生产使用的主要障碍,但随着更好的验证循环和更大数据集的引入,这一指标正在迅速改善。
关键参与者与案例研究
LLM驱动的CAD商业化竞赛正在升温,形成了三个截然不同的阵营:现有CAD供应商、AI原生初创公司和开源社区。
现有巨头:防御性举措
- Autodesk: CAD领域的巨无霸一直在悄悄地将LLM功能集成到Fusion 360中。其“Fusion Assistant”使用微调模型将文本提示转换为参数化特征创建。早期用户反馈显示,它在处理简单零件(支架、法兰)时表现出色,但在复杂装配体上则力不从心。Autodesk的策略是将LLM作为副驾驶嵌入,而非替代品,从而维持其订阅收入。
- Dassault Systèmes: 其3DEXPERIENCE平台现在包含一个“自然语言设计”模块,利用在其庞大的工业零件库上训练的专有模型。他们的重点在于航空航天和汽车领域,这些领域对约束精度要求极高。
AI原生初创公司:颠覆者
- Morphy (YC W24): 这家隐形初创公司已筹集1200万美元,用于构建一个直接输出STEP文件的文本到CAD工具。其差异化优势在于“约束优先”架构,该架构在渲染之前使用单独的验证模型检查几何有效性。他们声称对于少于10个特征的零件,成功率达到95%。
- Brickly (种子轮,400万美元): Brickly专注于消费市场,瞄准爱好者和教育工作者。其模型在乐高兼容零件数据集上训练,允许用户输入“一个2x4的砖块,顶部带有一个1x2的螺柱”,然后获得一个可打印的STL文件。虽然达不到工业级标准,但它展示了这项技术的民主化潜力。