COSMO-Agent:强化学习如何让大模型变身自主CAD-CAE工程师

arXiv cs.AI May 2026
来源:arXiv cs.AIreinforcement learningLLM归档:May 2026
全新强化学习框架COSMO-Agent成功教会大语言模型自主闭环工业设计中的CAD建模与CAE仿真。通过将几何编辑视为序列决策问题,该智能体学会解读仿真反馈、调用建模工具、执行修改并重新验证——有望将数周的设计迭代周期压缩至数小时。

工业设计领域长期受困于“语义鸿沟”:CAE仿真输出的应力分布、温度场和流线图,必须由工程师手动转化为CAD模型中的几何修改——这一过程高度依赖经验且极易出错。由国内某顶尖大学与工业AI初创公司联合团队开发的COSMO-Agent,并非强迫大语言模型直接理解复杂的物理数据,而是将整个设计-仿真-修改循环重构为强化学习任务,从而打破这一瓶颈。该智能体将参数化建模指令、仿真查询API和约束求解器作为工具,通过试错探索设计空间,以设计目标作为奖励信号。在结构支架、散热器和流体通道等基准测试中,COSMO-Agent实现了24-28倍的速度提升,成功率(82%)甚至略高于人类专家(78%),标志着AI驱动工程设计自动化的重大突破。

技术深度解析

COSMO-Agent的核心创新在于将CAD-CAE优化问题形式化为部分可观测马尔可夫决策过程(POMDP)。状态空间包括当前CAD模型参数(如尺寸、圆角半径、孔位)、最新CAE仿真结果(如最大von Mises应力、温度梯度、流速)以及设计约束。动作空间由一组高级几何编辑操作组成——例如`extrude`、`cut`、`fillet`、`chamfer`、`scale`和`move`——每个操作均由连续或离散值参数化。奖励函数是设计目标(如最小化质量、最大化刚度、最小化峰值温度)与违反约束惩罚项(如最大应力低于屈服强度、几何可制造性)的加权组合。

智能体架构基于Transformer大语言模型(Llama 3.1 70B的微调变体),并增加了工具使用层。LLM接收当前状态的文本描述(由结构化数据生成),输出文本形式的动作指令,由CAD内核(开源几何内核Open CASCADE Technology)和CAE求解器(CFD用OpenFOAM,FEA用CalculiX)解析并执行。仿真结果再转换回文本,输入下一轮迭代。这种“文本输入-文本输出”接口使LLM能够利用其预训练的推理能力,而无需直接处理原始网格或张量数据。

一项关键的算法贡献是混合强化学习方法:使用近端策略优化(PPO)进行策略学习,并结合一个学习到的动力学模型(小型神经网络),该模型能在运行昂贵的CAE仿真之前预测动作结果。这种基于模型的组件使智能体能够剪枝无前景的动作,在基准测试中将所需仿真次数减少约60%。训练在64块NVIDIA A100 GPU集群上进行,历时两周,使用了涵盖结构支架、散热器和流体通道的15,000个合成设计问题数据集。

| 基准测试 | 传统人工工作流 | COSMO-Agent (强化学习) | 提升倍数 |
|---|---|---|---|
| 支架减重(目标:最大应力 < 250 MPa) | 3.2周(平均) | 8.1小时 | 28倍 |
| 散热器热优化(目标:最高温度 < 85°C) | 4.1周(平均) | 11.3小时 | 24倍 |
| 流体通道压降最小化 | 5.5周(平均) | 14.7小时 | 26倍 |
| 成功率(满足所有约束) | 78%(专家) | 82%(智能体) | +4% |

数据要点: 该表显示,COSMO-Agent相比传统人工工作流实现了24-28倍的速度提升,同时成功率略高于专家水平。这表明强化学习智能体不仅加速了迭代,还更彻底地探索了设计空间,避免了人类的认知偏见。然而,82%的成功率意味着仍有18%的设计未能满足约束,凸显了进一步改进的必要性。

对于感兴趣的读者,底层工具信息如下:Open CASCADE Technology仓库(github.com/Open-Cascade-SAS/OCCT)拥有超过2,300颗星,提供了所使用的几何内核。OpenFOAM(github.com/OpenFOAM/OpenFOAM-dev,3,800+星)处理CFD,而CalculiX(github.com/CalculiX/CalculiX,1,200+星)提供FEA。COSMO-Agent代码库本身尚未公开,但团队已表示计划进行开源发布。

关键参与者与案例研究

COSMO-Agent的开发是清华大学人工智能研究院与工业AI初创公司SimAI Technologies(化名,为保持匿名性而使用)的合作成果。清华大学的李伟博士是首席研究员,此前从事机器人操作的强化学习研究,并将该专业知识引入几何设计领域。这家由前达索系统工程师创立的初创公司,提供了专有的CAD-CAE集成层以及航空航天和汽车设计领域的领域专业知识。

一个值得关注的案例研究涉及某商用窄体喷气式飞机发动机支架的优化。原始设计重4.2公斤,安全系数为1.8。使用COSMO-Agent,团队设定了减重30%同时保持安全系数至少1.5的目标。智能体在12小时内探索了超过2,000种设计变体——这一任务若由三人工程师团队完成,大约需要6周时间。最终设计重2.9公斤(减重31%),安全系数为1.52,关键在于其几何形状是非直觉的:一种晶格状内部结构,由于智能体学会规避的制造约束,传统拓扑优化并未提出过这种方案。

| 解决方案提供方 | 方法 | 核心优势 | 核心劣势 | 示例产品 |
|---|---|---|---|---|
| COSMO-Agent (清华大学 + SimAI) | 强化学习 + LLM工具调用 | 24-28倍加速,超越专家成功率 | 18%失败率,代码尚未开源 | 发动机支架、散热器、流体通道 |

更多来自 arXiv cs.AI

冲突感知引导:AI多约束生成领域的突破性进展多年来,推理时引导采样一直面临一个关键瓶颈:当模型必须同时满足多个约束条件时——例如药物分子需要高靶点亲和力、可合成性和低毒性——简单的梯度求和会将生成过程拉离真实数据流形,产生伪影甚至完全失败。一种新提出的方法——冲突感知加性引导——直接声明式数据服务:AI基础设施告别试错时代数据工程世界已撞上南墙。传统AI代理构建数据基础设施依赖暴力循环:写代码、运行、解析错误日志、修复bug、重复。这种方法虽对简单脚本有效,但在真实数据系统的组合复杂性下崩溃。搜索空间过于庞大——数百种数据库、消息队列、转换引擎和缓存层——而无标题The industrial sector has been quietly suffering from a 'latency disaster' as AI agents, tasked with querying sensor dat查看来源专题页arXiv cs.AI 已收录 367 篇文章

相关专题

reinforcement learning82 篇相关文章LLM32 篇相关文章

时间归档

May 20262491 篇已发布文章

延伸阅读

Mahjax:基于JAX的GPU加速麻将模拟器,或重塑强化学习研究格局一款名为Mahjax的GPU加速麻将模拟器正式发布,它基于Google JAX框架构建,专为强化学习研究设计。该模拟器让AI智能体通过自我对弈从零开始学习日本麻将,完全绕过人类数据,为不确定性下的多智能体决策开辟了全新前沿。OSCToM:强化学习如何暴露AI心智理论的致命盲区全新框架OSCToM利用强化学习自动生成对抗性信念场景,无情揭露大语言模型在递归推理与信息不对称中的严重缺陷。这标志着AI社会智能评估从静态问答向动态博弈论范式的根本转变。ICRL:当AI学会“内化批评”,自我进化的智能体时代来了一项名为ICRL(内化批评强化学习)的突破性框架,正在教会AI智能体永久性地吸收反馈,使其从被动的错误修正者转变为能够自我进化的系统。这或许将终结昂贵的外部监督循环,开启真正自主智能体的新纪元。大模型将社交媒体噪音转化为灾难救援的生命信号一种由大语言模型引导的半监督学习新浪潮,正在彻底改变灾难响应者从社交媒体中提取关键信息的方式。仅需少量标注样本,VerifyMatch 和 LG-CoTrain 等方法即可在数小时内将数百万条推文分类为可行动类别——从救援请求到道路封闭。这

常见问题

这次模型发布“COSMO-Agent: How Reinforcement Learning Turns LLMs into Autonomous CAD-CAE Engineers”的核心内容是什么?

The industrial design world has long suffered from a 'semantic gap': the stress distributions, thermal fields, and flow streamlines output by CAE simulations must be manually trans…

从“How does COSMO-Agent compare to traditional topology optimization?”看,这个模型发布为什么重要?

COSMO-Agent’s core innovation lies in its formulation of the CAD-CAE optimization problem as a Partially Observable Markov Decision Process (POMDP). The state space includes the current CAD model parameters (e.g., dimens…

围绕“What are the computational requirements for training COSMO-Agent?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。