技术深度解析
「LLM 作为辕马」这一范式的核心技术创新,在于构建了稳健、容错的流水线,其中 LLM 充当确定性系统的配置器或翻译器。其架构通常遵循一个模式:用户意图 → LLM 解析 → 确定性代码生成 → 执行与验证 → 精炼输出。
一个典型例子是文本处理。纯粹使用 LLM 从各种文本格式中提取电话号码,容易产生幻觉,并且对于高吞吐量任务而言计算成本高昂。混合方法则使用 LLM 分析输入文本和用户意图,然后生成精确的正则表达式。该正则表达式由专用的高速引擎(如 Python 的 `re` 模块)执行。系统可以包含一个验证循环,由 LLM 检查提取结果的合理性。
关键架构组件:
1. 意图解析器与分解器: LLM 将自然语言请求分解为适合确定性工具处理的、离散且可操作的子任务。
2. 工具选择器与生成器: 基于分解后的任务,LLM 要么从预定义的工具库(函数、API、SQL 片段)中选择,要么生成新的、针对特定上下文的代码(如正则表达式、小型脚本)。
3. 沙箱化执行环境: 生成的代码在安全、隔离的环境中执行,以防止副作用。
4. 结果验证器与精炼器: LLM 或更简单的基于规则的系统评估确定性工具输出的正确性,通常会对照原始意图进行检查。
这种架构融合了双方的优势:LLM 在理解模糊的人类意图并将其映射到形式逻辑空间方面无与伦比的能力,以及确定性系统在保证正确性、低延迟和可忽略的边际成本方面的优势。
相关的开源项目:
* `guidance` (GitHub: guidance-ai/guidance): 微软推出的一个库,支持约束生成,强制 LLM 输出遵循特定格式(如 JSON、正则表达式模式),非常适合为确定性系统生成结构化命令。该项目已获得超过 1.1 万星标,且积极维护。
* `LangChain` 与 `LlamaIndex`: 虽然是更广泛的框架,但其核心的「工具」和「智能体」概念体现了这一范式。开发者可以将确定性函数(例如数据库连接器、计算器)包装成工具,供 LLM 驱动的智能体调用。
* `Semantic Kernel` (微软): 一个用于将 LLM 与传统编程语言集成的 SDK,明确设计用于将 AI 服务与传统代码相结合。
| 方法 | 延迟 (p95) | 每百万次操作成本 | 准确率 (任务:提取结构化数据) | 可解释性 |
|---|---|---|---|---|
| 纯 LLM (如 GPT-4) | 2-5 秒 | 5.00 - 30.00 美元 | ~92% (依赖上下文) | 低 (黑盒推理) |
| 混合 LLM + 确定性 | <100 毫秒 (配置后) | <0.10 美元 | >99.9% (依赖工具) | 高 (生成的代码可检查) |
| 纯确定性 (人工编写) | <10 毫秒 | ~0 美元 | 100% (若编写正确) | 最高 (完全人工编写) |
数据要点: 与纯 LLM 方法相比,混合模型提供了一个极具吸引力的权衡方案,将成本降低了两个数量级,延迟降低了一到两个数量级,同时达到或超过了人工编写确定性代码的准确率。相较于纯人工编码,其关键优势在于能够无需人工干预,自适应处理新颖、未见过的输入模式。
关键参与者与案例研究
这一转变由基础设施提供商和专注于应用的初创公司共同推动,各自在新的价值链中开辟了细分市场。
基础设施与平台领导者:
* 微软 (Azure AI & Copilot 技术栈): 微软的战略深刻嵌入了这一理念。GitHub Copilot 不仅仅是生成代码;它还与开发者现有的代码库(即「大车」)集成,提供上下文感知的补全和建议。其更广泛的 Microsoft 365 Copilot 系统则利用 LLM 来编排跨确定性应用程序(如 Excel、Word 和 Outlook)的操作。
* 谷歌 (Gemini API & Vertex AI): 谷歌在其 API 中将「函数调用」提升为一等公民,使开发者能够描述确定性工具,供 LLM 学习调用。他们对 Codey 等代码生成模型的研究,明确侧重于生成能融入现有软件开发工作流的代码。
* Anthropic (Claude): Anthropic 对安全性和可控性的关注与此范式高度契合。Claude 在编码任务上的强大表现及其大上下文窗口,使其特别适合分析大型代码库(传统系统)并生成有针对性的、安全的修改或接口。
专业初创公司与工具:
* Vellum: 提供一个用于构建、评估和部署 LLM 驱动工作流的平台。其核心功能之一是管理提示工程、版本控制和评估,使团队能够系统地将 LLM 输出连接到下游的确定性 API 和数据库,本质上是在构建和管理「辕马」与「大车」之间的缰绳。