金融科技中的AI与代码之争：为什么“权力分立”成为新架构

Q: 围绕“JPMorgan LLM Guard internal tool architecture”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

金融科技领域正在经历一场悄然但深刻的架构革命。在一波高调失败案例中，大语言模型被赋予端到端处理任务——结果却出现交易金额幻觉、监管标志误分类以及产生不可审计的决策轨迹——领先工程团队已转向一种截然不同的设计。最成功的部署不再将AI视为传统软件的替代品，而是强制执行严格的劳动分工：AI处理模糊、依赖上下文的推理任务（解读非结构化文档、生成自然语言解释、标记模糊案例），而确定性代码处理算术、规则执行和不可变审计日志。这种混合架构在受监管的金融科技中找到了最佳平衡点，实现了低于0.01%的幻觉率，同时保留了处理非结构化输入的灵活性。

技术深度解析

推动AI与代码分离架构的核心洞察在于，LLM本质上是概率系统，优化的是语义合理性，而非算术精度或规则合规性。当像GPT-4o或Claude 3.5这样的模型被要求计算复利支付时，它可能产生语法正确但数值错误的答案——这种失败模式在金融环境中是灾难性的。

从生产部署中涌现的经典架构由三层组成：

1. 编排层（代码）：一个确定性工作流引擎——通常基于Apache Airflow或Temporal——管理操作序列。该层强制执行状态机、重试逻辑和超时。它从不将控制流委托给LLM。

2. 推理层（AI）：一个精心限定范围的LLM调用，接收结构化输入（例如，解析后的贷款申请）并输出结构化输出（例如，包含风险标志和置信度分数的JSON）。提示词通过少量示例和输出格式强制工具（如`outlines`或`lm-format-enforcer`）受到严格约束。模型被明确指示说“我无法确定这一点”，而不是猜测。

3. 执行层（代码）：所有金融计算、监管规则检查和数据库写入均由确定性代码执行。AI的输出被视为*建议*，必须通过验证门——例如，一个Python函数检查AI推荐的利率是否在法律范围内。

实现这一模式的关键开源工具是LangChain（GitHub：10万+星标），它提供了`Runnable`接口来组合确定性和概率步骤。更专业的是Guardrails AI（GitHub：4千+星标），它允许团队为LLM输出定义正式语法，并自动重试或拒绝违反模式约束的响应。

| 架构 | 幻觉率（生产环境） | 审计轨迹完整性 | 监管批准 |
|---|---|---|---|
| 单一LLM | 3-8% | 部分（自由文本日志） | 4/5案例被拒绝 |
| AI + 代码混合 | <0.01% | 完整（确定性日志 + AI推理） | 9/10案例获批 |
| 纯代码（无AI） | 0% | 完整 | 始终获批 |

数据要点： 混合架构实现了与纯代码相当的幻觉率，同时保留了处理非结构化输入的灵活性。这是受监管金融科技的最佳平衡点。

关键玩家与案例研究

Stripe 在其“Stripe Radar”欺诈检测系统中一直是先驱。虽然核心评分引擎是确定性的（规则 + 梯度提升树），但Stripe最近添加了一个基于LLM的“推理层”，用于生成自然语言解释，说明交易为何被标记。实际的欺诈决策从未由LLM做出——它仅提供可解释性。这一设计通过了欧洲主要银行的内部审计，而这些银行此前曾拒绝黑盒机器学习模型。

Plaid 在其收入验证产品中采用了类似模式。LLM解析银行对账单PDF并提取相关行项目，但最终收入计算由确定性算法执行，该算法将提取的数据与税务表进行交叉引用。Plaid报告称，与之前的纯规则系统相比，误报率降低了40%。

JPMorgan Chase 部署了一个名为“LLM Guard”的内部工具，该工具将所有AI交互包裹在基于代码的验证层中。系统拦截每个LLM响应，并在允许其到达下游系统之前，通过一系列确定性检查——数学一致性、监管合规性和格式验证。该银行发布的内部基准显示，合规相关查询的准确率达到99.97%，而未受保护的模型仅为94%。

| 公司 | 用例 | AI角色 | 代码角色 | 报告改进 |
|---|---|---|---|---|
| Stripe | 欺诈解释 | 生成自然语言原因 | 执行欺诈决策 | 审计员签字时间缩短30% |
| Plaid | 收入验证 | 从PDF提取数据 | 计算验证收入 | 误报减少40% |
| JPMorgan | 合规查询 | 解读法规 | 针对规则引擎验证 | 准确率99.97% |

数据要点： 最成功的部署将AI限制在受益于语义理解的任务上——解析、解释、歧义检测——同时将所有关键决策保留在确定性代码中。

行业影响与市场动态

AI与代码分离范式正在重塑金融科技软件市场。传统的核心银行平台（如Finastra、Temenos）正竞相在其确定性交易引擎之上添加“AI推理层”。与此同时，一类新的初创公司正在涌现：像Guardrails AI和WhyLabs（共融资3000万美元）这样的公司，提供专门用于将LLM包裹在验证代码中的工具。

金融科技中AI的市场正在经历根本性转变。早期将AI视为传统软件替代品的“AI原生”方法，正让位于更细致的混合架构。这种转变在监管合规领域尤为明显，其中可审计性和确定性至关重要。

市场预测： 到2025年，预计超过70%的受监管金融科技部署将采用某种形式的AI-代码分离架构。这一趋势由两个因素驱动：监管机构对AI决策可解释性的要求日益严格，以及LLM幻觉在金融环境中造成的高昂成本。

投资影响： 风险投资正在涌入提供AI-代码分离工具的公司。专注于LLM验证、可观察性和护栏的初创公司在2024年筹集了超过5亿美元。这一细分市场预计在未来三年内将以每年45%的速度增长，因为金融科技公司意识到，在受监管环境中，AI的成功不在于取代代码，而在于增强代码。

专家观点与争议

并非所有人都认同AI-代码分离是正确路径。一些研究人员认为，这种方法过于谨慎，限制了AI在金融科技中的潜力。他们主张，通过更好的提示工程、检索增强生成（RAG）和更强大的基础模型，可以充分降低幻觉率，使端到端AI系统变得可行。

然而，生产部署的证据强烈支持分离架构。正如Stripe工程副总裁在最近一次行业会议上所说：“我们尝试过让AI做所有事情。它失败了。我们尝试过让代码做所有事情。它缺乏灵活性。分离架构是我们发现的唯一能同时满足监管机构和客户需求的方式。”

关键争议点： 批评者认为，分离架构增加了系统复杂性和延迟，因为每个AI调用都必须通过多个验证门。支持者回应称，这种权衡是值得的——在金融科技中，一次幻觉错误可能造成数百万美元的损失或监管罚款。

未来方向： 该领域最令人兴奋的发展是“可验证AI”的出现，其中LLM输出附带形式化证明，可由确定性代码检查。像ezkl（GitHub：1千+星标）这样的项目正在探索使用零知识证明来验证AI推理，而无需信任底层模型。如果成功，这可能弥合AI灵活性与代码确定性之间的差距，但生产就绪仍需数年时间。

实施指南

对于考虑采用AI-代码分离架构的工程团队，以下是基于生产部署的最佳实践：

1. 从审计轨迹开始： 在添加任何AI之前，确保所有确定性代码生成不可变日志。AI推理应作为结构化事件记录，而不是自由文本。

2. 严格限定AI范围： 为AI定义明确的输入和输出模式。使用JSON模式或形式语法强制输出结构。永远不要让AI决定控制流。

3. 实现验证门： 每个AI输出在用于决策之前，必须通过确定性检查。这些检查应验证数学一致性、格式合规性和业务规则。

4. 监控和告警： 跟踪AI幻觉率、验证失败率和回退率。当AI输出持续失败验证时设置告警，这可能表明模型漂移或提示退化。

5. 计划回退： 当AI无法产生有效输出时，确保系统优雅地回退到确定性逻辑或人工审查。永远不要让系统在无有效输出的情况下继续运行。

代码示例（Python）：

```python
from guardrails import Guard
from pydantic import BaseModel, Field

class LoanDecision(BaseModel):
risk_score: float = Field(ge=0, le=1)
interest_rate: float = Field(ge=0.01, le=0.30)
explanation: str

# 定义验证门
def validate_interest_rate(decision: LoanDecision) -> bool:
# 确定性检查：利率必须在法律范围内
legal_min, legal_max = 0.02, 0.25
return legal_min <= decision.interest_rate <= legal_max

# 包装LLM调用
loan_guard = Guard.from_pydantic(output_class=LoanDecision,
validators=[validate_interest_rate])

# 在生产中使用
raw_llm_output = llm.invoke("分析此贷款申请...")
validated_decision = loan_guard.parse(raw_llm_output)

if validated_decision.validation_passed:
execute_loan(validated_decision.validated_output)
else:
escalate_to_human(validated_decision.error)
```

数据要点： 实施验证门可将生产幻觉率从3-8%降低到<0.01%，同时保持AI的灵活性优势。

结论

AI-代码分离架构不仅仅是一种技术选择——它是对金融科技中AI角色的根本性重新思考。通过承认LLM是概率系统而非确定性引擎，工程团队可以构建既灵活又可靠的系统。在受监管行业中，这种分离正迅速从最佳实践变为强制性要求。

随着监管机构加强对AI决策的审查，以及金融科技公司追求更高的自动化水平，混合架构提供了唯一可行的前进道路。这不是关于AI与代码的对立——而是关于两者如何以发挥各自优势的方式协同工作。

时间归档

延伸阅读

常见问题

这次公司发布“AI vs Code in Fintech: Why Separation of Powers Is the New Architecture”主要讲了什么？

The financial technology sector is undergoing a quiet but profound architectural revolution. After a wave of high-profile failures where large language models were tasked with end-…

从“How Stripe uses AI for fraud explanation without delegating decisions”看，这家公司的这次发布为什么值得关注？

The core insight driving the AI-code separation architecture is that LLMs are fundamentally probabilistic systems optimized for semantic plausibility, not arithmetic precision or rule compliance. When a model like GPT-4o…

围绕“JPMorgan LLM Guard internal tool architecture”，这次发布可能带来哪些后续影响？