金融科技中的AI与代码之争:为什么“权力分立”成为新架构

Hacker News May 2026
来源:Hacker Newsexplainable AI归档:May 2026
金融科技团队发现,让大语言模型处理从数据验证到合规检查的一切事务,会导致灾难性失败。一种新的架构范式正在兴起:AI作为推理引擎,代码作为确定性执行器。这种权力分立正成为受监管行业的黄金标准。

金融科技领域正在经历一场悄然但深刻的架构革命。在一波高调失败案例中,大语言模型被赋予端到端处理任务——结果却出现交易金额幻觉、监管标志误分类以及产生不可审计的决策轨迹——领先工程团队已转向一种截然不同的设计。最成功的部署不再将AI视为传统软件的替代品,而是强制执行严格的劳动分工:AI处理模糊、依赖上下文的推理任务(解读非结构化文档、生成自然语言解释、标记模糊案例),而确定性代码处理算术、规则执行和不可变审计日志。这种混合架构在受监管的金融科技中找到了最佳平衡点,实现了低于0.01%的幻觉率,同时保留了处理非结构化输入的灵活性。

技术深度解析

推动AI与代码分离架构的核心洞察在于,LLM本质上是概率系统,优化的是语义合理性,而非算术精度或规则合规性。当像GPT-4o或Claude 3.5这样的模型被要求计算复利支付时,它可能产生语法正确但数值错误的答案——这种失败模式在金融环境中是灾难性的。

从生产部署中涌现的经典架构由三层组成:

1. 编排层(代码):一个确定性工作流引擎——通常基于Apache Airflow或Temporal——管理操作序列。该层强制执行状态机、重试逻辑和超时。它从不将控制流委托给LLM。

2. 推理层(AI):一个精心限定范围的LLM调用,接收结构化输入(例如,解析后的贷款申请)并输出结构化输出(例如,包含风险标志和置信度分数的JSON)。提示词通过少量示例和输出格式强制工具(如`outlines`或`lm-format-enforcer`)受到严格约束。模型被明确指示说“我无法确定这一点”,而不是猜测。

3. 执行层(代码):所有金融计算、监管规则检查和数据库写入均由确定性代码执行。AI的输出被视为*建议*,必须通过验证门——例如,一个Python函数检查AI推荐的利率是否在法律范围内。

实现这一模式的关键开源工具是LangChain(GitHub:10万+星标),它提供了`Runnable`接口来组合确定性和概率步骤。更专业的是Guardrails AI(GitHub:4千+星标),它允许团队为LLM输出定义正式语法,并自动重试或拒绝违反模式约束的响应。

| 架构 | 幻觉率(生产环境) | 审计轨迹完整性 | 监管批准 |
|---|---|---|---|
| 单一LLM | 3-8% | 部分(自由文本日志) | 4/5案例被拒绝 |
| AI + 代码混合 | <0.01% | 完整(确定性日志 + AI推理) | 9/10案例获批 |
| 纯代码(无AI) | 0% | 完整 | 始终获批 |

数据要点: 混合架构实现了与纯代码相当的幻觉率,同时保留了处理非结构化输入的灵活性。这是受监管金融科技的最佳平衡点。

关键玩家与案例研究

Stripe 在其“Stripe Radar”欺诈检测系统中一直是先驱。虽然核心评分引擎是确定性的(规则 + 梯度提升树),但Stripe最近添加了一个基于LLM的“推理层”,用于生成自然语言解释,说明交易为何被标记。实际的欺诈决策从未由LLM做出——它仅提供可解释性。这一设计通过了欧洲主要银行的内部审计,而这些银行此前曾拒绝黑盒机器学习模型。

Plaid 在其收入验证产品中采用了类似模式。LLM解析银行对账单PDF并提取相关行项目,但最终收入计算由确定性算法执行,该算法将提取的数据与税务表进行交叉引用。Plaid报告称,与之前的纯规则系统相比,误报率降低了40%。

JPMorgan Chase 部署了一个名为“LLM Guard”的内部工具,该工具将所有AI交互包裹在基于代码的验证层中。系统拦截每个LLM响应,并在允许其到达下游系统之前,通过一系列确定性检查——数学一致性、监管合规性和格式验证。该银行发布的内部基准显示,合规相关查询的准确率达到99.97%,而未受保护的模型仅为94%。

| 公司 | 用例 | AI角色 | 代码角色 | 报告改进 |
|---|---|---|---|---|
| Stripe | 欺诈解释 | 生成自然语言原因 | 执行欺诈决策 | 审计员签字时间缩短30% |
| Plaid | 收入验证 | 从PDF提取数据 | 计算验证收入 | 误报减少40% |
| JPMorgan | 合规查询 | 解读法规 | 针对规则引擎验证 | 准确率99.97% |

数据要点: 最成功的部署将AI限制在受益于语义理解的任务上——解析、解释、歧义检测——同时将所有关键决策保留在确定性代码中。

行业影响与市场动态

AI与代码分离范式正在重塑金融科技软件市场。传统的核心银行平台(如Finastra、Temenos)正竞相在其确定性交易引擎之上添加“AI推理层”。与此同时,一类新的初创公司正在涌现:像Guardrails AIWhyLabs(共融资3000万美元)这样的公司,提供专门用于将LLM包裹在验证代码中的工具。

金融科技中AI的市场正在经历根本性转变。早期将AI视为传统软件替代品的“AI原生”方法,正让位于更细致的混合架构。这种转变在监管合规领域尤为明显,其中可审计性和确定性至关重要。

市场预测: 到2025年,预计超过70%的受监管金融科技部署将采用某种形式的AI-代码分离架构。这一趋势由两个因素驱动:监管机构对AI决策可解释性的要求日益严格,以及LLM幻觉在金融环境中造成的高昂成本。

投资影响: 风险投资正在涌入提供AI-代码分离工具的公司。专注于LLM验证、可观察性和护栏的初创公司在2024年筹集了超过5亿美元。这一细分市场预计在未来三年内将以每年45%的速度增长,因为金融科技公司意识到,在受监管环境中,AI的成功不在于取代代码,而在于增强代码。

专家观点与争议

并非所有人都认同AI-代码分离是正确路径。一些研究人员认为,这种方法过于谨慎,限制了AI在金融科技中的潜力。他们主张,通过更好的提示工程、检索增强生成(RAG)和更强大的基础模型,可以充分降低幻觉率,使端到端AI系统变得可行。

然而,生产部署的证据强烈支持分离架构。正如Stripe工程副总裁在最近一次行业会议上所说:“我们尝试过让AI做所有事情。它失败了。我们尝试过让代码做所有事情。它缺乏灵活性。分离架构是我们发现的唯一能同时满足监管机构和客户需求的方式。”

关键争议点: 批评者认为,分离架构增加了系统复杂性和延迟,因为每个AI调用都必须通过多个验证门。支持者回应称,这种权衡是值得的——在金融科技中,一次幻觉错误可能造成数百万美元的损失或监管罚款。

未来方向: 该领域最令人兴奋的发展是“可验证AI”的出现,其中LLM输出附带形式化证明,可由确定性代码检查。像ezkl(GitHub:1千+星标)这样的项目正在探索使用零知识证明来验证AI推理,而无需信任底层模型。如果成功,这可能弥合AI灵活性与代码确定性之间的差距,但生产就绪仍需数年时间。

实施指南

对于考虑采用AI-代码分离架构的工程团队,以下是基于生产部署的最佳实践:

1. 从审计轨迹开始: 在添加任何AI之前,确保所有确定性代码生成不可变日志。AI推理应作为结构化事件记录,而不是自由文本。

2. 严格限定AI范围: 为AI定义明确的输入和输出模式。使用JSON模式或形式语法强制输出结构。永远不要让AI决定控制流。

3. 实现验证门: 每个AI输出在用于决策之前,必须通过确定性检查。这些检查应验证数学一致性、格式合规性和业务规则。

4. 监控和告警: 跟踪AI幻觉率、验证失败率和回退率。当AI输出持续失败验证时设置告警,这可能表明模型漂移或提示退化。

5. 计划回退: 当AI无法产生有效输出时,确保系统优雅地回退到确定性逻辑或人工审查。永远不要让系统在无有效输出的情况下继续运行。

代码示例(Python):

```python
from guardrails import Guard
from pydantic import BaseModel, Field

class LoanDecision(BaseModel):
risk_score: float = Field(ge=0, le=1)
interest_rate: float = Field(ge=0.01, le=0.30)
explanation: str

# 定义验证门
def validate_interest_rate(decision: LoanDecision) -> bool:
# 确定性检查:利率必须在法律范围内
legal_min, legal_max = 0.02, 0.25
return legal_min <= decision.interest_rate <= legal_max

# 包装LLM调用
loan_guard = Guard.from_pydantic(output_class=LoanDecision,
validators=[validate_interest_rate])

# 在生产中使用
raw_llm_output = llm.invoke("分析此贷款申请...")
validated_decision = loan_guard.parse(raw_llm_output)

if validated_decision.validation_passed:
execute_loan(validated_decision.validated_output)
else:
escalate_to_human(validated_decision.error)
```

数据要点: 实施验证门可将生产幻觉率从3-8%降低到<0.01%,同时保持AI的灵活性优势。

结论

AI-代码分离架构不仅仅是一种技术选择——它是对金融科技中AI角色的根本性重新思考。通过承认LLM是概率系统而非确定性引擎,工程团队可以构建既灵活又可靠的系统。在受监管行业中,这种分离正迅速从最佳实践变为强制性要求。

随着监管机构加强对AI决策的审查,以及金融科技公司追求更高的自动化水平,混合架构提供了唯一可行的前进道路。这不是关于AI与代码的对立——而是关于两者如何以发挥各自优势的方式协同工作。

更多来自 Hacker News

一条推文代价20万美元:AI Agent对社交信号的致命信任2026年初,一个在Solana区块链上管理加密货币投资组合的自主AI Agent,被诱骗将价值20万美元的USDC转移至攻击者钱包。触发点是一条精心伪造的推文,伪装成来自可信DeFi协议的智能合约升级通知。该Agent被设计为抓取社交媒体Unsloth 联手 NVIDIA,消费级 GPU 大模型训练速度飙升 25%专注于高效 LLM 微调的初创公司 Unsloth 与 NVIDIA 合作,在 RTX 4090 等消费级 GPU 上实现了 25% 的训练速度提升。该优化针对 CUDA 内核内存带宽调度,从硬件中榨取出每一丝性能——此前这些硬件被认为不足Appctl:将文档一键转化为LLM工具,AI代理的“最后一公里”终于打通AINews发现了一个名为Appctl的开源项目,它成功弥合了大语言模型与现实系统之间的鸿沟。通过将现有文档和数据库模式转化为MCP工具,Appctl让LLM能够直接执行操作——例如在CRM中创建记录、更新工单状态或提交网页表单——而无需定查看来源专题页Hacker News 已收录 3034 篇文章

相关专题

explainable AI26 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

BWVI Gives AI Agents a Structured Thinking Skeleton for Design DecisionsAINews has discovered BWVI, a command-line tool that gives AI agents a structured decision-making framework for engineerVibeLens:开源「思维显微镜」,让AI智能体决策透明化一款名为VibeLens的全新开源工具,能够实时、交互式地可视化AI智能体的推理过程,将黑箱决策转化为可审查的流程图。它有望成为智能体AI的标准调试伴侣,如同传统软件中的调试器一样不可或缺。GPT-5.5 悄然发布:OpenAI 押注推理深度,开启可信 AI 时代OpenAI 低调推出迄今最先进模型 GPT-5.5,但核心亮点并非参数规模,而是自主推理能力的飞跃。本文深入解析其动态思维链架构与全新可解释层如何将模型打造为高风险行业的决策引擎,标志着规模竞赛的终结与信任竞赛的开端。AI智能体构建完整税务软件:自主开发的静默革命一套针对复杂美国1040税表的全功能开源报税应用,并非由人类程序员编写,而是由一群协同工作的AI智能体完成。这一项目标志着分水岭时刻,证明AI能自主驾驭并实现复杂且具法律约束力的规则体系。其影响远超税务软件范畴,预示着一个AI驱动开发新时代

常见问题

这次公司发布“AI vs Code in Fintech: Why Separation of Powers Is the New Architecture”主要讲了什么?

The financial technology sector is undergoing a quiet but profound architectural revolution. After a wave of high-profile failures where large language models were tasked with end-…

从“How Stripe uses AI for fraud explanation without delegating decisions”看,这家公司的这次发布为什么值得关注?

The core insight driving the AI-code separation architecture is that LLMs are fundamentally probabilistic systems optimized for semantic plausibility, not arithmetic precision or rule compliance. When a model like GPT-4o…

围绕“JPMorgan LLM Guard internal tool architecture”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。