技术深潜:从确定性代码到概率性认知
从传统软件到以模型为中心的系统的技术转变,是架构性的,而非渐进式的。传统软件运行于确定性逻辑之上:`如果 X 则 Y`。其行为由开发者编写的明确规则定义,受限于其原始设计的范围。相比之下,AI原生系统建立在概率性认知的基础之上。像GPT-4或Claude 3这样的大型语言模型(LLM)并非为特定任务执行预先编写的代码;它基于从海量数据中学到的模式,在提示词和上下文的引导下,生成一个合理的词元序列(代码、文本、推理步骤)。
这使得从单体应用到流畅的、智能体驱动的工作流的转变成为可能。核心的技术单元不再是应用,而是智能体——一种将LLM作为其推理引擎,用以感知环境(通过工具/API)、做出决策并执行行动的程序。像LangChain和LlamaIndex这样的框架应运而生,用以编排这些智能体,将LLM连接到外部数据源和工具(计算器、代码执行器、网络搜索)。一个更新且更强大的趋势是具备高级规划和记忆功能的智能体框架的兴起,例如CrewAI(用于构建协作型智能体团队)和微软的AutoGen(支持复杂的多智能体对话)。
研究员Andrej Karpathy在GitHub上创建的代码库`smolagents`, exemplifies 了智能体架构极简、高效的未来。它剥离了沉重的框架,专注于一小套核心工具和一个健壮的推理循环,突显了从臃肿软件套件向精干、专业化认知单元的演进方向。
支撑高级智能体的是一些新兴能力,例如函数调用(模型请求使用特定工具)和ReAct(推理+行动)提示,后者将思维链推理与可执行步骤交织在一起。下一个前沿是世界模型——能够构建并模拟环境内部表征的AI系统。尽管尚处萌芽阶段,但像谷歌的Genie(可以从图像生成交互式环境)这样的项目,指向了一个未来:软件不仅能执行任务,还能在执行前在模拟空间中预测其结果。
性能基准:智能的效率
| 任务类别 | 传统软件套件(平均耗时) | AI原生智能体(平均耗时) | 准确度/质量差异 |
|---|---|---|---|
| 多源市场调研 | 45-60 分钟 | 8-12 分钟 | +15%(信息来源更广) |
| 数据分析与图表制作 | 25 分钟(Excel/Power BI) | 5-7 分钟(通过聊天) | 相当,迭代更快 |
| 基础全栈网页原型 | 4-6 小时(编码) | 20-40 分钟(提示词 + 智能体编码) | 功能相当,定制化打磨较少 |
| 客户支持工单分类 | 3 分钟(基于规则的机器人) | 1 分钟(LLM理解) | +40% 无需人工介入的解决率 |
数据启示: 基准数据显示,AI原生方法不仅提供了边际的速度提升;它们通常将多步骤、多工具的工作流压缩为一次对话式交互,在复杂、知识密集型的任务中带来数量级的效率提升。质量并未牺牲,且由于模型能以基于规则的系统无法做到的方式综合上下文,质量经常得到增强。
关键参与者与案例研究
当前格局分为构建基础智能的模型提供商,以及在之上构建新界面层的应用构建者。
模型提供商成为新的操作系统厂商:
* OpenAI: 凭借GPT-4 Turbo和GPT商店,OpenAI正试图将自己定位为核心平台。其自定义GPT和Assistants API直接尝试让用户和开发者无需代码即可构建轻量级、针对特定任务的智能体,有效地“吞噬”了简单独立工具应用的市场。
* Anthropic: 专注于安全性和宪法AI,吸引那些对不受控自动化持谨慎态度的企业。Claude 3在分析和长上下文任务中的强劲表现,使其成为“吞噬”法律、研究和监管软件内部功能的理想选择。
* Meta (Llama): 通过开源Llama 2和Llama 3模型系列,Meta释放了一波创新浪潮。初创公司和开发者现在可以构建专有的、本地部署的AI应用,而无需按词元付费,这直接威胁了依赖用户锁定的SaaS公司的商业模式。
* Google (Gemini): 凭借其庞大的生态系统(搜索、Workspace、YouTube),谷歌正在集成Gemini以“吞噬”生产力软件的功能。Gmail中的“帮我写”和Google Slides中由AI驱动的幻灯片功能,都是减少对独立写作或设计工具需求的早期例证。
案例研究1:GitHub Copilot