技术深度剖析
从以代码为中心到以数据为中心的AI初创公司转变,不仅仅是哲学层面的;它有着深刻的技术内涵。新的玩法要求创始人理解数据飞轮的架构、模型选择的权衡,以及模块化系统的工程设计。
数据飞轮架构
传统的SaaS产品将用户数据视为副产品。AI原生产品必须将其视为主要产品。这要求构建一个闭环系统,其中:
1. 数据捕获:每一次用户交互——每一次提示、点击、滚动、修正和拒绝——都附带丰富的元数据进行记录。这不仅仅是存储文本;而是要捕获*意图*和*结果*。例如,一个客户支持AI必须记录查询和AI的回复,还要记录用户是接受了、编辑了还是升级了该答案。
2. 数据标注与筛选:原始日志是噪音。系统必须自动标注高质量交互。基于人类反馈的强化学习(RLHF)等技术正被更具可扩展性的方法所取代,例如宪法AI或直接偏好优化(DPO)。像[DPO](https://github.com/eric-mitchell/dpo)(超过5000星)这样的开源仓库提供了一个无需昂贵人工标注即可对齐模型的框架。
3. 模型微调:筛选后的数据随后用于微调基础模型。这正是模块化架构变得至关重要的地方。微调流程必须与模型无关。像[Lamini](https://github.com/lamini-ai/lamini)(开源,4000+星)这样的初创公司提供了一个在专有数据上微调LLM的平台,抽象了底层模型。
4. 部署与推理:更新后的模型被部署,循环重复。推理的延迟和成本直接影响用户体验以及生成的数据量。
模型选择:战略赌注
选择基础模型不再是一次简单的API调用。这是一项影响整个数据飞轮的战略决策。下表说明了关键的权衡:
| 模型 | 参数(估计) | MMLU分数 | 延迟(首token) | 成本/百万token(输入) | 上下文窗口 |
|---|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | ~300ms | $5.00 | 128K |
| Claude 3.5 Sonnet | — | 88.3 | ~400ms | $3.00 | 200K |
| Gemini 1.5 Pro | — | 86.4 | ~350ms | $3.50 | 1M |
| Llama 3 70B | 70B | 82.0 | ~150ms(本地) | $0.59(自托管) | 8K |
| Mistral Large 2 | 123B | 84.0 | ~250ms | $2.00 | 128K |
数据要点: 表格显示了一个清晰的梯度。像GPT-4o和Claude 3.5这样的专有模型提供了最高的准确性,但成本高、延迟大。像Llama 3 70B这样的开源模型提供了更低的成本和延迟,但在微调和托管方面需要更多的工程投入。战略选择取决于初创公司的领域:对于高风险的医疗或法律应用,准确性胜过成本;对于消费者聊天机器人,延迟和成本至关重要。
模块化架构:反锁定策略
最成功的AI原生初创公司正在构建带有抽象层的技术栈。这意味着:
- 模型路由器:一个中间件,可以根据任务复杂性、成本预算或延迟要求动态地将请求路由到不同的模型。例如,简单查询发送到廉价、快速的模型(例如Llama 3 8B),而复杂推理任务则发送到GPT-4o。
- 统一微调API:一个内部API,允许数据管道微调任何模型而无需更改数据格式。这正是像[LangChain](https://github.com/langchain-ai/langchain)(90000+星)和[Haystack](https://github.com/deepset-ai/haystack)(15000+星)这样的框架被广泛使用的地方,尽管它们增加了复杂性。
- 向量数据库抽象:嵌入模型和向量数据库(例如Pinecone、Weaviate、Qdrant)应该是可替换的。这防止了对单一嵌入提供商的锁定。
技术要点: 模块化架构不仅仅关乎灵活性;它关乎生存。随着模型生态系统以惊人的速度演变,能够无缝地从GPT-4切换到Llama 4或未来模型的初创公司,将比那些被锁定在单一供应商中的公司拥有巨大的成本和能力优势。
关键玩家与案例研究
数据优先的先驱
Notion AI是一个教科书式的例子。Notion的产品是一个知识管理工具,但其AI功能由用户生成的内容驱动。用户创建的每一个文档、数据库和页面都成为Notion问答和写作助手的训练数据。Notion不仅仅是在上面叠加AI;它将AI嵌入到数据创建流程中。结果是,一个个性化的AI能够理解每个工作空间的独特词汇和上下文。这创造了一个强大的数据护城河:一个在Notion中有1000页的用户,远不太可能切换到对其工作毫无背景的竞争对手。
Replit(AI驱动的编码平台)使用了类似的策略。