技术深度解析
这场变革的核心驱动力,是前沿模型在少样本和零样本学习能力上的戏剧性提升。关键的技术转变是从*训练*转向*编排*。
从微调到提示工程与RAG:
过去,ML工程师会获取一个预训练模型(如BERT-base),为特定任务(例如,对客户支持工单进行分类)收集标注数据,然后对模型进行微调。这需要超参数调优、处理类别不平衡以及避免灾难性遗忘方面的专业知识。如今,工程师可以通过以下方式实现相当或更好的结果:
1. 选择一个前沿模型(例如,GPT-4o、Claude 3.5、Gemini 1.5 Pro)。
2. 编写一个包含3-5个示例的少样本提示。
3. 可选地,集成一个检索增强生成(RAG)管道,以从向量数据库中提供相关上下文。
底层架构已经改变。模型本身是一个黑盒;工程师的工作现在围绕其周围的系统展开。这包括:
- 向量数据库: Pinecone、Weaviate和Qdrant等系统已成为关键基础设施。工程师必须理解嵌入模型、索引策略(例如,HNSW、IVF)和查询优化。开源仓库`qdrant/qdrant`(超过20k星标)是用Rust编写的高性能向量数据库的领先示例,提供高级过滤和量化功能。
- RAG管道: LangChain(`langchain-ai/langchain`,超过95k星标)和LlamaIndex(`run-llama/llama_index`,超过36k星标)等框架已成为新的标准工具。它们抽象了将LLM调用、嵌入模型和向量存储链接起来的复杂性。工程师的技能现在在于设计链条:如何分割文档,使用哪个检索器(例如,父文档检索器、句子窗口检索),以及如何构建发送给LLM的提示。
- 评估框架: 传统的指标如准确率和F1分数对于生成式输出已显不足。新的评估范式正在涌现。`confident-ai/deepeval`仓库(超过2.5k星标)提供了一个用于对LLM输出进行单元测试的框架,衡量G-Eval、忠实度和答案相关性等指标。工程师必须设计评估数据集,并定义什么构成“良好”的输出,通常使用更强的LLM作为评判者。
基准测试的转变:
下表展示了在常见NLP任务上,微调模型与零样本/少样本前沿模型之间的性能对等。
| 任务 | 微调BERT-Large (2019) | GPT-4o (零样本) | Claude 3.5 Sonnet (少样本,5个示例) |
|---|---|---|---|
| SST-2 (情感分析) | 94.9% | 95.6% | 96.1% |
| CoNLL-2003 (命名实体识别) | 92.8% (F1) | 91.5% (F1) | 93.2% (F1) |
| RTE (文本蕴含) | 86.6% | 88.3% | 89.1% |
| XSum (摘要,ROUGE-L) | 38.3 | 40.1 | 41.5 |
数据要点: 2019年微调BERT模型与现代前沿模型在零样本设置下的差距微乎其微,甚至出现逆转。对于这些标准任务,微调所需的成本和时间(数据标注、GPU小时、专业知识)已不再合理。微调前沿模型的边际收益通常低于2-3个百分点,这很少能证明投资的合理性。
关键参与者与案例研究
受影响最大的公司并非前沿实验室本身,而是之前依赖定制模型的庞大初创企业和企业生态系统。
案例研究:Jasper AI
Jasper,一个AI内容平台,最初为营销文案生成构建了自己的模型。随着前沿模型的改进,他们转向成为OpenAI和Anthropic模型之上的一个层。他们的ML团队从训练模型转向构建复杂的提示模板、对不同模型输出进行A/B测试,以及与客户数据集成以实现个性化。这是“AI集成者”路径的教科书式案例。
案例研究:Gong.io
Gong,一个收入智能平台,历史上使用定制模型进行对话分析(说话人分离、主题提取、情感分析)。随着前沿模型的兴起,他们现在采用混合方法。他们仍然为高度特定、专有的任务(例如,检测特定的销售异议)训练定制模型,但对于通用分析,他们使用带有RAG管道的GPT-4,该管道拉取公司特定的剧本。他们的ML团队已经重组:一个小的核心小组致力于专有模型训练,而大多数成员则专注于数据管道工程和提示优化。
AI集成者工具对比:
| 特性 | LangChain | LlamaIndex | 自定义微调 |
|---|---|---|---|
| 主要技能 | 链条设计,提示工程 | 数据索引,查询规划 | 模型架构,训练 |
| 部署时间 | 数天 | 数天 | 数周至数月 |
| 每次查询成本 | 可变(API调用) | 可变(API调用 + 向量数据库) | 高(GPU推理) |
| 灵活性 | 高(可交换模型) | 高(可交换索引策略) | 低(模型固定) |