上下文协议之争:AI助手必须学会共享对话

Hacker News May 2026
来源:Hacker NewsAI ecosystem归档:May 2026
ChatGPT、Claude与Gemini之间无法互通对话上下文,这不仅是用户体验的摩擦,更是一种架构性缺陷。AINews深度剖析正在兴起的通用上下文可移植协议,它有望打破AI孤岛,开启协作智能的新浪潮。

当前大语言模型应用生态如同一片数字群岛:ChatGPT、Claude、Gemini及数十个其他模型各自为政,拥有独立的对话格式、分词方案和内部状态表示。用户若想利用不同模型的独特优势——Claude在法律分析中的细腻推理、Gemini在图像理解上的多模态能力、ChatGPT的编程专长——只能手动复制、粘贴并重新格式化对话历史。这种摩擦不仅是用户体验上的烦恼,更是深层架构缺陷的表征:缺乏一个标准化协议来跨异构AI系统序列化、传输和重建对话上下文。本文从序列化、语义对齐和传输三个技术层面,系统剖析了LLM互操作性的核心问题,并介绍了CCML、TokenBridge和Context Bridge等前沿解决方案。

技术深度解析

LLM互操作性的核心技术问题可分解为三个层面:序列化、语义对齐和传输。

序列化:对话作为数据结构

与LLM的对话远不止用户和助手的消息序列。它包含系统提示(通常包含专有指令)、工具调用及其结果、多轮上下文窗口、用户特定偏好(如语气、详细程度),以及模型版本、温度设置和Token预算等元数据。当前平台以专有格式在内部序列化这些数据。例如,OpenAI的ChatGPT使用包含`messages`数组的JSON结构,其中包含`role`、`content`、`tool_calls`和`function_call`字段,但确切模式未公开且随版本变化。Anthropic的Claude API使用类似但不兼容的格式,额外包含`thinking`块和`metadata`字段。Google的Gemini采用与内部服务基础设施紧密耦合的protobuf格式。

通用序列化格式必须可扩展、带版本控制且无损。一种有前景的方案是对话上下文标记语言(CCML),这是一种新兴的开放标准,用规范模式包装每一轮对话:

```json
{
"version": "1.0",
"session_id": "uuid",
"system_prompt": "...",
"turns": [
{
"role": "user",
"timestamp": "2026-05-02T12:00:00Z",
"content": [
{"type": "text", "value": "解释量子纠缠"},
{"type": "image", "url": "...", "mime": "image/png"}
],
"metadata": {
"model_id": "gpt-4o",
"temperature": 0.7,
"token_count": 42
}
},
{
"role": "assistant",
"content": [{"type": "text", "value": "量子纠缠是..."}],
"tool_calls": [
{"id": "call_abc", "function": "search_web", "arguments": {"query": "量子纠缠 2026"}}
],
"tool_results": [
{"id": "call_abc", "output": "..."}
]
}
]
}
```

该格式人类可读、支持多模态内容,并保留关键元数据。参考实现已在GitHub上以ccml-spec仓库发布(目前获得1200颗星),由剑桥大学和Mozilla的一群独立研究人员维护。

语义对齐:Token映射问题

即使两个LLM接收到相同的序列化上下文,它们也会因使用不同的分词器而产生不同解读。GPT-4o使用约10万个Token的BPE分词器;Claude 3.5使用约20万个Token的SentencePiece分词器;Gemini使用WordPiece变体。像“quantum”这样的Token在一个模型中可能是一个Token,但在另一个模型中可能被拆分为“quan”+“tum”。这种不匹配可能导致含义的微妙偏移,尤其是在代码或专业术语方面。

为解决这一问题,需要语义对齐层,通过嵌入相似性在不同词汇表之间映射Token。斯坦福大学CRFM的研究人员提出了TokenBridge,这是一个轻量级神经网络,学习不同LLM嵌入空间之间的投影。在他们的预印本中,报告了在从GPT-4o转移到Claude 3.5时,通过500个多轮对话基准的下游任务性能衡量,语义意图保留准确率达到94%。然而,这种方法增加了延迟(每1000个Token约150毫秒),并且需要访问模型内部嵌入,而这并非总是可用。

传输:隐私保护的上下文迁移

第三个挑战是在不将用户数据暴露给第三方的情况下,在应用程序之间移动上下文。一种简单的方法是将序列化上下文上传到中央服务器,但这会形成隐私泄露的蜜罐。更好的模型是使用端到端加密的点对点上下文传输,其中用户设备充当中间人。Context Bridge中间件目前由一家名为Synaptic Labs的初创公司开发,作为本地守护进程运行,拦截来自LLM客户端的API调用,并以CCML格式注入或提取上下文。它使用Noise Protocol Framework进行加密,并支持REST和WebSocket传输。早期基准测试显示,10轮对话的中位传输时间为200毫秒,且数据不会离开用户机器。

| 互操作性层 | 当前状态 | 关键挑战 | 领先解决方案 | 成熟度 |
|---|---|---|---|---|
| 序列化 | 各厂商专有JSON | 模式版本控制、多模态支持 | CCML(开放标准) | 早期采用(5个平台) |
| 语义对齐 | 无(手动复制粘贴) | 分词器不匹配、嵌入访问 | TokenBridge(神经映射) | 研究原型 |
| 传输 | 无(手动) | 隐私、延迟、离线支持 | Context Bridge(本地P2P) | Beta版(100名用户) |

数据要点: 序列化

更多来自 Hacker News

Llmconfig:终结本地大模型配置混乱的标准化利器多年来,在本地运行大语言模型一直是一场环境变量、硬编码路径和引擎专属标志的混乱。从 Llama 到 Mistral 再到 Gemma,每个模型都有自己的一套设置仪式。在项目间切换就像拆装乐高积木一样令人抓狂。Llmconfig 这个新的开源SmartTune CLI:让AI Agent拥有无人机硬件感知能力的开源利器SmartTune CLI代表了AI Agent与物理世界交互方式的范式转变。传统上,分析无人机飞行日志——即来自ArduPilot (APM)、Betaflight (BF)和PX4等飞控的“黑匣子”数据——需要深厚的工程专业知识来解析二AI代理需要持久身份:信任与治理的博弈AI代理是否需要持久身份的问题,正将技术社区分裂为两大阵营。一方主张无状态、一次性工具,任务完成后即消失;另一方坚持认为,持久身份对于信任、问责和治理至关重要。AINews分析显示,身份系统能够追踪每个代理决策和API调用,这在多代理场景中查看来源专题页Hacker News 已收录 2831 篇文章

相关专题

AI ecosystem20 篇相关文章

时间归档

May 2026409 篇已发布文章

延伸阅读

AI编程的静默革命:可移植上下文如何打破供应商锁定开发者与AI编程助手的交互方式正在发生一场静默而深刻的变革。厌倦了受限于单一模型的速率或能力,开发者开始采用能导出完整编程对话——包括代码、推理链与问题解决历史——并可在不同AI平台无缝续写的工具。这标志着AI开发范式正朝着可移植、解耦化的Claude Cowork 向所有大模型开放:模型锁定时代终结的开始Claude Cowork 打破了自家围墙花园,宣布支持从 GPT-4、Gemini 到开源 Llama 和 Mistral 在内的任意大语言模型。此举将该平台从模型专属工具转变为通用 AI 编排层,对开发者灵活性和竞争格局产生深远影响。2026 AI 决战:从性能基准到生态主导权之争2026 年旗舰 AI 模型已悉数登场,但战场本质已然改变。行业焦点已从静态基准测试的胜负,转向对 AI '灵魂'——即自主行动、因果推理及融入复杂工作流能力——的更深刻争夺。这场竞争将定义未来十年人机协作的格局。Mesh LLM:重塑AI协作与多智能体系统的开源框架人工智能架构领域正酝酿一场静默革命。开源项目Mesh LLM提出根本性范式转移:从孤立单一模型转向动态网络,让专业化AI智能体自主发现、直接通信与协作。这一框架有望解锁任何单一模型都不具备的复杂问题解决能力,宣告复合智能时代的来临。

常见问题

这次模型发布“The Context Protocol War: Why AI Assistants Must Learn to Share Conversations”的核心内容是什么?

The current landscape of large language model applications is a digital archipelago: ChatGPT, Claude, Gemini, and dozens of others operate as isolated islands, each with its own co…

从“How to transfer ChatGPT conversation to Claude without losing context”看,这个模型发布为什么重要?

The core technical problem of LLM interoperability can be decomposed into three layers: serialization, semantic alignment, and transport. Serialization: The Conversation as a Data Structure A conversation with an LLM is…

围绕“Open Context Protocol vs HuggingChat Context Format comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。