Maxtoken 打破AI输出长度天花板:无限生成,质量不减

Hacker News May 2026
来源:Hacker News归档:May 2026
AINews 独家揭秘 Maxtoken——一个统一框架,通过动态分配 Token 与压缩记忆,彻底打破 AI 的输出上限。它能让模型在文本、视频和代码中生成无限长度的连贯内容,且不损失任何质量。

Maxtoken 代表了 AI 系统处理生成长度方式的根本性转变。传统的大语言模型、视频生成器和智能体受限于固定的上下文窗口和 Token 预算,导致长文本输出出现逻辑断裂或质量衰减。Maxtoken 通过两项核心创新将输出长度与模型架构解耦:一是动态 Token 分配,根据内容复杂度重新分配计算资源;二是轻量级记忆压缩技术,能在数百万 Token 范围内保持上下文连贯性。这使得大语言模型可以一次性完成整部小说的写作,视频生成器能生成无限时长的场景,世界模型也能无限期模拟环境。该框架目前处于预印本阶段,但已在 GitHub 上开源,并获得了多家顶级 AI 实验室的关注。

技术深度解析

Maxtoken 的架构建立在两大支柱之上:动态 Token 分配与轻量级记忆压缩。动态分配机制通过分析每个输入片段的复杂度——以熵和注意力熵为衡量标准——为每单位内容分配可变的 Token 预算。例如,一段密集的技术段落可能获得 200 个 Token,而一句简单的对话则只有 50 个。这避免了固定窗口模型中普遍存在的浪费性均匀分配,即简单内容与复杂内容消耗相同的预算,导致上下文过早耗尽。

记忆压缩组件才是 Maxtoken 真正的创新所在。它没有采用随序列长度线性增长的全量键值缓存——这会导致 O(n²) 的计算成本——而是采用了一种分层压缩方案。它存储最近 N 个 Token(可配置,通常为 4,096 个)的全分辨率上下文,然后使用轻量级 Transformer 编码器将更早的 Token 压缩成一种学习得到的“记忆嵌入”。这种嵌入是增量更新的,而非从头重新计算,从而将开销保持在较低水平。压缩比是可调的:在 10:1 的压缩比下,100 万个 Token 的上下文可缩减为 10 万个有效 Token,在 LongBench 基准测试中测得的召回准确率为 94.7%。这比现有的方法,如 StreamingLLM(完全丢弃早期 Token)或 Infini-Attention(使用压缩记忆但延迟更高),有了显著改进。

一个关键的设计选择是,Maxtoken 不修改底层模型的注意力机制;它作为一个包装器运行在任何自回归 Transformer 之上。这使得它与模型无关,易于集成。该框架使用 PyTorch 实现,并在 GitHub 上作为开源仓库提供(仓库:`maxtoken/maxtoken-framework`,截至 2025 年 5 月已获得 2,300 颗星)。该仓库包含 GPT-2、LLaMA-2 和 Stable Video Diffusion 的参考实现,性能基准测试显示,与标准注意力机制相比,在 100K Token 序列上内存使用量减少了 3.2 倍,推理速度开销仅为 8%。

| 指标 | 标准 Transformer(100K Token) | StreamingLLM | Infini-Attention | Maxtoken(10:1 压缩) |
|---|---|---|---|---|
| 内存使用量(GB) | 12.4 | 8.1 | 7.6 | 3.9 |
| 推理延迟(ms/Token) | 45 | 41 | 52 | 49 |
| LongBench 得分(平均) | 62.3 | 58.1 | 65.7 | 67.2 |
| 最大上下文(Token) | 100K | 4K(窗口) | 1M | 10M+ |

数据要点: Maxtoken 在内存效率和基准性能之间实现了最佳平衡,内存使用量几乎减半,同时保持了具有竞争力的延迟,并在 LongBench 上超越了所有替代方案。其扩展到超过 1000 万 Token 的能力是无可匹敌的。

关键参与者与案例研究

Maxtoken 由来自剑桥大学和 DeepMind 的研究团队开发,由前 Google Brain 研究员 Elena Vasquez 博士领导,她以在稀疏注意力机制方面的工作而闻名。预印本于 2025 年 4 月在 arXiv 上发布,代码于一个月后在 GitHub 上发布。该团队尚未宣布商业化计划,但已有几家 AI 实验室表达了兴趣。

在应用方面,像 Anthropic 和 OpenAI 这样的公司正在密切关注。Anthropic 的 Claude 拥有 200K Token 的上下文窗口,但在实践中,超过 50K Token 时连贯性就会出现问题。OpenAI 的 GPT-4o 支持 128K Token,但在全上下文下成本高昂。Maxtoken 可以让这些模型在不重新训练的情况下提供“无限”上下文层级。像 Runway 和 Pika Labs 这样的视频生成平台也面临类似的瓶颈:当前模型最多只能生成 10-20 秒的连贯视频。Maxtoken 的压缩可以将这一时长延长到几分钟甚至几小时,从而实现长片式电影生成。例如,Runway 的 Gen-3 Alpha 使用了一个固定 16 帧窗口的扩散 Transformer;集成 Maxtoken 可以使其生成具有一致角色和场景的 5 分钟序列。

在智能体领域,AutoGPT 和基于 LangChain 的智能体经常在多步骤任务中失败,因为它们会丢失早期步骤的轨迹。Maxtoken 的记忆压缩可以为智能体提供持久的长期记忆,而无需外部数据库的开销。一家名为 MemoAI(无关联)的初创公司已经分叉了 Maxtoken 仓库,用于构建一个“永不遗忘”的客户支持智能体,声称在内部测试中任务失败率降低了 40%。

| 产品 | 当前最大输出 | Maxtoken 赋能后的潜力 | 用例 |
|---|---|---|---|
| GPT-4o | 128K Token | 10M+ Token | 小说写作、代码库生成 |
| Runway Gen-3 | 16 帧(2 秒) | 9,000 帧(5 分钟) | 长视频、电影制作 |
| AutoGPT | 约 20 步后上下文丢失 | 1,000+ 步 | 复杂多智能体模拟 |
| Midjourney V6 | 单张图像 | 无限图像序列 | 动画、世界构建 |

数据要点: Maxtoken 可以将现有产品的输出能力提升 50-100 倍,释放出前所未有的应用潜力。

更多来自 Hacker News

梵蒂冈与Anthropic结盟:AI伦理进入教宗权威的道德竞技场在一项史无前例的行动中,梵蒂冈与Anthropic合作,发布了一份涉及人工智能道德与伦理维度的教宗通谕。这份文件从宗座宫发布,大量借鉴了Anthropic的“宪法AI”框架,将该公司的安全优先方法定位为天主教自然法理论的世俗对应物。此次合作Bateschess:当Stockfish教会大模型像引擎一样计算棋局Bateschess代表了神经符号AI领域的一次务实突破:它没有在大量棋谱数据上微调一个庞大的模型,而是将Stockfish视为一个外部推理模块。LLM则充当自然语言界面,将冰冷的数值评估转化为温暖、富有叙事性的分析。这种架构优雅地绕过了L智能编译技术让AI Agent推理成本骤降90%,大规模部署不再是梦大型语言模型(LLM)驱动的Agent在经济可行性上长期受困于重复推理的高昂成本。当Agent执行多步骤任务——比如研究主题、起草报告并验证事实——它往往会在每一步重复几乎相同的推理路径。这种“重新发明轮子”的浪费正是智能编译要解决的核心问查看来源专题页Hacker News 已收录 3864 篇文章

时间归档

May 20262595 篇已发布文章

延伸阅读

SubQ 1200万Token上下文窗口:改写AI记忆规则的全新架构SubQ以1200万Token的上下文窗口打破长文本壁垒,将Claude和ChatGPT远远甩在身后。本文深度解析这一跨越背后的架构创新,及其对AI军备竞赛的深远影响。SubQ 突破 Transformer 极限:1200 万 Token 上下文,近乎线性的计算成本SubQ,一款基于次二次方架构构建的大语言模型,彻底打破了计算瓶颈,实现了 1200 万 Token 的上下文窗口。这一突破消除了对分块或检索增强生成的需求,使得处理整部百科全书或数小时视频内容成为可能,且近乎实时。Zora反压缩记忆架构破解AI智能体“失忆”危机当前AI智能体设计存在一个根本性缺陷:随着对话上下文被压缩,安全约束可能消失,导致灾难性故障。Zora的新架构引入了持久化、抗压缩的记忆系统与本地安全层,防止智能体“遗忘”规则,标志着向可靠的企业级自主系统迈出了关键一步。梵蒂冈与Anthropic结盟:AI伦理进入教宗权威的道德竞技场梵蒂冈与人工智能公司Anthropic联合发布了一份关于人工智能的教宗通谕,标志着主要宗教机构首次与AI企业就教义指导展开正式合作。这一伙伴关系预示着AI治理从技术合规向道德合法性的深刻转变。

常见问题

这次模型发布“Maxtoken Breaks AI's Length Barrier: Infinite Output Without Quality Loss”的核心内容是什么?

Maxtoken represents a fundamental shift in how AI systems handle generation length. Traditional large language models (LLMs), video generators, and agents are constrained by fixed…

从“Maxtoken vs StreamingLLM performance comparison”看,这个模型发布为什么重要?

Maxtoken's architecture rests on two pillars: dynamic token allocation and lightweight memory compression. The dynamic allocation mechanism works by analyzing each input segment's complexity—measured through entropy and…

围绕“How to integrate Maxtoken with LLaMA-3”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。