Taalas 自研芯片以 14,000 TPS 刷新 LLM 推理速度纪录,性能碾压 GPU 集群 70 倍

Hacker News May 2026
来源:Hacker News归档:May 2026
Taalas 发布了一款定制硅芯片,运行 Llama 3.1 8B 模型时速度超过每秒 14,000 个 token,比最顶尖的 GPU 集群快 30 到 70 倍。这一突破基于消除冯·诺依曼瓶颈的内存计算技术,有望将企业推理成本降低一个数量级,并重新定义实时 AI 部署的可能性。

在一项里程碑式的演示中,Taalas 展示了一款专用 AI 推理芯片,能以每秒超过 14,000 个 token(TPS)的速度处理 Llama 3.1 8B 模型。相比之下,即便是最强大的 NVIDIA H100 GPU 集群,在运行同一模型时通常也只能达到 200 到 500 TPS——这意味着 Taalas 实现了 30 到 70 倍的性能提升。其秘诀在于一种根本性的架构革新:Taalas 没有像传统方案那样在独立的内存与计算单元之间来回搬运模型权重(即经典的冯·诺依曼瓶颈),而是通过一种内存计算技术,将整个神经网络的参数直接嵌入芯片内部。这种方法几乎完全消除了内存带宽限制——而内存带宽正是 GPU 推理速度的主要瓶颈。对于企业级应用而言,其影响立竿见影且意义深远。实时对话、金融高频交易、自动驾驶决策等场景将迎来质的飞跃。更关键的是,Taalas 声称其芯片的功耗仅约 200 瓦,而一个 8 卡 H100 集群的典型功耗高达 2800 瓦。这意味着在实现 35 倍吞吐量的同时,能耗降低了 90% 以上,硬件成本也仅为后者的零头。

技术深度解析

Taalas 的成就并非仅仅造出了一块更快的 GPU;它是对神经网络物理实现方式的一次根本性重构。其核心创新在于一款实现了权重驻留型内存计算架构的定制芯片。在传统的 GPU 推理中,模型权重存储在片外的 HBM 或 GDDR 内存中。每生成一个 token,都需要将全部活跃权重从内存搬运到计算单元(张量核心)。这种数据搬运消耗巨大能量,更关键的是受限于内存带宽——H100 的典型带宽为 2-3 TB/s。对于 Llama 3.1 8B 这样的模型(约 80 亿参数,FP16 精度下每个参数 2 字节,总计 16 GB),完整加载一次模型就需要 5 到 8 毫秒。在 200-500 TPS 的速度下,GPU 大部分时间都在等待数据。

Taalas 通过将权重直接嵌入芯片的物理结构中绕开了这一瓶颈。虽然该公司尚未披露完整的架构细节,但该方案与模拟或混合信号内存计算技术一致,通常使用 resistive RAM(ReRAM)或 SRAM 阵列,其中每个存储单元同时执行乘累加(MAC)操作。这在概念上与 Mythic、Syntiant 等初创公司的工作类似,但 Taalas 似乎实现了更高的密度和吞吐量。该芯片很可能包含一个巨大的计算-内存融合单元网格,每个单元存储一部分模型权重并就地执行矩阵-向量乘法。结果是内存带宽瓶颈被有效消除——权重已经位于计算现场。

从性能反推的关键架构要素:
- 权重密度: 要在芯片上存储 16 GB 的 FP16 权重,芯片必须拥有极高密度的存储阵列。假设采用现代 5nm 或 3nm 工艺,16 GB 的 SRAM 将大得惊人(数百平方毫米)。这表明 Taalas 使用了密度更高的存储技术,很可能是 ReRAM 或嵌入式 DRAM,其密度可达 SRAM 的 4 到 10 倍。
- 计算并行度: 14,000 TPS 意味着每秒处理 14,000 个 token。每个 token 需要对整个 80 亿参数网络进行一次前向传播。因此,芯片必须维持约 80 亿 × 14,000 = 112 万亿次操作每秒(112 TOPS),很可能采用 INT8 或 FP8 精度。这与 H100 的原始算力(稀疏 INT8 下为 1979 TOPS)相当,但实现时没有内存瓶颈。
- 每 token 延迟: 在 14,000 TPS 下,每个生成 token 的延迟约为 71 微秒。这比基于 GPU 的推理快数个数量级——后者的 token 延迟通常为 2 到 5 毫秒。对于实时应用,这一差异将用户体验从“明显延迟”转变为“瞬时响应”。

与现有 GPU 推理性能对比:

| 平台 | 模型 | 精度 | 每秒 Token 数 | 每 Token 延迟 | 功耗(典型) | 相对成本 |
|---|---|---|---|---|---|---|
| NVIDIA H100(8 卡) | Llama 3.1 8B | FP8 | ~400 | 2.5 ms | 2800W(集群) | ~$300K(集群) |
| AMD MI300X(8 卡) | Llama 3.1 8B | FP8 | ~350 | 2.9 ms | 2800W(集群) | ~$250K(集群) |
| Groq LPU | Llama 3.1 8B | INT8 | ~1,200 | 0.83 ms | ~300W(单卡) | ~$20K(单卡) |
| Taalas 定制芯片 | Llama 3.1 8B | INT8(估计) | 14,000 | 0.071 ms | ~200W(估计) | ~$5K(估计) |

数据要点: 上表清晰地展示了性能差距。Taalas 实现了 8 卡 H100 集群 35 倍的吞吐量,同时功耗可能不到其十分之一,硬件成本也仅为其零头。这不是渐进式改进,而是效率曲线上的阶跃式变化。

相关开源生态: 尽管 Taalas 的芯片是专有的,但在此类硬件上部署模型的软件栈很可能需要与主流框架对接。llama.cpp 项目(GitHub: ggerganov/llama.cpp,75k+ stars)是在非 GPU 硬件(包括 CPU 和 Apple Silicon)上运行 LLM 的事实标准。Taalas 若能向 llama.cpp 或类似项目贡献后端支持,将有助于确保开发者采用。另一个相关项目是 MLC-LLM(GitHub: mlc-ai/mlc-llm,22k+ stars),它提供了一个跨不同硬件后端的通用 LLM 部署框架。

关键参与者与案例研究

Taalas 并非在真空中运作。构建专用 AI 推理芯片的竞赛吸引了众多竞争者,各自秉持不同的架构理念。

竞争方案对比:

| 公司 | 架构 | 关键指标 | 状态 | 知名支持者 |
|---|---|---|---|---|
| Taalas | 内存计算(权重驻留型) | 14,000 TPS(Llama 3.1 8B) | 原型已展示 | 未披露(很可能由 VC 支持) |
| Groq | 张量流处理器(TSP) | ~1,200 TPS(Llama 3.1 8B) | 向特定客户发货 | 已融资 6.4 亿美元(Tiger Global, D1) |
| Cerebras | 晶圆级引擎(WSE) | 待定 | 已商用 | 已融资超 7 亿美元 |

Groq 的 TSP 架构采用了一种确定性执行模型,消除了传统 GPU 的调度开销,但其性能仍受限于内存带宽——尽管其片上 SRAM 容量可观。Cerebras 的晶圆级芯片则通过将整个模型放入单一巨大芯片来规避芯片间通信瓶颈,但其功耗和散热挑战巨大。Taalas 的内存计算方案在理论上提供了最佳的能效比和延迟表现,但模拟计算的精度和量产良率仍是潜在风险。

编辑观点: 如果 Taalas 能够将其原型转化为可量产的产品,并解决软件生态兼容性问题,它可能会像当年 GPU 颠覆 CPU 一样,彻底改变 AI 推理的硬件格局。但历史告诉我们,从实验室到数据中心的道路充满荆棘。

更多来自 Hacker News

KiroGraph:轻量级知识图谱,将AI代码理解成本砍至零头AINews独家发现KiroGraph——一款从代码库构建本地轻量级知识图谱的工具,可映射函数、类、模块及其依赖关系(调用、继承、导入)。通过将代码预处理为结构化形式,KiroGraph让AI助手无需逐行读取原始源文件即可掌握项目架构与语义无标题For months, the AI infrastructure community has been consumed by a binary question: Should large language model token st中国率先定义并监管AI Agent,重塑全球科技治理格局在一项具有里程碑意义的监管行动中,中国正式定义并启动了对AI Agent的治理——这些自主系统能够进行规划、设定目标并使用外部工具。这使得中国成为全球首个为这一技术创建专门合规框架的主要经济体,超越了此前针对大模型或生成式AI的宽泛规则。该查看来源专题页Hacker News 已收录 3744 篇文章

时间归档

May 20262340 篇已发布文章

延伸阅读

OpenClaw的智能体缰绳:CPU效率如何重塑AI基础设施范式OpenClaw等AI智能体“缰绳”工具正作为变革性中间件层崛起,动态管理多模型工作流并将任务卸载至CPU。这一转变不仅大幅削减推理成本,更迫使CPU架构为智能体时代进行根本性重新设计,挑战了GPU主导的现有格局。并行验证突破LLM速度瓶颈:4.5倍吞吐量提升重塑AI推理格局一种全新的并行验证方法打破了自回归解码长期存在的速度瓶颈,将大语言模型推理吞吐量提升4.5倍。该技术通过同时验证多个候选令牌,大幅降低延迟的同时保持输出质量,有望推动高并发AI服务的普及,并加速实时应用落地。Llama 3.1的本地硬件壁垒:AI民主化的沉默守门人Meta发布Llama 3.1 8B模型,被誉为在消费级硬件上运行高性能AI的重要里程碑。然而,实现流畅本地推理所需的8-16GB GPU显存,却将绝大多数普通电脑用户拒之门外。这场由硬件需求引发的技术摩擦,正悄然重塑AI应用市场与创新路径KiroGraph:轻量级知识图谱,将AI代码理解成本砍至零头KiroGraph推出一种轻量级知识图谱方法,将代码库预结构化为节点与边,使AI模型能以极少的Token理解复杂项目。这一突破有望重塑AI辅助编程的经济学,让预算有限的团队也能获得深度代码智能。

常见问题

这次公司发布“Taalas Shatters LLM Inference Speed Record with 14,000 TPS Custom Silicon”主要讲了什么?

In a landmark demonstration, Taalas showcased a dedicated AI inference chip that processes Llama 3.1 8B at more than 14,000 tokens per second (TPS). By comparison, even the most po…

从“Taalas chip vs NVIDIA H100 inference speed comparison”看,这家公司的这次发布为什么值得关注?

Taalas's achievement is not merely a faster GPU; it is a fundamental rethinking of how a neural network is physically instantiated. The core innovation is a custom chip that implements a weight-stationary in-memory compu…

围绕“How in-memory computing eliminates von Neumann bottleneck for LLMs”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。