Token质量成AI新战场:硅基智能Pre-A轮1亿美元融资背后的基础设施革命

May 2026
归档:May 2026
硅基智能完成数亿元Pre-A轮融资,其ATaaS平台定位为高质量AI Token生产的新型基础设施。在日处理近万亿次调用量的背景下,这家公司押注:决定AI下一阶段部署的关键不是算力规模,而是Token质量。

中国AI基础设施初创公司硅基智能(Qujing Tech)完成数亿元人民币(约合1亿美元+)的Pre-A轮融资,标志着行业对AI Token经济学的认知正在发生重大转变。该公司的核心产品ATaaS(自动Token即服务)平台目前每天处理近万亿次Token生成调用。与传统按计算时间或GPU小时收费的云AI服务不同,硅基智能按每个产出的高质量Token收费——这种模式使其收入与客户获得的实际价值直接挂钩。公司专注于优化推理管线,确保语义保真度和吞吐效率,使每个Token都足够可靠,能够支撑自主智能体、世界模型和视频生成等下游任务。

技术深度解析

硅基智能的ATaaS平台并非简单的LLM推理负载均衡器——它是一个专为Token质量保障而构建的系统。该架构运行在三个关键层上:语义路由、带质量门的动态批处理,以及反馈驱动的Token验证。

语义路由层: ATaaS没有采用简单的轮询或基于延迟的路由策略,而是使用轻量级语义路由器,将每个传入的提示词分类到不同的质量层级。需要高精度推理的提示词(如医疗诊断、法律合同分析)被路由到精度更高但吞吐较慢的模型,而日常查询则由更快、更小的模型处理。这种分层方法确保计算资源按所需Token质量比例分配,而非均匀分配。

带质量门的动态批处理: 传统推理系统通过尽可能多地批量处理请求来最大化吞吐量,但这往往以牺牲每个Token的延迟稳定性为代价。硅基智能实现了一种新颖的“质量门”机制,在生成过程中监控每个Token概率分布的熵值。如果某个Token的熵超过可配置阈值(表明置信度低),系统会自动触发重新路由,将其导向能力更强的模型,或跨多个模型使用共识机制。这与Google DeepMind使用的推测解码技术思路类似,但应用在基础设施层面而非模型层面。

反馈驱动的Token验证: 该平台维护一个实时Token质量数据库,记录来自每个模型和路由路径的Token的下游成功率。利用从客户应用聚合的RLHF信号,ATaaS持续调整其路由策略。这形成了一个良性循环:使用该平台的客户越多,它就越能预测哪些Token对特定任务“足够好”。

相关开源项目: 虽然硅基智能的核心平台是专有的,但有几个开源项目探索了类似概念。vLLM仓库(GitHub上超过40,000颗星)通过PagedAttention提供高吞吐量LLM服务,但缺乏质量感知路由。SGLang(15,000+颗星)提供结构化生成控制,硅基智能很可能整合了该技术。FastChat项目(35,000+颗星)包含模型路由,但没有质量门机制。

性能数据:

| 指标 | 标准推理(vLLM基线) | 硅基ATaaS(报告值) | 提升幅度 |
|---|---|---|---|
| Token吞吐量(tokens/秒) | 1,200 | 1,450 | +20.8% |
| 语义保真度评分(BLEU基准) | 0.82 | 0.91 | +11.0% |
| 错误级联率(每10k Token) | 12.4 | 2.1 | -83.1% |
| 延迟p99(毫秒) | 450 | 320 | -28.9% |

数据要点: 最显著的改进是错误级联率降低了83%,这直接解决了自主工作流中的“坏Token多米诺效应”。这表明质量感知路由不仅是锦上添花,更是自主系统的必需品。

关键玩家与案例研究

硅基智能并非唯一瞄准Token质量基础设施领域的公司,但其方法独树一帜。竞争格局包括:

Together AI: 提供托管推理平台,专注于吞吐量和模型多样性,但按计算时间收费。其“Together推理引擎”支持推测解码,但不保证每个Token的质量。

Fireworks AI: 提供快速推理,专注于延迟优化,但其定价模式是按Token收费,而非按质量调整。该公司最近在B轮融资中筹集了5200万美元。

Anyscale(Ray Serve): 专注于AI工作负载的分布式计算,但Token质量并非其核心功能。

对比表格:

| 公司 | 定价模式 | 质量保证 | 日Token量(估算) | 关键差异化 |
|---|---|---|---|---|
| 硅基智能 | 按高质量Token收费 | 是(语义保真度SLA) | ~1万亿 | 质量感知路由与验证 |
| Together AI | 按计算小时收费 | 否 | ~5000亿 | 广泛的模型支持 |
| Fireworks AI | 按Token(原始)收费 | 否 | ~3000亿 | 低延迟 |
| Anyscale | 按计算小时收费 | 否 | ~2000亿 | 可扩展的分布式计算 |

数据要点: 硅基智能按质量Token定价的模式在市场上独一无二。当竞争对手专注于原始吞吐量或延迟时,硅基智能是唯一明确将收入与Token质量挂钩的玩家,从而与客户形成了强大的激励一致性。

案例研究:自主智能体部署

一家中国大型电商公司为其客服智能体系统部署了ATaaS。此前,该智能体对所有查询使用单一大型模型(类似GPT-4),导致成本高昂且偶尔出现幻觉级联。切换到ATaaS后,该公司报告总推理成本降低了40%,因为低风险查询由更小、更便宜的模型处理,而高风险交互则路由到高精度模型。此外,质量门机制将错误级联率降低了78%,使智能体能够在无需人工干预的情况下处理更长的对话链。该公司现在计划将ATaaS扩展到其推荐系统和供应链优化工作流中。

时间归档

May 20262367 篇已发布文章

延伸阅读

Hy-MT2 重写翻译规则:指令遵循成为新战场腾讯开源了新一代翻译模型 Hy-MT2,其核心突破在于优先遵循用户指令,而非单纯追求翻译准确度。这一转变将翻译从逐字转换的工具,升级为能根据用户意图调整语气、风格和上下文的智能助手,标志着机器翻译竞争进入全新维度。出行数据玩家如何用真实场景重新定义AI模型训练一家出行数据公司构建了一个闭环系统,捕捉真实世界的多模态数据——交通信号、拥堵状况、乘客行为——并直接输入AI模型。这使每一次出行都成为训练信号,加速大语言模型、世界模型和智能体的进化,将AI竞赛从算力比拼转向场景所有权之争。AIGC峰会520:400万在线信号宣告模型军备竞赛终结,部署时代正式开启超过400万人参加了520 AIGC行业峰会,创下历史参会纪录。这场盛会揭示了一个决定性的行业转向:从参数竞赛转向垂直应用,AI智能体进入部署元年,视频生成跨越叙事质量门槛。仓库机器人击败人形机器人,夺得具身智能基准测试冠军一台在顺丰速运和中国邮政仓库中运行的包裹分拣机器人,在最新的RoboChallenge具身智能基准测试中夺得最高分。这台由清华关联团队开发的机器,其成功挑战了行业对人形形态的痴迷,证明了经过环境检验的实用智能可以超越更复杂的系统。

常见问题

这起“Token Quality Becomes New Battleground: Qujing Tech's $100M Pre-A Signals Infrastructure Shift”融资事件讲了什么?

Qujing Tech, a Chinese AI infrastructure startup, has completed a Pre-A funding round worth hundreds of millions of yuan (approximately $100M+ USD), signaling a major shift in how…

从“Qujing Tech ATaaS token quality SLA pricing model”看,为什么这笔融资值得关注?

Qujing Tech's ATaaS platform is not merely a load balancer for LLM inference — it is a purpose-built system for token quality assurance. The architecture operates on three key layers: semantic routing, dynamic batching w…

这起融资事件在“AI token quality infrastructure market size 2025”上释放了什么行业信号?

它通常意味着该赛道正在进入资源加速集聚期,后续值得继续关注团队扩张、产品落地、商业化验证和同类公司跟进。