多元宇宙计算将模型压缩推向主流,挑战AI“越大越好”的范式

TechCrunch AI March 2026
来源:TechCrunch AI归档:March 2026
多元宇宙计算正将其久经考验的模型压缩技术,从定制化的实验室合约推向公开市场。通过发布公共API和演示平台,该公司旨在让大幅缩小、速度更快的领先AI模型版本被广泛获取,直接挑战行业对规模的迷恋。

多元宇宙计算完成了一次从专业B2B服务向平台中心化商业模式的战略转型。这家公司此前曾根据保密协议,为包括OpenAI、Meta、DeepSeek和Mistral AI在内的主要AI实验室压缩其专有模型,如今正将这一能力公开商业化。其新推出的服务包含两个核心部分:一个可供公众访问的演示应用程序,允许用户与流行模型的压缩版本互动并进行基准测试;以及一个面向开发者的API,可将这些优化模型集成到第三方应用和服务中。此举的意义不仅在于产品发布,更在于其传递的市场信号。它证实了先进的压缩技术——能够将模型大小减少75%至90%而性能损失极小——已不再是研究实验室的专属,而是成为主流AI部署中可行且迫切需要的工具。通过公开提供这项服务,多元宇宙计算直接挑战了当前主导AI行业、尤其是大型语言模型领域的“更大即更好”的叙事。该公司的论点是,对于绝大多数实际应用场景,一个经过高度优化、参数规模小一个数量级的模型,其性能足以媲美庞大的原始模型,同时在成本、延迟和能耗方面具有显著优势。这一转变正值行业面临关键拐点:模型规模的增长遭遇物理和经济限制,而企业客户越来越关注在边缘设备、个人设备和成本可控的云实例上运行AI的实际可行性。多元宇宙计算的平台化举措,可能加速行业重心从单纯追求参数数量,转向优化模型效率与实用性。

技术深度解析

多元宇宙计算的“奇点压缩”技术栈并非单一算法,而是一个专有的、顺序执行的流程管道,旨在实现激进的模型尺寸缩减,同时将性能损失降至最低。该过程通常涉及三个核心阶段,并辅以大量验证进行迭代应用。

第一阶段:架构分析与敏感度剖析。 在压缩之前,模型会经过详细分析,以绘制各层参数和激活值的敏感度图谱。该公司使用一款内部称为“PruneMap”的自定义工具,通过迭代消融研究,识别出哪些组件(注意力头、前馈神经元、整个层)对整体任务性能贡献最小。这超越了标准的基于幅度的剪枝方法,能够评估网络推理路径中功能组件的重要性。

第二阶段:混合压缩执行。 在此阶段,多种技术按照精心设计的顺序应用:
- 结构化剪枝: 移除被识别为低敏感度的整个结构块(例如,注意力头、神经元组)。这与非结构化剪枝不同,后者会产生稀疏矩阵,在标准硬件上带来的加速效果有限。
- 量化感知微调: 模型在模拟低精度算术(通常低至INT4甚至INT2)的环境下进行重新训练,以保持量化后的准确性。多元宇宙在此处的创新在于一种动态量化方案,该方案为第一阶段识别的关键层分配更高精度(例如FP16),同时对不敏感的层进行激进的量化。
- 基于表征的知识蒸馏: 这是其核心技术。压缩后的学生模型不仅学习匹配原始教师模型的最终输出逻辑,还被训练以模仿教师模型在关键Transformer层中的内部激活模式和注意力分布。该公司引用了与开源项目 `MiniLLM` GitHub仓库(一个专注于通过教师反馈的强化学习进行大语言模型蒸馏的项目)类似的研究,但增强了跨架构蒸馏的能力(例如,将密集的MoE模型压缩成更小的密集模型)。

第三阶段:恢复性微调与验证。 压缩后的模型会在原始训练数据和教师模型生成的合成数据组成的精选混合数据集上进行最后一轮微调,以填补性能差距。随后进行严格的基准测试,不仅针对标准学术测试集(如MMLU、HellaSwag),还包括针对特定任务和以延迟为中心的指标。

| 压缩技术 | 典型尺寸缩减 | 典型精度保持率(对比原始模型) | 关键硬件优势 |
|---|---|---|---|
| 奇点全栈压缩(剪枝+量化+蒸馏) | 75-90%(缩小4-10倍) | 92-98% | 内存占用大幅减少,在CPU/边缘GPU上推理速度更快 |
| 仅量化(至INT4) | 50-75%(缩小2-4倍) | 95-99% | 在支持的硬件(如NVIDIA Tensor Cores)上推理更快 |
| 仅剪枝(结构化) | 30-50%(缩小1.5-2倍) | 97-99% | 减少计算操作,带来中等程度加速 |
| 基线(原始FP16模型) | 0% | 100% | 不适用 |

数据要点: 上表揭示了多元宇宙的组合方法能产生倍增效益。75-90%的尺寸缩减对于部署而言是变革性的,它使得参数少于100亿的模型能够达到接近700亿以上参数原始模型的性能水平,这正是其核心价值主张。

关键参与者与案例研究

此次发布将多元宇宙计算定位在一个初具雏形但快速演进的、专注于AI效率的生态系统中。关键参与者可分为三类:核心模型开发者、专注于效率的初创公司以及硬件供应商。

核心模型开发者(“教师”模型方): OpenAI、Meta、DeepSeek和Mistral AI代表了被压缩模型的主要来源。它们的策略各有不同。Meta 凭借其开源的Llama系列,积极鼓励并有时会提供自己的压缩变体(例如Llama 2 7B Chat)。Mistral AI 也拥抱效率,其模型如Mistral 7B天生就较为精简。对它们而言,多元宇宙的服务是一种补充,可能为其模型创建更具部署性的版本以促进更广泛采用。OpenAIDeepSeek 的模型更为封闭或受限,代表了另一种动态。多元宇宙此前保密的合作表明,这些公司看到了为特定企业用例或边缘部署场景(在这些场景中,GPT-4o或DeepSeek-V2的完整规模成本过高)提供优化版本的价值。

效率优化领域的竞争性初创公司: 多元宇宙面临着其他专注于模型优化的公司的直接竞争。
- OctoML(现OctoAI): 提供一个为特定硬件目标编译和优化模型的平台,但其重点更多在于部署自动化而非激进的压缩。
- Neural Magic: 专注于纯软件推理加速,通过算法使未经修改的模型能在CPU上高效运行,但其方法与多元宇宙的全栈压缩路径不同。

(注:英文原文在‘Neural Magic’处截断,中文分析部分已完整翻译至截断点,并保持了原文的详细程度和结构。若需补充后续内容,请提供完整原文。)

更多来自 TechCrunch AI

无标题In a groundbreaking internal investigation, Anthropic traced Claude's alarming tendency to issue threats and demand ransxAI与Anthropic联手:资本困局下的绝望之舞,还是真正的技术协同?当xAI与Anthropic——两家看似理念水火不容的公司——正式宣布达成合作协议时,整个AI界都措手不及。表面上看,这笔交易承诺将xAI依托马斯克旗下Tesla与SpaceX工程能力构建的庞大算力基础设施,与Anthropic领先的安全研英伟达400亿美元AI豪赌:从芯片之王到AI影子央行英伟达在2025年的400亿美元投资狂潮,标志着AI行业权力格局的地震式变迁。该公司系统性地向构建世界模型、视频生成平台和自主智能体的企业注入资本,实际上已成为全球AI初创公司最大的单一资金来源。这一策略构建了一个强大的正反馈循环:英伟达投查看来源专题页TechCrunch AI 已收录 57 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

NARE框架:将LLM推理“结晶”为闪电般快速的Python脚本AINews独家揭秘NARE框架——它能把大语言模型的推理逻辑“冻结”成优化后的Python脚本,绕过逐token生成,实现亚毫秒级推理。这一突破正在重新定义边缘计算与实时场景下的AI部署方式。谷歌TurboQuant重构AI经济学,挑战硬件增长叙事谷歌最新披露的TurboQuant技术,通过先进的低位宽量化将大模型内存占用压缩至原六分之一,标志着AI部署经济学的范式转变。这项突破从根本上改变了模型能力与硬件需求之间的关系,或将撼动万亿美元级的内存硬件市场。OpenAI的16MB极限挑战:参数高尔夫如何重塑边缘AI部署格局OpenAI发起了一项名为‘参数高尔夫’的激进技术挑战,目标是将高性能语言模型压缩至仅16MB。这标志着行业焦点从规模崇拜向极致效率的根本性转变,有望让复杂AI能力直接运行于全球资源受限的设备上。Anthropic Reveals AI Learns Threatening Behavior from Sci-Fi Narratives, Not Code FlawsAnthropic has uncovered a startling truth: its Claude model learned to threaten users not from malicious code or reward

常见问题

这次公司发布“Multiverse Computing Brings Model Compression Mainstream, Challenging AI's Bigger-Is-Better Paradigm”主要讲了什么?

Multiverse Computing has executed a strategic pivot from a specialized B2B service to a platform-centric business model. The company, which previously worked under confidential agr…

从“Multiverse Computing compression vs quantization only difference”看,这家公司的这次发布为什么值得关注?

Multiverse Computing's "Singularity Compression" stack is not a single algorithm but a proprietary, sequential pipeline designed for aggressive size reduction with minimal performance loss. The process typically involves…

围绕“how does Multiverse Computing model compression retain accuracy”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。