Gemini Omni:谷歌悄然推出的统一AI操作系统

DeepMind Blog May 2026
来源:DeepMind BlogGoogle AI归档:May 2026
谷歌悄然发布Gemini Omni,一个将文本、视觉、音频与实时推理整合进单一架构的统一多模态模型。AINews分析指出,这不仅是升级,更是一次向具备持续感知与行动能力的AI操作系统的根本性转变。

2026年5月19日,谷歌发布了Gemini Omni,一个从根本上重新思考AI如何感知世界的模型。与以往将独立视觉、语音和文本模块拼接在一起——从而产生延迟和一致性问题——的多模态系统不同,Gemini Omni将所有感官通道直接嵌入一个统一的神经网络。这使得模型能够在单次前向传播中同时“看见”图像、“听见”音频并“理解”上下文,从而实现实时、持续的认知。其影响深远:能够捕捉语气和视觉线索的实时翻译、AI一边观看视频一边回答问题的互动式教育,以及无需模块化延迟即可感知和行动的自主系统。从商业角度看,谷歌正借此取代其原有翻译API等产品,并抢占“始终在线、始终感知”的AI助手市场先机。

技术深度解析

Gemini Omni代表了与主导多模态AI领域的模块化、集成式方法的彻底决裂。传统系统,例如驱动OpenAI的GPT-4V或Meta的ImageBind的系统,依赖为每种模态配备独立的编码器——用于图像的视觉Transformer(ViT)、用于音频的类似Whisper的模型,以及用于文本的大型语言模型(LLM)——然后通过交叉注意力层或后期拼接进行融合。这造成了一个根本性的瓶颈:每种模态被独立处理,引入了延迟并丢失了跨模态上下文。例如,当用户展示一段汽车引擎的视频并问“那是什么敲击声?”时,一个模块化系统必须首先转录音频,然后分析视频帧,最后对齐两个输出——这个过程可能需要500-800毫秒,并且常常无法将声音与视觉组件关联起来。

Gemini Omni通过将所有模态集成到一个单一的、端到端训练的Transformer架构中解决了这个问题。该模型使用一种统一的标记化方案,其中视觉补丁、音频频谱图和文本标记都被嵌入到一个共享的潜在空间中。这是通过一个新颖的“多模态混合专家”(MoE)层实现的,其中不同的专家子网络专门处理不同的模态组合,但所有子网络共享一个共同的注意力机制。结果是,该模型能够在单次前向传播中执行“联合嵌入”——同时处理视频帧及其对应的音频波形,并在每一层进行跨模态注意力操作。这将实时任务(如视频问答)的端到端延迟降低到200毫秒以下,比模块化基线提升了4倍。

| 模型 | 架构 | 模态 | 实时延迟(视频问答) | 统一标记空间 | 开源 |
|---|---|---|---|---|---|
| Gemini Omni | 统一MoE Transformer | 文本、图像、音频、视频 | <200ms | 是 | 否 |
| GPT-4V | 模块化(ViT + LLM) | 文本、图像 | 500-800ms | 否 | 否 |
| Meta ImageBind | 模块化(独立编码器) | 文本、图像、音频、深度 | 600-900ms | 否 | 是(仅研究用途) |
| Google DeepMind Flamingo | 模块化(Perceiver + LLM) | 文本、图像、视频 | 400-700ms | 否 | 否 |

数据要点: Gemini Omni的统一架构在实时多模态任务上比最佳模块化竞争对手实现了4倍的延迟改进,同时还实现了模块化系统无法实现的真正跨模态推理。这不是渐进式的提升——这是AI感知世界方式的范式转变。

一项关键的工程创新是“感知标记压缩”的使用。对于一个30帧/秒、时长30秒的视频片段,一种朴素的方法会生成900个视觉标记加上数千个音频标记,从而压垮注意力机制。Gemini Omni使用一个学习到的时空压缩器,将视频每秒缩减为仅128个“事件标记”,只捕捉发生显著视觉或音频变化的帧。这受到了人类视觉系统扫视注意力的启发,并允许模型近乎实时地处理数小时的视频。开源社区已经注意到了这一点:GitHub仓库“Video-LLaVA”(现已获得12,000多颗星)已经开始尝试类似的标记压缩技术,尽管其性能仍远不及Gemini Omni。

关键参与者与案例研究

谷歌对Gemini Omni的策略是双重的:主导开发者生态系统并拥有消费者AI层。主要竞争对手是OpenAI,它通过GPT-5追求类似的统一愿景,但尚未推出原生集成音频和视频的产品。OpenAI当前的方法仍然依赖通过GPT-4 API拼接在一起的独立Whisper(音频)和CLIP(视觉)模型。这使谷歌在“始终在线、始终感知”的AI助手市场获得了先发优势。

一个关键的案例研究是实时翻译市场。当前的解决方案,如Google Translate或DeepL,以流水线方式运行:语音转文本,然后文本翻译,然后文本转语音。这引入了2-3秒的延迟并丢失了情感语调。Gemini Omni可以执行直接的语音到语音翻译,保留韵律和情感,延迟低于500毫秒。早期测试者报告称,与Gemini Omni的对话感觉就像与人类口译员交谈一样自然。这可能会颠覆严重依赖人类译员的52亿美元语言服务市场。

| 产品 | 翻译延迟 | 情感保留 | 模态 | 定价(每100万标记) |
|---|---|---|---|---|
| Gemini Omni | <500ms | 是 | 语音到语音 | $8.00 |
| Google Translate API | 2-3s | 否 | 文本到文本 | $20.00 |
| DeepL API | 1.5-2s | 否 | 文本到文本 | $25.00 |
| OpenAI Whisper + GPT-4 | 3-5s | 部分 | 语音到文本 | $15.00 |

数据要点: Gemini Omni不仅比现有翻译API更快、更自然,而且更便宜——比谷歌自己的传统Translate API便宜60%。这是一个

更多来自 DeepMind Blog

Gemini for Science:AI从工具进化为科学发现伙伴谷歌推出Gemini for Science,标志着人工智能在基础研究应用中的一个关键时刻。与以往那些充当被动助手——按指令分析数据或运行模拟——的AI工具不同,这套新系统被设计为自主协作伙伴。其核心创新在于一个闭环推理系统:它能吸收科学文AI“联合科学家”发现逆转衰老关键基因,开启生物医学新纪元一款突破性的人工智能系统“Co-Scientist”成功识别出此前未知的、可逆转人类细胞衰老的遗传靶点。该系统自主分析了海量基因组数据集,生成假说,设计验证实验,并确认结果——整个过程仅耗时数周。而传统湿实验室方法完成类似发现通常需要数年,AlphaEvolve:Gemini驱动的自主工程师,AI从工具进化为创造者AlphaEvolve代表了当前AI编程助手的质的飞跃。当GitHub Copilot或Cursor等工具擅长自动补全代码行或生成代码片段时,AlphaEvolve则像一位自主工程师。它依托Gemini的长上下文与多模态推理能力,能够理解涵查看来源专题页DeepMind Blog 已收录 9 篇文章

相关专题

Google AI21 篇相关文章

时间归档

May 20262708 篇已发布文章

延伸阅读

Gemini Omni:原生统一认知终结AI拼凑时代Gemini Omni彻底颠覆了将视觉、音频和文本模块简单拼接的旧范式。通过将所有感官信息流视为单一原生信息流,它实现了实时、跨模态的推理,模拟了人类的感知方式。AINews将深入解析其架构、竞争格局,以及对企业和消费级AI的深远影响。Gemini Omni 突破AI视频壁垒:动态文本识别终获解决谷歌最新Gemini Omni演示揭示了一个长期被忽视的AI弱点终于被攻克:在动态视频中读取文本。这不仅仅是OCR的升级,而是机器解析人类信息环境的根本性转变,为自动化、无障碍和实时大规模审核解锁了全新可能。Gemini登陆macOS:谷歌战略落子,桌面AI智能体时代开启谷歌将Gemini部署至macOS,远非一次简单的跨平台移植。这是一次决定性的战略行动,旨在将大语言模型嵌入操作系统底层,构建基础性的系统级智能层。此举标志着桌面AI智能体时代的序幕正式拉开,从根本上挑战了以应用为中心的软件范式。Gemini for Science:AI从工具进化为科学发现伙伴谷歌发布Gemini for Science,一套标志着科学方法论根本性转变的AI工具。通过将多模态推理与自主实验设计相结合,该系统不再仅仅是数据处理者,而是主动提出并验证假设,真正成为全方位的科研合作伙伴。

常见问题

这次模型发布“Gemini Omni: Google's Quiet Launch of a Unified AI Operating System”的核心内容是什么?

On May 19, 2026, Google released Gemini Omni, a model that fundamentally rethinks how AI processes the world. Unlike previous multimodal systems that stitched together separate vis…

从“Gemini Omni vs GPT-5 comparison latency benchmarks”看,这个模型发布为什么重要?

Gemini Omni represents a radical departure from the modular, ensemble-based approaches that have dominated multimodal AI. Traditional systems, such as those powering OpenAI's GPT-4V or Meta's ImageBind, rely on separate…

围绕“Google Gemini Omni API pricing per token 2026”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。