阿里发布万相2.7-Image,向AI“克隆脸”宣战

阿里巴巴推出万相2.7-Image,是对用户日益反感当前AI生成图像美学单调性的一次直接且精心的回应。该模型定位为文生图、图像扩展与交互式编辑的统一框架,据称在国内人像偏好盲测中位居榜首,超越了GPT-Image1.5,并在文字渲染、照片级细节等特定指标上比肩Nano Banana Pro。其核心亮点——能够塑造极具“鲜活感”的高度个性化虚拟肖像,以及实现确定性色调控制的全新“调色盘”功能——并非简单的增量更新。它们是针对“AI克隆脸”和“色彩抽奖”(即用户难以通过提示词精确控制输出色彩)这两大痛点的靶向解决方案。万相2.7-Image的发布,不仅是一次技术升级,更代表了阿里巴巴在生成式AI应用层的一次战略卡位,旨在以其对多样性、真实感与可控性的强调,在竞争激烈的图像生成市场开辟差异化赛道。

技术深度解析

万相2.7-Image的架构很可能是扩散模型范式的复杂演进,但针对其宣称的目标进行了关键修改。尽管阿里巴巴尚未发布完整白皮书,但从其公布的能力和更广泛的研究背景可窥见一斑。模型名称暗示其参数规模在数十亿级别(27亿+),但真正的创新在于其训练方法和条件控制机制。

为对抗“标准脸”,该模型几乎肯定采用了多概念解耦的潜在空间。训练数据集经过精心策划和标注,将骨骼结构、眼型、皮肤纹理、表情等特征分离到更独立的维度,而非使用“人脸”的单一整体表征。类似于Textual InversionDreamBooth的技术,但在预训练阶段大规模实施,可能使模型能够学习海量面部原型库,而不会将它们坍缩为一个平均值。所谓的“鲜活感”或“活人感”,很可能源于增强的时序和微表情建模,可能借鉴了视频生成模型的洞见,以理解面部细微肌肉运动与光线如何交互,从而超越静态肖像。

“调色盘”功能代表了精准条件控制的突破。大多数扩散模型接受文本提示,有时也接受粗略草图。万相2.7-Image似乎集成了一个色彩控制网络作为并行条件输入。其功能可能类似于ControlNetT2I-Adapter等模型中的条件控制机制,但专门针对HSV(色相、饱和度、明度)值进行优化。用户可以选择潘通色卡代码或十六进制值,这些数据在扩散过程的特定层被注入,从而覆盖文本编码器通常模糊的色彩建议。这将生成过程从概率性的“抽奖”转变为更确定性的设计工具。

其在盲测中报告的性能表现意义重大。击败国内模型并接近Nano Banana Pro,表明其训练方案 heavily weighted on 人类反馈强化学习(HFRL) 或类似的偏好优化技术。该模型不仅是为了最小化相对于数据集的损失函数而训练,更是基于真实人类认为哪些输出更吸引人、更真实、更多样而进行迭代优化。

| 能力指标 | 万相2.7-Image(宣称) | GPT-Image1.5(预估) | Nano Banana Pro(参考) |
|---|---|---|---|
| 人像偏好得分(国内盲测) | 第一 | 第二/第三 | 不适用(国际基准) |
| 文字渲染准确性 | 高 | 中等 | 极高 |
| 照片真实感(“世界知识”) | 高 | 中高 | 极高 |
| 面部多样性指数(假设) | 极高 | 低-中等 | 中等 |
| 确定性色彩控制 | 是(原生调色盘) | 否(基于提示) | 有限(基于插件) |

数据解读: 上表展示了万相2.7-Image的针对性优势。它用文字渲染方面的绝对优势(这是Nano Banana Pro等模型的已知强项)换取了在人像偏好方面的领先地位,以及在面部多样性和色彩控制方面的独特能力。这是一种经典的产品差异化策略,专注于用户体验缺口,而非在所有基准指标上取胜。

关键参与者与案例研究

万相2.7-Image的发布直接挑战了多个现有参与者,并定义了新的竞争维度。

阿里巴巴的集成生态系统: 首要案例研究是阿里巴巴自身。万相2.7-Image并非达摩院的孤立研究项目,而是一个产品就绪的引擎。其首个也是最重要的应用将在阿里巴巴自身的生态内展开:
* 淘宝/天猫: 用于时尚和美妆的虚拟试穿,多样且真实的面孔对于转化率至关重要。为每种口红色号生成相同面孔的模型毫无用处。
* 速卖通: 为国际卖家提供超本地化的产品图像,生成符合区域人口特征的模特。
* Lazada及东南亚电商: 根据多元文化审美定制数字营销素材。
* 阿里云: 将模型作为服务(MaaS)提供给企业客户,用于品牌、广告和设计,直接与OpenAI的DALL-E 3和Midjourney的API竞争。

竞争格局:
* OpenAI的DALL-E 3 & GPT-Image1.5: 虽然技术娴熟且与ChatGPT深度集成,但这些模型因其某种“经过消毒的”、同质化的输出风格而受到批评。它们擅长遵循提示,但在偶然的多样性方面表现较弱。万相2.7-Image的攻击点正是这一美学弱点。
* Midjourney: 艺术风格和构图的社区黄金标准。然而,其强项不在于精确、个性化的肖像生成或确定性控制。它是一个用于激发灵感的工具,

常见问题

这次模型发布“Alibaba's Wan2.7-Image Declares War on AI's Monotonous Clone Faces”的核心内容是什么?

Alibaba's introduction of Wan2.7-Image is a direct and calculated response to a growing user revolt against the aesthetic monotony of contemporary AI-generated imagery. The model…

从“How does Wan2.7-Image color palette work technically?”看,这个模型发布为什么重要?

Wan2.7-Image's architecture is likely a sophisticated evolution of the diffusion model paradigm, but with critical modifications targeting its stated goals. While Alibaba has not released a full whitepaper, inferences ca…

围绕“Wan2.7-Image vs Stable Diffusion 3 for portrait generation”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。