技术深度解析
方汉关于不可替代人类角色的框架,根植于当前AI系统的基本架构限制。大型语言模型(LLM)和多模态模型基于模式识别和统计推断运行,缺乏真正的理解、意识或意图。要理解为什么这五类工作难以被自动化,我们必须审视其背后的技术约束。
深度共情需要心智理论——即推断他人心理状态、情绪和意图的能力。当前AI,包括GPT-4o和Claude 3.5等模型,可以通过生成共情式回应来模拟共情,但它们并不拥有情感体验或内在情绪状态。Transformer架构在处理token时没有主观意识。MIT媒体实验室情感计算小组的研究表明,虽然AI可以从文本、语音和面部表情中检测情感线索,准确率高达85%,但它无法形成真正的情感纽带,也无法提供人类在治疗、护理或危机干预中所需要的细腻、依赖上下文的支持。
复杂谈判涉及多方、多议题的讨价还价,其中包含不断变化的偏好、隐藏信息和情感动态。像DeepMind的Pluribus(用于扑克)这样的博弈论方法表明,AI可以在信息完美的零和游戏中表现出色,但现实世界的谈判——如劳资纠纷、和平条约或企业并购——涉及信任建立、创造性权衡和非语言线索。这些交互的组合复杂性超出了当前强化学习代理的能力范围,后者在长期、部分可观察的环境中表现挣扎,而人类直觉在其中扮演关键角色。
创意模糊性指的是从定义不明确的问题中生成新颖想法的能力。虽然生成式AI可以创作艺术、音乐和文本,但它本质上是在重新混合现有数据。像DALL-E 3和Stable Diffusion这样的模型依赖于扩散过程,这些过程重建训练分布中的样本。真正的创造力——以发散性思维、类比推理和突破概念边界的能力为定义——仍然难以捉摸。一项2024年比较人类与AI在替代用途测试(一项标准创造力测量)中的表现的研究发现,人类在原创性指标上得分高出40%,在灵活性指标上得分高出60%。
高风险伦理判断需要权衡相互竞争的价值观、文化规范和长期后果。AI系统可以通过人类反馈的强化学习(RLHF)进行微调,以符合既定偏好,但它们缺乏道德推理能力。例如,在自动驾驶汽车的困境中,AI可以基于功利主义原则优化以最小化整体伤害,但无法纳入特定情境的细微差别,如驾驶员与乘客的关系或社会期望。机器伦理领域仍处于起步阶段,对于如何编码多元道德框架尚未达成共识。
不可预测的身体灵活性涉及需要精细运动控制、适应新环境的能力以及实时感觉-运动整合的任务。尽管机器人技术已取得进步,如Boston Dynamics的Atlas和Tesla的Optimus,但它们在非结构化环境中仍然失败——例如穿针引线、进行精细手术或处理具有可变属性的易碎物体。莫拉维克悖论仍然成立:对人类来说容易的任务(如抓握杯子)对机器人来说极其困难,因为触觉反馈、摩擦和物体动力学非常复杂。当前最先进的操控系统在受控实验室环境中仅能达到60-70%的成功率,远低于人类的可靠性。
数据表:AI与人类在关键维度上的表现对比
| 维度 | AI能力 | 人类基线 | 差距 |
|---|---|---|---|
| 情感识别准确率 | 85%(文本/语音) | 95%(结合上下文) | 10% |
| 创意原创性(替代用途测试) | 60百分位 | 90百分位 | 30% |
| 伦理推理(道德图灵测试) | 55%一致性 | 80%共识 | 25% |
| 身体灵活性(插销任务) | 70%成功率 | 99%成功率 | 29% |
| 复杂谈判(多议题) | 65%最优结果 | 80%最优结果 | 15% |
数据要点: 在所有五个维度上,AI目前的表现与人类相比都存在显著差距,尤其是在需要上下文理解、创造力和身体适应性的任务中。这些差距并非均匀缩小——身体灵活性和伦理推理的改进速度最慢。
关键玩家与案例研究
方汉的见解源于昆仑万维自身的AI业务,包括Skywork大模型系列和Opera浏览器的AI集成。该公司将自己定位为务实的参与者,专注于应用型AI而非基础模型研究。这与“后发者”策略一致——不是第一个推出AI产品,而是等待技术成熟后再以更优的执行力入场。这一策略在昆仑万维的实践中得到验证:Skywork模型在开源社区获得广泛采用,Opera的AI助手则通过差异化功能吸引用户。方汉还引用了其他案例,如DeepMind的AlphaFold在蛋白质折叠领域的突破,以及OpenAI的GPT-4在代码生成中的表现,但他强调这些成功都局限于特定领域,无法泛化到需要人类综合能力的场景。他警告说,企业不应盲目追逐AI热潮,而应聚焦于那些AI无法替代的人类角色,并以此为基础构建商业模式。