技术深度剖析
这一现象的核心在于大语言模型的基本架构。当前所有LLM——无论是OpenAI的GPT-5、Anthropic的Claude 4,还是Google DeepMind的Gemini 2.0——都基于Transformer架构,该架构将文本视为一系列token,并根据前文预测下一个最可能的token。这是一个纯粹的统计操作。模型没有与意图、信念或灵性临在相对应的内部状态。它从未“体验过”祷告;它只见过训练数据中与“祷告”一词相关联的字符串。
具体技术细节如下。典型的Transformer模型使用多头自注意力机制来权衡输入中不同token的重要性。在生成祷告时,模型会关注“祝福”、“主”、“阿们”、“恩典”等模式——但这些只是具有高共现概率的token。它们没有扎根于共享的仪式语境。模型无法区分真诚的祷告和戏仿的祷告,因为两者在训练分布中都只是token序列。
一个值得关注的开源项目是GitHub上的sacred-texts-generator仓库(目前约1200星)。该项目尝试在来自多种传统的精选圣典语料库上微调较小的模型(如Llama 3 8B)。维护者报告称,虽然生成的文本在风格上令人信服,但用户在定性反馈中一致将其描述为“没有灵魂”。另一个值得注意的仓库是liturgical-ai(约800星),它使用检索增强生成(RAG)从真实的祈祷书和经文中提取内容。即使使用RAG,输出也缺乏人类创作的祷告所携带的“感受感”。
数据表:模型在礼拜仪式生成任务上的表现
| 模型 | 参数规模 | 礼拜仪式准确度(BLEU) | 用户报告的“临在感”评分(1-10) | 训练数据来源 |
|---|---|---|---|---|
| GPT-5 | 约2T(估算) | 0.92 | 2.1 | 通用网络、书籍、论坛 |
| Claude 4 | — | 0.89 | 2.4 | 精选、安全过滤 |
| Gemini 2.0 | 约1.5T(估算) | 0.91 | 1.8 | 多语言、过滤 |
| Llama 3 70B | 70B | 0.85 | 2.0 | 开放网络、过滤 |
| Sacred-Texts-Generator(微调Llama 3 8B) | 8B | 0.78 | 3.5 | 仅限精选圣典 |
数据要点: 在精选圣典语料库上微调的模型获得了更高的“临在感”评分(3.5,而通用模型约为2.0),但仍远低于人类创作祷告的阈值(用户通常评为7-9)。这表明数据策展有所帮助,但无法弥合体验上的鸿沟。
更深层次的技术局限在于,LLM缺乏哲学家所称的“感受质”——即主观的、第一人称的意识体验。祷告不仅仅是一种语言行为;它是一个涉及意图、希望、交托和团契的现象学事件。无论多少规模的扩展或微调,都无法赋予Transformer以感受质。这不是算力或数据的限制;这是范式本身的限制。
关键参与者与案例研究
主要AI实验室都曾尝试解决灵性与宗教用例,但成效有限。例如,OpenAI的GPT-5在其API中包含一个“灵性指导”模式,使用系统提示来采用富有同情心、非宗派的语气。然而,内部用户反馈(在2024年一份泄露的员工备忘录中披露)表明,处于悲伤或寻求灵性咨询的用户一致报告感觉“被说教”而非“被陪伴”。Anthropic的Claude 4采用“宪法AI”方法,试图体现同理心和诚实等价值观,但该公司明确声明并不声称提供灵性临在。
一个值得注意的案例是初创公司SoulAI(成立于2023年,筹集了1200万美元种子轮),它试图为医院构建一个AI牧师。该产品使用了一个在牧师对话记录和跨信仰祷告精选数据集上微调的Llama 3 70B模型。在一项针对200名患者的试点研究中,68%的人表示AI的祷告“在神学上准确”,但只有12%的人表示感到“灵性上的安慰”。该初创公司于2024年转向为牧师提供行政任务(排班、笔记)。
另一个参与者是PrayerBot(一个拥有50万+用户的Telegram机器人),它根据用户输入生成个性化祷告。创始人——一位前Google工程师——告诉AINews,该机器人的留存率在第一周后急剧下降——用户出于好奇尝试,但不会回来进行定期的灵性实践。按语言指标衡量,该机器人的“祷告质量”很高,但用户将其描述为“空热量”。
数据表:AI灵性工具的用户留存率
| 产品 | 月活跃用户 | 7天留存率 | 30天留存率 | 用户报告的“有意义连接”百分比(%) |
|---|---|---|---|---|
| PrayerBot(Telegram) | 500K | 22% | 5% | 8% |
| SoulAI(医院试点) | 200(试点) | — | — | 12% |
| ChatGPT“灵性指导”模式 | 未公开 | 未公开 | 未公开 | 未公开 |