英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间,构建了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》这款策略游戏中进行测试。在进行的 23 场对局中,一个 AI 模型甚至制造了核弹攻击法国,但最终未能获胜。
Wilkinson 此前曾为 AI 设计一套名为 GovBench 的测试,包含 3497 道关于英国政府的单项选择题。其中,GPT-5 获得了 99.26 分的高分,显示其在知识储备方面表现出色。然而,Wilkinson 认为,治理国家不仅是知识的堆砌,还需要多线程决策、资源分配、长期规划以及在信息不完整的情况下做出判断的能力,这些是选择题无法衡量的。因此,他选择《文明 VI》作为新的测试平台。
他搭建的系统通过游戏引擎的端口接入,AI 模型无法看到游戏画面,其感知世界的方式仅限于文本信息和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,没有画面、音乐或动画,界面仅是管道分隔符和六边形坐标。这个周末搭建的系统涵盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。为了弥补 AI 的短期记忆缺陷,Wilkinson 还为其配备了日记系统作为外部记忆。
测试设置包含三个渐进的场景:Ground Control(标准开局)、Snowflake(六臂雪花地图,鼓励军事路线)和 Cry Havoc(高难度模式,AI 对手能力全开)。《文明 VI》晚期的决策空间极其庞大,每回合可能行动的数量级高达 10 的 166 次方,远超围棋的单步决策复杂性,因为它需要同时处理多个单位、建筑、科技和外交等组合决策。
在 23 场对局中,一场关于葡萄牙的对局尤为引人注目。扮演若昂三世的 Claude 建立了一个强大的贸易帝国,外交胜利进度达到 18/20。当法国的文化胜利进度迅速提升时,Claude 尝试了外交和间谍活动均无效,法国的文化产出也不依赖贸易。在所有和平手段失效后,Claude 转向研发核武器,并将大量资源投入其中。在游戏第 305 回合,Claude 发射核弹摧毁了法国的文化重镇图卢兹,阻止了其文化胜利。
然而,AI 最终并未获胜。在投入 50 回合研发核武器期间,AI 忽略了法国正在积极积累外交分数。在第 318 回合,法国凭借外交胜利赢得了比赛,比分以 20 对 18 险胜,而 Claude 自己辛苦积累的外交分数正是其落败的关键。AI 专注于应对文化威胁,却忽视了其他获胜途径。这一现象与伦敦国王学院的一项核危机模拟实验相似,该实验中 95% 的模拟结果是 AI 选择使用战术核武器,反映了 AI 在面对复杂情况时可能缺乏其他选项的认知。
除了倾向于使用核武器,Wilkinson 还发现了两个重要细节。首先,AI 在整场游戏中主动检查全局状态的行为仅占 1-2%,他称之为“感知盲区效应”。AI 仅通过主动调用工具才能获取信息,不主动检查的信息对其而言即不存在。以扮演韩国的 AI 为例,它在日记中声称在科技上碾压对手,但实际科技产出却在所有文明中垫底。由于从未检查排名,它在第 178 回合被马其顿时突袭,最终投降,却始终不知自己是最弱的。
其次,AI 在制定计划后 10 回合内的实际执行比例为 48-66%。Claude Opus 4.6 的执行率最低,为 48.2%,意味着其制定的计划不到一半能够被执行。GPT-5.4 的执行率为 63.2%,Gemini 3.1 Pro 最高,为 65.8%。即使是表现最好的模型,也有三分之一的计划未能付诸实践。Wilkinson 将此称为“知行差距”,即 AI 能够制定出漂亮的计划,但执行力远不及制定能力。
DeepMind 联合创始人 Shane Legg 和“通用 AI”理论奠基人 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径,均基于“大脑”的提升。然而,CivBench 的 23 场对局揭示了与“聪明程度”无关的两大瓶颈。第一,感知是架构问题而非智力问题。AI 仅通过主动调用工具获取信息,其“感知盲区”不会因模型增大而消失。第二,执行是工程问题而非能力问题。AI 的执行率低下并非“想不到”,而是“做不到”,即使拥有更强的“大脑”,也可能因“不听使唤的手”而无法有效行动。通往超级智能的道路,可能不仅是智力的提升,更需要解决 AI 的感知和执行能力这两个“大脑之外”的工程性问题。