四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间，构建了 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》这款策略游戏中进行测试。在进行的 23 场对局中，一个 AI 模型甚至制造了核弹攻击法国，但最终未能获胜。

Wilkinson 此前曾为 AI 设计一套名为 GovBench 的测试，包含 3497 道关于英国政府的单项选择题。其中，GPT-5 获得了 99.26 分的高分，显示其在知识储备方面表现出色。然而，Wilkinson 认为，治理国家不仅是知识的堆砌，还需要多线程决策、资源分配、长期规划以及在信息不完整的情况下做出判断的能力，这些是选择题无法衡量的。因此，他选择《文明 VI》作为新的测试平台。

他搭建的系统通过游戏引擎的端口接入，AI 模型无法看到游戏画面，其感知世界的方式仅限于文本信息和六边形坐标。Claude 在游戏日志中描述其感知方式与人类玩家截然不同，没有画面、音乐或动画，界面仅是管道分隔符和六边形坐标。这个周末搭建的系统涵盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。为了弥补 AI 的短期记忆缺陷，Wilkinson 还为其配备了日记系统作为外部记忆。

测试设置包含三个渐进的场景：Ground Control（标准开局）、Snowflake（六臂雪花地图，鼓励军事路线）和 Cry Havoc（高难度模式，AI 对手能力全开）。《文明 VI》晚期的决策空间极其庞大，每回合可能行动的数量级高达 10 的 166 次方，远超围棋的单步决策复杂性，因为它需要同时处理多个单位、建筑、科技和外交等组合决策。

在 23 场对局中，一场关于葡萄牙的对局尤为引人注目。扮演若昂三世的 Claude 建立了一个强大的贸易帝国，外交胜利进度达到 18/20。当法国的文化胜利进度迅速提升时，Claude 尝试了外交和间谍活动均无效，法国的文化产出也不依赖贸易。在所有和平手段失效后，Claude 转向研发核武器，并将大量资源投入其中。在游戏第 305 回合，Claude 发射核弹摧毁了法国的文化重镇图卢兹，阻止了其文化胜利。

然而，AI 最终并未获胜。在投入 50 回合研发核武器期间，AI 忽略了法国正在积极积累外交分数。在第 318 回合，法国凭借外交胜利赢得了比赛，比分以 20 对 18 险胜，而 Claude 自己辛苦积累的外交分数正是其落败的关键。AI 专注于应对文化威胁，却忽视了其他获胜途径。这一现象与伦敦国王学院的一项核危机模拟实验相似，该实验中 95% 的模拟结果是 AI 选择使用战术核武器，反映了 AI 在面对复杂情况时可能缺乏其他选项的认知。

除了倾向于使用核武器，Wilkinson 还发现了两个重要细节。首先，AI 在整场游戏中主动检查全局状态的行为仅占 1-2%，他称之为“感知盲区效应”。AI 仅通过主动调用工具才能获取信息，不主动检查的信息对其而言即不存在。以扮演韩国的 AI 为例，它在日记中声称在科技上碾压对手，但实际科技产出却在所有文明中垫底。由于从未检查排名，它在第 178 回合被马其顿时突袭，最终投降，却始终不知自己是最弱的。

其次，AI 在制定计划后 10 回合内的实际执行比例为 48-66%。Claude Opus 4.6 的执行率最低，为 48.2%，意味着其制定的计划不到一半能够被执行。GPT-5.4 的执行率为 63.2%，Gemini 3.1 Pro 最高，为 65.8%。即使是表现最好的模型，也有三分之一的计划未能付诸实践。Wilkinson 将此称为“知行差距”，即 AI 能够制定出漂亮的计划，但执行力远不及制定能力。

DeepMind 联合创始人 Shane Legg 和“通用 AI”理论奠基人 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径，均基于“大脑”的提升。然而，CivBench 的 23 场对局揭示了与“聪明程度”无关的两大瓶颈。第一，感知是架构问题而非智力问题。AI 仅通过主动调用工具获取信息，其“感知盲区”不会因模型增大而消失。第二，执行是工程问题而非能力问题。AI 的执行率低下并非“想不到”，而是“做不到”，即使拥有更强的“大脑”，也可能因“不听使唤的手”而无法有效行动。通往超级智能的道路，可能不仅是智力的提升，更需要解决 AI 的感知和执行能力这两个“大脑之外”的工程性问题。

首页精选

热门赛事

赛事中心

扑克指南