AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

时间：2025-03-04 16:23:54 来源：24直播网

加利福尼亚大学圣地亚哥分校的 Hao 人工智能实验室（Hao AI Lab）上周五开展了一项独特的研究，将人工智能（AI）引入经典游戏《超级马力欧兄弟》中，以测试其性能表现。研究结果显示，在参与测试的 AI 模型中，Anthropic 的 Claude 3.7 表现最为出色，紧随其后的是 Claude 3.5。相比之下，谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。

需要明确的是，此次实验所使用的并非 1985 年最初发布的《超级马力欧兄弟》版本。游戏运行在一个模拟器中，并通过一个名为 GamingAgent 的框架与 AI 进行连接，从而让 AI 能够控制马力欧。GamingAgent 由 Hao 人工智能实验室自主研发，其向 AI 提供基本指令，例如“如果附近有障碍物或敌人，向左移动或跳跃以躲避”，同时还提供游戏内的截图。随后，AI 通过生成 Python 代码的形式来操控马力欧。

据实验室介绍，该游戏环境迫使每个 AI 模型“学习”如何规划复杂的操作并制定游戏策略。有趣的是，实验发现像 OpenAI 的 o1 这样的推理模型（它们通过逐步思考问题来得出解决方案）表现不如“非推理”模型，尽管它们在大多数基准测试中通常表现更强。研究人员指出，推理模型在实时游戏中表现不佳的主要原因之一是它们通常需要花费数秒时间来决定行动。而在《超级马力欧兄弟》中，时机至关重要，一秒钟的差别可能意味着安全跳过和坠落死亡的不同结果。

数十年来，游戏一直是衡量 AI 性能的重要工具。然而，一些专家对将 AI 在游戏中的表现与技术进步直接挂钩的做法提出了质疑。与现实世界相比，游戏往往是抽象且相对简单的，并且能够为 AI 训练提供理论上无限的数据。

IT之家注意到，最近一些引人注目的游戏基准测试结果引发了 OpenAI 研究科学家、创始成员安德烈・卡帕西（Andrej Karpathy）所说的“评估危机”。他在 X 平台上发表的一篇帖子中写道：“我目前真的不知道该关注哪些 AI 指标。”他总结道：“我的反应是，我目前真的不知道这些模型到底有多好。”

标签模型推理操作马力超级兄弟

上一篇：新华社采访多位国内游戏制作人：国产单机游戏未来拥有无限的可能！

下一篇： mayumi更博晒照：一周内就抵达中国

AI玩《超级马力欧兄弟》：Claude模型操作最溜，推理模型表现不佳

热门数据

相关信息

IG官方晒出美食：吃了吗您呢

马斯克与4名离职前推特高管达成和解！交出9亿元RMB天价和解费

掉远古龙也赢！Xiaohu暴力加里奥逆天改命WBG九千逆转赢首局

Faker：想和GEN交手中韩优点不同，以挑战者心态参赛

都想T1死啊GEN辅助Duro采访：我想和iG、AL交手，iG是强队

入围赛变亚洲邀请赛了今年S赛仅有86场为S6以后最少一届世界赛

水晶哥看WBG抢小龙不管超级兵当场气炸：全在乱玩不玩就退了！

上单差距！Siwoo兰博对位单杀团战火烧连营拉满输出DK赢首局

龙魂是反向BUFFNS手持火龙魂+远古龙输比赛WBG拿大龙被团灭

不蒸馒头争口气！Tian控告涵艺侵犯名誉权官司胜诉被告被强制执行一元

10月09日NBA季前赛开拓者勇士全场录像

10月09日NBA季前赛爵士火箭全场录像

10月07日NBA季前赛活塞灰熊全场录像

10月05日NBA季前赛耶路撒冷夏普尔篮网全场录像

09月22日NBL总决赛G4长沙勇胜香港金牛全场录像

09月17日女篮热身赛西安站中国女篮尤文图特女篮全场录像

09月06日WNBA常规赛芝加哥天空印第安纳狂热全场录像

09月05日WNBA常规赛达拉斯飞翼金州女武神全场录像

09月04日NBL季后赛半决赛G3香港金牛石家庄翔蓝全场录像

08月30日男篮欧锦赛小组赛英国男篮瑞典男篮全场录像

相关集锦

季前赛卡登仅打半场奥迪24+5广州下半场崩盘47分惨负快船

季前赛米切尔22+6莫布里21+5骑士3人20+憾负公牛

季前赛AJ格林22分康宁汉姆26+6+6雄鹿力克活塞获连胜

季前赛亚历山大16+5鲍尔15+5乔19分雷霆击败黄蜂

季前赛大桥15分唐斯10+11华子17分尼克斯加时逆转森林狼

季前赛英格拉姆21+6小萨19分施罗德首秀5中1猛龙击败国王

杨瀚森首秀4分4板+6犯库追巴半场砍32分勇士末节逆转开拓者

WNBA总决赛阿贾34+14&绝杀萨巴利伤退王牌胜水星获冠军点

季前赛布朗21分怀特16+10韦尔斯21分凯尔特人轻取灰熊

季前赛KD首秀20分申京13+5+13阿门19+7+6火箭击败爵士

热门TAG