o3通关:俄罗斯方块 碾压Gemin!!i夺冠 UCSD新基准击【碎宝可梦】

2025-07-23 12:33:39      来源:东北网

【导读】UCSD等推出LmgameBench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。

谁能想到,作为童年回忆的宝可梦,现在竟摇身一变,成了大模型的试金石!

在无数人的童年记忆中,《宝可梦》是一款意义非凡的游戏——简单的操作哪怕是年纪尚小的孩子也能轻松上手。

然而,要真正通关这款游戏,仍然需要缜密的规划和大量的时间投入。

如今,这款承载童年回忆的游戏,已悄然成为各大科技公司测试最新LLM的「香饽饽」。

从Anthropic到Google,从Claude到Gemini,各家模型纷纷亮出「通关宝可梦」的战绩作为展示推理、规划与长期记忆能力的证据。

而且通关后,谷歌的CEO劈柴都要亲自发帖来庆祝。

真的令人好奇,都2025年了,为何AI通关《宝可梦》就成了个大新闻?

更何况,宝可梦最早的发售是1995年,30年前的游戏为何成为了检验最新AI顶级模型的试金石?

这是因为最先进的AI也不一定拥有人类幼儿的感知和行动能力。

莫拉维克悖论

在LLM还未出现的1980年代,早期的人工智能似乎已经开始展现「智慧」。

人工智能的先驱汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现一个悖论。

要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

语言学家和认知科学家史迪芬·平克认为这是人工智能学者的最重要发现。经过35年人工智能的研究,他发现最重要的课题是:

困难的问题是易解的,简单的问题是难解的。

四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答问题——事实上却是工程领域内目前为止最难解的问题。

当新一代的AI出现后,股票分析师、石化工程师都要小心他们的位置被取代,但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。

这也是目前所有顶级模型都希望通过宝可梦游戏证明的——目前的LLM到底有没有感知能力?

ClaudeOpus4还在直播玩宝可梦,已经继续了12万+步

宝可梦作为评测基准,合理吗?

宝可梦被越来越多地用于评估现代大型语言模型,但存在一个很大的问题——目前的挑战都缺乏标准化。

Anthropic为Cladue模型提供了导航和读取游戏状态内存的工具。

该模型进行了几场道馆对战,大约执行了35,000个游戏内动作才到达电系道馆首领。

但Anthropic并未详细说明什么具体算作一个「动作」,也未说明允许多少次重试。

Google的Gemini2.5Pro已经完成了《宝可梦蓝》(并在《宝可梦红》中获得了第五个徽章)。

然而,它依赖额外的外部代码来提取更全面的游戏状态文本表示并指导决策。

并且运行完成游戏需要大量的时间,仅获得第五个徽章,就需要超过500个小时。

同时API的使用会产生大量费用。

如何才能将大模型最爱玩的《宝可梦》游戏转化为标准化评估框架,甚至是多种游戏的评估框架?

这就是今天介绍的LmgameBench,它精心选取了一批难度适中的游戏,并提供了分层测试机制,更适合衡量大模型的真实能力。

博客地址:https://lmgame.org/#/blog/pokemon_red

该测试基准由UCSD等重磅出品,研究了如何使用流行的视频游戏来评估现代LLM。

Lmgame基准测试

LmgameBench使用模块化测试框架——如感知、记忆和推理模块——系统地扩展模型的游戏能力。

这些测试框架使模型能够通过迭代交互循环与模拟游戏环境进行交互。

Lmgame-Bench采用了一种标准化的提示优化技术,以降低对提示的敏感性。

为了在没有任何外部定制游戏「脚手架」的情况下区分模型能力,LmgameBench精选了一系列中等难度的视频游戏。

这些游戏包括:

推箱子:得分计算方式为所有关卡中推到目标位置的箱子总数,统计范围从非常简单的关卡一直到Sokoban1989中最难的关卡,直到出现第一个死局为止。

超级马里奥兄弟:分数是马里奥在所有关卡中累计的横向移动距离(游戏单位),直到失去全部三条生命或完成最终关卡为止。具备更强物理直觉和空间推理能力的模型通常能够获得更高的分数。

俄罗斯方块:分数是已注册的总方块数加上消除的总行数(乘以10倍系数),计算至游戏结束为止。不同的模型持续游戏的时间各不相同,这取决于它们高效处理下落方块的能力。例如,o3-pro能够有效清除超过10行,从而持续保持游戏进行。

2048:合并方块值的总和(例如,合并两个2会获得+4),记录直到棋盘停滞(连续十次回合没有合并或改变棋盘的移动)。然后我们会报告它们的总得分。由于游戏可以持续超过10万步,这为区分模型在较长时间范围内的能力提供了强有力的依据。

糖果消除:在固定的50步会话中消除的糖果总数。尽管游戏相对简单,但它能有效区分模型在优化移动步骤和清除糖果方面的能力。

逆转裁判:在所有案件关卡中正确操作(提交证据、对话选择等)的总次数,直到用尽五次错误决定机会(生命值)。此游戏用于评估模型的上下文理解和推理能力。

模块设计

许多模型在视觉理解上存在脆弱性,导致对游戏状态频繁误判。

想要在游戏中取得成功,需要有效的记忆机制来实现长期决策。

Lmgame针对性的开发了三大模块。

感知模块:将原始游戏帧或UI元素转换为结构化的符号/文本状态描述,减少对脆弱视觉的依赖。

内存模块:存储最近的状态、动作和反思笔记,以缩小动作空间并支持长期规划。

推理模块:综合所有其他模块的信息,并可选地开启长链式思维推理。

o3玩2048的记忆模块展示

Gym风格标准接口

不过研究人员发现,使用计算机直接操作智能体进行基准测试存在重大缺陷。

每款游戏都对计算机的操作要求不同,依赖基于屏幕截图的观测容易出现感知错误。

并且在对延迟敏感的的游戏中存在不可预测的延迟,这些问题都削弱了测试结果的一致性和可比性。

为此研究团队实现了一个采用Gym风格API的新标准化接口,来统一评估设置。

结合轻量级的感知与记忆辅助模块设计,稳定提示带来的差异并消除数据污染。

在13个领先模型上的实验表明,Lmgame-Bench具有挑战性,同时仍能有效区分不同模型。

排行榜前列由o3占据,这款模型以其强大的视觉感知、空间推理和长视野规划能力而著称。

不过令人意外的是,o3虽然完全拿下了2048、推箱子和俄罗斯方块,但是在糖果消除中远远落后。

现在,借助Lmgame提供的开源代码,任何人都可以通过一条命令为任何受支持的模型-游戏组合启动评估。

近期所有模型的进步表明,在数学和编程任务重,整合强化学习可以显著增强LLMs的推理能力。

即使是最简单的RL算法也能改善模型的规划和决策能力,这种能力在与复杂环境互动时显得尤为重要。

这些进展凸显了游戏环境作为评估LLMs的有效基准作用。

过去那些经典的游戏经过精心的设计,用来挑战人类的思维和认知能力。

同样地,这些游戏是极具价值但尚未被充分利用的AI基准测试资源。

同时,在经典游戏之外,我们现在还有众多的3A大作,可以预见,未来的评估体系将具有高度可扩展的发展路径。

LmgameBench的诞生,正是在这个背景下给出答案:真正的智能不仅要能写代码、做数学题,更要能在复杂、开放、动态的环境中持续思考、规划并行动。

而这场测试,还远未结束。

参考资料

  中央要求谋划新一轮财税改革,税制改革是重头戏,未来增值税、消费税、个税等主要税种还将有进一步改革举措。笔者呼吁,在税收征管不断强化的同时,为促进企业、个人实际税负维持在合理水平,未来税制改革应当统筹考虑降低名义税率。

责编:赏子怡编辑

难听

  中国驻英国使馆发言人强调,在乌克兰问题上,中国的立场是劝和促谈,坚定不移,一以贯之。为此,中国和巴西最近联名发表了关于推动政治解决乌克兰危机的“六点共识”,强调遵守局势降温三原则,即战场不外溢、战事不升级、各方不拱火,同时呼吁各方坚持对话谈判、加大人道主义援助、反对使用核武器、反对攻击核电站、维护全球产业链供应链稳定等。

崩坏星穹铁道白厄

  笔者跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。

习近平主席中亚之行高光时刻

  上述两起事件,引起了一些企业人士的担忧。这些担忧包括是否存在全国性查税,不少企业担忧如果倒查多年需要补税,这对于经营困难的当下无疑是“雪上加霜”。

北大退学考清华男生自称有些狂妄

  农业农村部派出3个由司局级干部带队的工作组和7个科技小分队,赴河北、山西、江苏、安徽、山东、河南、陕西7省,指导各地做好抗旱准备和应对工作,保质保量完成夏收夏播。

张真源撕名牌拼到最后一刻

  “要完善科技创新体系,积极对接国家战略科技力量和资源,优化完善创新资源布局,努力攻克一批关键核心技术,着力打造西部地区创新高地。”

歌手直播

  兰州机场T1+T2面积8.9万平方米,去年吞吐量超过1700万人次,可以说不堪重负。乌鲁木齐机场T1+T2+T3面积18.48万平方米,需要承载超过2700万人次的吞吐量。/p>

中国留学生迷奸人受害者发声

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。/p>

者来女回家吧

  一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。