o3通关俄罗斯方块 碾压Gemini夺冠 UCSD:新基准击【碎宝可梦——】

2025-07-29 03:29:41      来源:直播吧

【导读】UCSD等推出LmgameBench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。

谁能想到,作为童年回忆的宝可梦,现在竟摇身一变,成了大模型的试金石!

在无数人的童年记忆中,《宝可梦》是一款意义非凡的游戏——简单的操作哪怕是年纪尚小的孩子也能轻松上手。

然而,要真正通关这款游戏,仍然需要缜密的规划和大量的时间投入。

如今,这款承载童年回忆的游戏,已悄然成为各大科技公司测试最新LLM的「香饽饽」。

从Anthropic到Google,从Claude到Gemini,各家模型纷纷亮出「通关宝可梦」的战绩作为展示推理、规划与长期记忆能力的证据。

而且通关后,谷歌的CEO劈柴都要亲自发帖来庆祝。

真的令人好奇,都2025年了,为何AI通关《宝可梦》就成了个大新闻?

更何况,宝可梦最早的发售是1995年,30年前的游戏为何成为了检验最新AI顶级模型的试金石?

这是因为最先进的AI也不一定拥有人类幼儿的感知和行动能力。

莫拉维克悖论

在LLM还未出现的1980年代,早期的人工智能似乎已经开始展现「智慧」。

人工智能的先驱汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现一个悖论。

要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

语言学家和认知科学家史迪芬·平克认为这是人工智能学者的最重要发现。经过35年人工智能的研究,他发现最重要的课题是:

困难的问题是易解的,简单的问题是难解的。

四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答问题——事实上却是工程领域内目前为止最难解的问题。

当新一代的AI出现后,股票分析师、石化工程师都要小心他们的位置被取代,但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。

这也是目前所有顶级模型都希望通过宝可梦游戏证明的——目前的LLM到底有没有感知能力?

ClaudeOpus4还在直播玩宝可梦,已经继续了12万+步

宝可梦作为评测基准,合理吗?

宝可梦被越来越多地用于评估现代大型语言模型,但存在一个很大的问题——目前的挑战都缺乏标准化。

Anthropic为Cladue模型提供了导航和读取游戏状态内存的工具。

该模型进行了几场道馆对战,大约执行了35,000个游戏内动作才到达电系道馆首领。

但Anthropic并未详细说明什么具体算作一个「动作」,也未说明允许多少次重试。

Google的Gemini2.5Pro已经完成了《宝可梦蓝》(并在《宝可梦红》中获得了第五个徽章)。

然而,它依赖额外的外部代码来提取更全面的游戏状态文本表示并指导决策。

并且运行完成游戏需要大量的时间,仅获得第五个徽章,就需要超过500个小时。

同时API的使用会产生大量费用。

如何才能将大模型最爱玩的《宝可梦》游戏转化为标准化评估框架,甚至是多种游戏的评估框架?

这就是今天介绍的LmgameBench,它精心选取了一批难度适中的游戏,并提供了分层测试机制,更适合衡量大模型的真实能力。

博客地址:https://lmgame.org/#/blog/pokemon_red

该测试基准由UCSD等重磅出品,研究了如何使用流行的视频游戏来评估现代LLM。

Lmgame基准测试

LmgameBench使用模块化测试框架——如感知、记忆和推理模块——系统地扩展模型的游戏能力。

这些测试框架使模型能够通过迭代交互循环与模拟游戏环境进行交互。

Lmgame-Bench采用了一种标准化的提示优化技术,以降低对提示的敏感性。

为了在没有任何外部定制游戏「脚手架」的情况下区分模型能力,LmgameBench精选了一系列中等难度的视频游戏。

这些游戏包括:

推箱子:得分计算方式为所有关卡中推到目标位置的箱子总数,统计范围从非常简单的关卡一直到Sokoban1989中最难的关卡,直到出现第一个死局为止。

超级马里奥兄弟:分数是马里奥在所有关卡中累计的横向移动距离(游戏单位),直到失去全部三条生命或完成最终关卡为止。具备更强物理直觉和空间推理能力的模型通常能够获得更高的分数。

俄罗斯方块:分数是已注册的总方块数加上消除的总行数(乘以10倍系数),计算至游戏结束为止。不同的模型持续游戏的时间各不相同,这取决于它们高效处理下落方块的能力。例如,o3-pro能够有效清除超过10行,从而持续保持游戏进行。

2048:合并方块值的总和(例如,合并两个2会获得+4),记录直到棋盘停滞(连续十次回合没有合并或改变棋盘的移动)。然后我们会报告它们的总得分。由于游戏可以持续超过10万步,这为区分模型在较长时间范围内的能力提供了强有力的依据。

糖果消除:在固定的50步会话中消除的糖果总数。尽管游戏相对简单,但它能有效区分模型在优化移动步骤和清除糖果方面的能力。

逆转裁判:在所有案件关卡中正确操作(提交证据、对话选择等)的总次数,直到用尽五次错误决定机会(生命值)。此游戏用于评估模型的上下文理解和推理能力。

模块设计

许多模型在视觉理解上存在脆弱性,导致对游戏状态频繁误判。

想要在游戏中取得成功,需要有效的记忆机制来实现长期决策。

Lmgame针对性的开发了三大模块。

感知模块:将原始游戏帧或UI元素转换为结构化的符号/文本状态描述,减少对脆弱视觉的依赖。

内存模块:存储最近的状态、动作和反思笔记,以缩小动作空间并支持长期规划。

推理模块:综合所有其他模块的信息,并可选地开启长链式思维推理。

o3玩2048的记忆模块展示

Gym风格标准接口

不过研究人员发现,使用计算机直接操作智能体进行基准测试存在重大缺陷。

每款游戏都对计算机的操作要求不同,依赖基于屏幕截图的观测容易出现感知错误。

并且在对延迟敏感的的游戏中存在不可预测的延迟,这些问题都削弱了测试结果的一致性和可比性。

为此研究团队实现了一个采用Gym风格API的新标准化接口,来统一评估设置。

结合轻量级的感知与记忆辅助模块设计,稳定提示带来的差异并消除数据污染。

在13个领先模型上的实验表明,Lmgame-Bench具有挑战性,同时仍能有效区分不同模型。

排行榜前列由o3占据,这款模型以其强大的视觉感知、空间推理和长视野规划能力而著称。

不过令人意外的是,o3虽然完全拿下了2048、推箱子和俄罗斯方块,但是在糖果消除中远远落后。

现在,借助Lmgame提供的开源代码,任何人都可以通过一条命令为任何受支持的模型-游戏组合启动评估。

近期所有模型的进步表明,在数学和编程任务重,整合强化学习可以显著增强LLMs的推理能力。

即使是最简单的RL算法也能改善模型的规划和决策能力,这种能力在与复杂环境互动时显得尤为重要。

这些进展凸显了游戏环境作为评估LLMs的有效基准作用。

过去那些经典的游戏经过精心的设计,用来挑战人类的思维和认知能力。

同样地,这些游戏是极具价值但尚未被充分利用的AI基准测试资源。

同时,在经典游戏之外,我们现在还有众多的3A大作,可以预见,未来的评估体系将具有高度可扩展的发展路径。

LmgameBench的诞生,正是在这个背景下给出答案:真正的智能不仅要能写代码、做数学题,更要能在复杂、开放、动态的环境中持续思考、规划并行动。

而这场测试,还远未结束。

参考资料

  十二届四川省委科技委员会第一次会议,有多个重要议题,包括“学习中央科技委员会有关会议精神”“审议《省委科技委员会工作规则》等文件”。

责编:吴念筠编辑

美军已向中东运送了更多血浆

  春秋旅游副总经理周卫红表示,随着更多客源地的境外游客得以通过更便捷的方式来到中国,了解、感受中国的开放态度、全球胸怀,旅游企业也将结合更多体验性的文化内容,设计丰富多样的出入境游新品。同时,澳大利亚、新西兰也有着很多华人华侨,单方面免签的推出,在方便他们回国探亲访友之余,同时也可以通过旅游,来看看中国发生的深刻变化,体验丰富多彩的生活和文化。

格莱美来了也要拎两箱酸酸乳走

  经查,王一新丧失理想信念,背弃初心使命,结交政治骗子,对抗组织审查;违背组织原则,隐瞒不报家庭房产情况,在组织谈话时不如实说明问题,违规选拔任用干部并收受财物;违规收受礼金,接受私营企业主低价装修,利用职权为特定关系人谋取利益,搞权色、钱色交易;道德败坏;以权谋私,大搞权钱交易,利用职务便利为他人在土地开发、项目承揽等方面谋利,并非法收受巨额财物。

一个人跳舞

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。

男子一周吃次火锅查出食管癌

  连日来,受高温少雨天气影响,黄河流域甘肃、内蒙古、山西、陕西、河南、山东等省(区)出现不同程度的旱情。针对流域相关省(区)旱情,黄河防总和水利部黄河水利委员会(简称黄委)第一时间分别启动抗旱四级响应和干旱防御Ⅳ级应急响应;自6月14日17时起,针对河南省启动干旱防御Ⅲ级应急响应;要求各相关单位落实落细各项抗旱保供水措施,做好旱情持续或进一步发展的应对准备。

习近平主席中亚之行高光时刻

  携程集团副总裁秦静认为,随着这一政策的施行,将加速中国与澳大利亚之间的旅游交流及经贸互动。同时,政策也将惠及在澳大利亚生活的逾百万华人华侨,使得他们回国探亲或旅游的过程更为简便顺畅。秦静指出,作为亚太地区的重要国家,中国与澳大利亚在经济上具有高度的互补性,合作潜力巨大,未来也期盼在旅游领域激发更强劲的合作动力。

留英博士迷奸多人想化学阉割减刑遭拒

  但随着税收征管能力不断强化,税收征收率不断提高,企业实际税负正在逐步接近名义税负,在当前经济形势下,企业痛感会更明显,一些企业如果不能承担可能会选择停业,这不仅影响就业,更会对宏观经济运行带来负面影响。/p>

评论圈智搜分享大赛

  据携程数据,今年以来,澳大利亚位列中国入境游第5大客源国,入境旅游订单同比增长155%,澳大利亚到中国的航班数量同比增幅超过220%。澳大利亚游客来中国的热门目的地包括上海、广州、北京、成都、深圳、杭州、重庆、厦门、南京和西安。在即将到来的暑假,澳大利亚-中国的机票均价较去年同期降低近三成。/p>

奔跑吧最后一次录制

  [环球时报报道 记者 倪浩]8月3日,郑钦文夺得2024巴黎奥运会网球女单冠军,实现中国选手在该项目上的历史性突破,也点燃了民众参与网球运动的热情,网球热度随之大涨。接受《环球时报》记者采访的专家认为,体育明星与体育经济会形成正向反馈:体育明星的示范效应会提振相关体育产业、吸引更多人参与到运动中来,大众的广泛参与则会成为“未来明星运动员”诞生的基石。