电车维修“天价单” 12万换个电池:包够买辆新、车

2025-07-24 00:20:52      来源:开封网

Grok4跑分提前泄露,在「人类最后考试」中高达45%的得分,远超Gemini与Claude,成为当前测试中最强模型之一。马斯克表示Grok4以「第一性原理」构建推理机制,Grok4有望改写LLM格局。

Grok4马上就来,马斯克说的!

甚至,现在部署的Grok,已经在能力上有了显著的提升。

与此同时,网友LEGIT的一张截图,更是直接泄露了Grok4和Grok4Code在多个关键基准评测上的跑分。

目前,这一消息已经得到了AI圈知名大佬TiborBlaho的确认。

根据泄露的数据,Grok4在GPQA、AIME25和SWE-bench评测中可谓是「遥遥领先」,全面碾压谷歌Gemini2.5Pro、OpenAIo3和Claude4Opus。

GPQA(研究生级物理和天文学问题):Grok4得分87-88%,略优于Gemini2.5Pro的86.4%,明显超过Claude4Opus的79.6%。

AIME25(2025美国数学邀请赛):Grok4得分95%,大幅超越Claude4Opus的75.5%,并优于OpenAIo3的88.9%。

SWE-bench(真实软件工程问题):Grok4Code得分72-75%,略优于ClaudeOpus4的72.5%,略高于OpenAIo3的71.7%。

不仅如此,Grok4还在覆盖范围最广、难度最高的终极闭卷学术基准「人类最后的考试」(HumanLastExam,HLE)上取得了默认35%、最高45%的惊人高分。

这也意味着,最强状态下的Grok4,得分是现任老大Gemini2.5Pro的2倍——高出了整整24个百分点。

相比正确率只有10.7%的Claude4Opus,成绩直接翻了4倍还多。

HLF这门考试堪称残酷,是专为挫败LLM的锐气而设计:

横跨100多个学科的2,500道专家级试题

14%为多模态题型(文本+图像)

24%的问题为多项选择题

设有防记忆陷阱和隐藏测试集,用于阻止「作弊式训练」

下图是所含知识的高层次可视化图表,其中的每个类别还包含有很多具体学科。

项目主页:https://lastexam.ai/

要知道,大多数前沿模型在这一分数面前都望尘莫及。

如果此次泄露属实,那么Grok4就算闯过了AI基准测试领域最难的关卡之一。

由于在HLF的得分异常地高,Grok4的发布再度引起了社区的广泛讨论。

是的,如果属实,这意味着该模型具有极其强大的世界知识。

看到如此之强的Grok4,网友们已经迫不及待了,纷纷在线催更:

Grok4源代码泄露

大家对于Grok4的期待可以说是完全拉满了。

马斯克此前的采访中,曾经透露说。

Grok3.5正在尝试从第一性原理出发进行推理,也就是将物理学的方法应用到思维过程中。

Grok-3.5正是如今的Grok4,老马决定一步到位,从Grok-3直接到Grok4,不再挤牙膏了。

这似乎预示着Grok4的能力会非常大的突破!

几天前,X上就有人发现在xAI控制台源代码中发现的2个Grok4模型:Grok4和Grok4Code

Grok4:

最新、最卓越的旗舰模型,在自然语言、数学及推理领域展现出无与伦比的性能,堪称万能的完美之选

Grok4Code:

专为编程伴侣量身打造的模型。可以向它咨询代码相关的问题,或直接将其嵌入到代码编辑器中

也有人持怀疑态度

当然也有人似乎是被之前Grok3的炒作「伤透了心」。

HLE的创建者DanHendrycks是xAI的亲密顾问(相比其他实验室而言)。

网友们想知道DanHendrycks是否只提供了安全方面的建议,还是以某种方式给出了增强科学知识细节的具体研发建议。

这不禁让人们联想到此前Llama4的翻车闹剧,也是因为提前进行了「针对性的训练」。

马斯克亲自带货

马斯克曾在6月27日发帖称,正和团队加班加点的研发Grok。

将在7月4日后发布Grok4,按照美东时间,今天开始,任何时候都有可能见证Grok4的发布。

马斯克特地强调了,需要一次大型训练来开发了「特殊」的编码模型。

在5月20日的微软Build2025大会上,马斯克现场讲述了Grok3.5(Grok4)将从第一性原理出发进行构建。

马斯克:

尤其是在即将发布的Grok3.5中,我们的目标是让模型从第一性原理出发进行推理。

也就是说,像物理学家那样思考,借用物理的工具来分析问题。

如果你想要探寻事物的本质真相,就必须把问题分解到最基本、最可能正确的公理层面,然后再从这些基础出发向上推理。

接着,你可以将最终结论与这些基本原理进行校验。在物理学中,如果你得出的结果违反了能量守恒或动量守恒,那你要么发现了诺奖级别的新理论,要么——更可能的是——你搞错了。

所以我们打造Grok3.5的核心目标,就是以物理的基本原理为指导,应用这些方法来推理各种问题,力求以最小的误差,接近真实。

当然,出错是难免的,但我们的目标是持续减少这些错误。这个方向对于AI安全至关重要。

我长久以来都在思考AI安全问题,而我最终得出的结论,其实可以用一句老话来概括:诚实是最好的策略。

这不仅是道德要求,更是安全保障。当然我们也会犯错,但我们承诺会尽快修正这些错误。

我们也非常期待来自开发者社区的反馈——你们需要什么?我们哪里做错了?又该如何改进?

我们希望Grok成为一个令开发者充满期待的工具,一个他们的声音能真正被听到的平台。

Grok将不断进化,努力满足开发者的需求。

编码能力成为必争之地

根据GrokAPI此前的模型推测,这次Grok4Code将是发布的重头戏,也许还会有Grok4mini。

马斯克特地提到Grok4的编码能力,也是受到如今各家的影响,编码能力称为了衡量新模型的试金石。

谷歌

Gemini2.5包括改进的代码生成、复杂代码重构/转换、上下文管理、更好的PR评审能力,以及可定制命令等。

GeminiCLI是近期推出的命令行AI助手,基于Gemini2.5Pro,可处理长达百万token的上下文,支持包括代码编写、调试、内容生成和任务管理于一体的多功能开发体验。

Anthropic

Claude4(包含Opus与Sonnet)是Anthropic迄今最强大的模型系列,显著提升编码与AIagent能力。

ClaudeCode专注于终端环境使用,提供从代码编辑、问题修复、架构理解,到运行测试、lint、git操作、PR创建的一站式工具。

OpenAI

新版Codex是基于OpenAIo3微调而来的,用于自然语言翻译代码,延续迄今生成工具(如GitHubCopilot)的核心能力。

DeepSeek

DeepSeek‑R1‑0528是DeepSeek推出的R1最新版本,定位为全能推理与编码能力提升模型。

既然老马着重提到了编码能力,那么也许这次是值得期待的。

  针对目前的旱情,河南省水利厅于6月14日17时将水旱灾害防御(抗旱)Ⅳ级应急响应提升至Ⅲ级,并密切监视雨情、水情、旱情,科学精准调度水利工程,加强灌溉用水管理,细化落实各项供水保障措施,确保城乡居民饮水安全,最大程度减轻干旱灾害损失。

责编:栋妙春编辑

大学生感染情况

  2013年,早在“一带一路”倡议提出时,对新疆的定位是:丝绸之路经济带上重要的交通枢纽、商贸物流和文化科教中心,打造丝绸之路经济带核心区。对陕西、甘肃、宁夏、青海的定位则为:面向中亚、南亚、西亚国家的通道、商贸物流枢纽、重要产业和人文交流基地。

官方调查那尔那茜

  在会见国泰集团行政总裁林绍波时,自治区党委书记马兴瑞表示,希望国泰集团发挥优势,和新疆共同运行好直航航线,不断提升吸引力和可持续性。着眼更大范围、更宽领域拓展双方互利合作,助力新疆经济社会加快发展,打造亚欧黄金通道和向西开放桥头堡。用好新疆区位优势,积极开拓中亚等区域市场,实现更大发展。

习近平主席中亚之行高光时刻

  [环球时报报道 记者 倪浩]8月3日,郑钦文夺得2024巴黎奥运会网球女单冠军,实现中国选手在该项目上的历史性突破,也点燃了民众参与网球运动的热情,网球热度随之大涨。接受《环球时报》记者采访的专家认为,体育明星与体育经济会形成正向反馈:体育明星的示范效应会提振相关体育产业、吸引更多人参与到运动中来,大众的广泛参与则会成为“未来明星运动员”诞生的基石。

定向委培违约计入个人诚信档案

  国家体育总局体育文化与体育宣传发展战略研究中心高端智库骨干专家、广州体育学院教授曾文莉告诉《环球时报》记者,体育具有较强的杠杆效应,以体育赛事表演为杠杆,能撬动城市基建、旅游、文化等,激活体育消费热情,推动体育产业能级提升,而这个杠杆的原动力主要是运动员尤其是明星运动员。

马嘉祺难听

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。

可乐饼

  游盈隆表示,赖清德上任第一个月,只获不到半数台湾民众的支持,赖清德社会支持基础的流失是全面性的,不同程度的。游盈隆指出,根据相关经验证据,近一个月赖清德社会支持基础的流失主要原因至少有三:/p>

马嘉祺难听

  坚持因地制宜、科学抗旱,河库灌区及时开闸放水,增加流量,采取疏通渠道、维修涵闸等措施,做到远送多浇、有水可浇;引黄灌区根据抗旱需水情况,及时开闸放水,争取多引黄河水;平原灌区发挥机电井作用,采取有效措施保障机井通电,并组织投入各类排灌机械179.4万台,努力增加抗旱播种面积。丘陵岗区利用坑、塘、堰、坝等小型水利工程组织抗旱播种。夏播以来,全省累计抗旱浇水7977.3万亩次,播种进度与常年相当。/p>

手机之家向小米公开致歉

  一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。