【刚刚】 马斯:克发布Grok 4 全榜第一 年?费飚到2万

2025-07-27 10:46:54      来源:中国台州网

机器之心报道

机器之心编辑部

所有学科都是博士后水平。

酝酿良久的xAI下一代大模型——Grok4终于发布了!能力超乎我们想象。

北京时间今天中午12点左右,我们期待已久的xAI发布会终于开始,马斯克现身直播间,他上来就说:「这是世界上最好的AI,让我们来展示一下。」

马斯克表示,Grok4每次都能在SAT考试(美国高考)中获得满分,无需事先查看题目,它也可以做到GRE任何学科接近满分,超过了全世界所有研究生的水平。Grok4最强大的地方是其推理能力,它已经实现了超越人类的推理水平。

马斯克相信,Grok4可以在今年内实现科学新发现。

得益于计算能力的增强、强化学习的训练,Grok4的推理能力相较于前代提升了10倍。从Grok2到Grok4,采用的技术范式不同,分别为下一个token预测、预训练计算、预训练+RL、RL计算。

其中,Grok2到Grok3预训练阶段的计算量提升了10倍,Grok3reasoning首次引入了RL微调,带来了深度推理能力。Grok4reasoning的强化学习再度提升了10倍的计算量,这意味着显著的推理能力提升。

另外因为调用工具能力的提升,Grok4进一步放大了自身智慧。因此可以在各类高难度Benchmark上实现远超SOTA的成绩。

接下来是重头戏:Grok4的基准测试结果。

首先是HLE(HumanitiesLastExam,人类最后的考试),包括数学、化学和逻辑学。在上周六泄露的基准测试结果中,Grok4在HLE(HumanitiesLastExam,人类最后考试)上的标准得分是35%,使用推理技术后提高到45%,但多数网友持质疑态度。

在今天的直播中,xAI研究人员表示,以往的SOTA模型在使用工具(withtool)的情况下,成绩最高可以达到41.0%。

如今,Grok4进一步提升了这一基准测试成绩。

具体来讲,与其他SOTA模型(o3、Gemini2.5Pro)相比,在使用工具的情况下,Grok4的成绩为38.6%,Grok4Heavy的成绩飙升到了44.4%。如果让大模型在测试时花费更多时间思考,并恰当的使用更多外部工具,则HLE的分数还能进一步提升到50.7%。

关于其他更多基准测试结果,包括GPQA(研究生级别的Google验证问答基准测试)、AIME25(美国数学竞赛邀请赛)、LCB(Jan-May)(编程竞赛/在线算法竞赛)、HMMT25(高中生团队数学竞赛)和USAMO25(美国顶级高中生数学竞赛)。从下图可以看到,Grok4Heavy均取得了最新SOTA。

相比之下,人类面对HLE测试也几乎答不上几个题。马斯克多遍强调:Grok现在在所有学科都达到了博士后水平,没有例外。它没有发现新科学或是新的物理定律,但这只是一个时间问题。

「如果Grok在今年内没有发现实用的新科学技术,我会感觉很意外,」马斯克表示。

大模型性能评估平台ArtificialAnalysis的全套基准测试成绩表明,Grok4已经成为当前领先的AI模型,总成绩达到了73分,领先于o3、Gemini2.5Pro、Claude4Opus、DeepSeekR10528。

想象一下我们现在处在的位置,我们正处于智能发展的大爆炸过程中,这是人类历史上前所未见的。是时候看看Grok4具体能做些什么了。

我们来看一两个demo,比如「基于物理原理的HTML动画,模拟两个黑洞碰撞并产生引力波的30秒可视化效果」:

Grok4几乎完整地呈现了从两个黑洞接近到最后合并结束的引力波模拟效果。动图的一边是推理过程和计算的步骤和代码,查阅的论文每一篇都有链接。

Grok4的多面手属性更强了

除了各大语言基准成绩的提升,Grok4在其他方面同样得到了加强。

其中,Grok4的语音能力相较于上代速度快了2倍,端到端延迟更低;支持5种语音;单日用户总停留时长提升了10倍。

新增的Grok角色Eve和Sal现已可在iOS版Grok中使用,Sal支持多种性格,Eve可以唱歌和低语。

在ARC-AGI基准测试集中,它专门设计用于评估人工智能系统通用推理能力,被视为通向AGI的重要试金石,旨在检验模型是否能像人类一样灵活解决从未见过的新问题。

在这个直指AGI核心能力的超难基准上,Grok4同样取得了最新SOTA,其中在ARC-AGI-2上达到15.9%,几乎将之前的商业SOTA翻了一番,并超越了当前的Kaggle竞赛SOTA。

在Vending-Bench基准测试中,它专注于评估智能体在真实物理世界中执行复杂操作任务的能力,其核心目标是解决传统模拟环境(如Habitat、AI2-THOR)与真实世界间的「Sim2RealGap」(仿真到现实的鸿沟),推动机器人技术在开放场景中的实际应用能力。

可以看到,Grok4相较于ClaudeOpus4、Human、Gemini2.5Pro、o3取得了领先。

Grok4可通过API调用,提供256Ktokens的上下文窗口。目前已经开放使用,版本号为grok-4-0709,价格与Grok3相同。

根据ArtificialAnalysis的测试,xAI的API当前以每秒75个token的速度提供Grok4服务,速度虽不及o3(每秒188个token),但优于Claude4OpusThinking(每秒66个token)。

最后是游戏体验,DannyLimanseta在4小时内用Grok4制作了一款FPS射击游戏,Grok不仅可以用于制作游戏,还能实际运行游戏,洞察优秀游戏的要素并提出改进建议。看着效果真的挺不错。

下一步,xAI预计还将发布代码模型、多模态智能体以及视频生成模型,看起来新产品发布要达到月更的速度。

目前,Grok4已经上线,不过需要付费使用,而且价格相当昂贵。其付费模式分为年付和月付两种,其中SuperGrok是每年300美元(折合人民币约2154元),SuperGrokHeavey则是每年3000美元(折合人民币21540元)。

官网链接:https://grok.com/

  第二,议程设置失灵。新任领导刚上任,却没有提出让民众有感的重大改革行动,欠缺议程设置能力,迄未展现其领导能力,无法主导政治议程,反而任由蓝白“在野”党主导议题引领风潮。

责编:林兰瑄编辑

山东人将爆改

  但随着税收征管能力不断强化,税收征收率不断提高,企业实际税负正在逐步接近名义税负,在当前经济形势下,企业痛感会更明显,一些企业如果不能承担可能会选择停业,这不仅影响就业,更会对宏观经济运行带来负面影响。

张继科说没价值的原因找到了

  笔者跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。

利剑玫瑰

  参与运营北京奥林匹克森林公园西畔的国家网球中心两片红土网球场地的维宁体育创始人、CEO纪宁8日告诉《环球时报》记者:“本就稀缺的网球场馆在郑钦文夺冠后变得更加炙手可热,现在根本都约不上。”

中方回应美国或准备袭击伊朗

  王一新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予王一新开除党籍处分;由国家监委给予其开除公职处分;终止其黑龙江省第十三次党代会代表资格;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

纪凌尘还留着年前的画

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

父母去世岁大哥一人供出个大学生

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。/p>

大补货后黄牛发声

  除了国际航线网络的短板,乌鲁木齐也缺乏国际顶级航司入驻。国泰航空凭借座舱、餐食、服务等方面的表现,建立起国际品牌形象,常年与新加坡航空、阿联酋航空、卡塔尔航空这样的顶级航司保持同一水准。通过国泰开航,乌鲁木齐有望在国际市场引起更多关注。/p>

周杰伦强直性脊柱炎

  靳东,1976年出生于山东省,毕业于中央戏剧学院,国家一级演员,曾获得“青年五四奖章”先进个人、“全国德艺双馨电视艺术工作者”等荣誉称号。他还是第十四届全国政协委员。