大模型的:aha moment不是装||腔作势 内部信息量暴增数倍

2025-07-23 07:19:17      来源:南方周末

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEETPAMI、ArtificialIntelligence和顶级会议ICML、NeurIPS等。

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait,letmethink」、「Therefore…」这些看似「人类化」的思考词。

但一个灵魂拷问始终存在:这些词真的代表模型在「思考」,还是仅仅为了「表演」更像人类而添加的语言装饰?是模型的「顿悟时刻」,还是纯粹的「烟雾弹」?

现在,实锤来了!来自中国人民大学高瓴人工智能学院、上海人工智能实验室、伦敦大学学院(UCL)和大连理工大学的联合研究团队,在最新论文中首次利用信息论这把「手术刀」,精准解剖了大模型内部的推理动态,给出了令人信服的答案:

当这些「思考词」出现的瞬间,模型大脑(隐空间)中关于正确答案的信息量,会突然飙升数倍!

这绝非偶然装饰,而是真正的「信息高峰」与「决策拐点」!更酷的是,基于这一发现,研究者提出了无需额外训练就能显著提升模型推理性能的简单方法,代码已开源!

论文题目:DemystifyingReasoningDynamicswithMutualInformation:ThinkingTokensareInformationPeaksinLLMReasoning

论文链接:https://arxiv.org/abs/2506.02867

代码链接:https://github.com/ChnQ/MI-Peaks

核心发现一:揭秘大模型推理轨迹中的「信息高峰」现象

研究者们追踪了像DeepSeek-R1系列蒸馏模型、QwQ这类擅长推理的大模型在解题时的「脑电波」(隐空间表征)。他们测量每一步的「脑电波」与最终正确答案的互信息(MutualInformation,MI),并观察这些互信息如何演绎变化。

惊人现象出现了:模型推理并非匀速「爬坡」,而是存在剧烈的「信息脉冲」!在特定步骤,互信息值会突然、显著地飙升,形成显著的「互信息峰值」(MIPeaks)现象。这些峰值点稀疏但关键,如同黑暗推理路径上突然点亮的强光路标!

这意味着什么?直觉上,这些互信息峰值点处的表征,模型大脑中那一刻的状态,蕴含了更多指向正确答案的最关键信息!

进一步地,研究者通过理论分析证明(定理1&2),推理过程中积累的互信息越高,模型最终回答错误概率的上界和下界就越紧,换言之,回答正确的概率就越高!

既然互信息峰值的现象较为普遍地出现在推理模型(LRMs)中,那么非推理模型(non-reasoningLLMs)上也会表现出类似的现象吗?

为了探索这一问题,研究者选取了DeepSeek-R1-Distill系列模型和其对应的非推理模型进行实验。如上图橙色线所示,在非推理模型的推理过程中,互信息往往表现出更小的波动,体现出明显更弱的互信息峰值现象,且互信息的数值整体上更小。

这表明在经过推理能力强化训练后,推理模型一方面似乎整体在表征中编码了更多关于正确答案的信息,另一方面催生了互信息峰值现象的出现!

核心发现二:「思考词汇」=「信息高峰」的语言化身

那么,这些互信息峰值点处的表征,到底蕴含着怎样的语义信息?

神奇的是,当研究者把这些「信息高峰」时刻的「脑电波」翻译回人能看懂的语言(解码到词汇空间)时,发现它们最常对应的,恰恰是那些标志性的「思考词」:

反思/停顿型:「Hmm」、「Wait」…

逻辑/过渡型:「Therefore」、「So」…

行动型:「Let」、「First」…

例如,研究者随机摘取了一些模型输出:「Wait,letmethinkdifferently.Let’sdenote...,」「Hmm,soImusthavemadeamistakesomewhere.Letmedouble-checkmycalculations.First,...」

研究团队将这些在互信息峰值点频繁出现、承载关键信息并在语言上推动模型思考的词汇命名为「思考词汇」(thinkingtokens)。它们不是可有可无的装饰,而是信息高峰在语言层面的「显灵」,可能在模型推理路径上扮演着关键路标或决策点的角色!

为了证明这些tokens的关键性,研究者进行了干预实验,即在模型推理时抑制这些思考词汇的生成。

实锤验证:实验结果显示,抑制思考词汇的生成会显著影响模型在数学推理数据集(如GSM8K、MATH、AIME24)上的性能;相比之下,随机屏蔽相同数量的其他普通词汇,对性能影响甚微。这表明这些存在于互信息峰值点处的思考词汇,确实对模型有效推理具有至关重要的作用!

启发应用:无需训练,巧用「信息高峰」提升推理性能

理解了「信息高峰」和「思考词汇」的奥秘,研究者提出了两种无需额外训练即可提升现有LRMs推理性能的实用方法。

应用一:表征循环(RepresentationRecycling-RR)

启发:既然MI峰值点的表征蕴含丰富信息,何不让模型「多咀嚼消化」一下?

方法:在模型推理过程中,当检测到生成了思考词汇时,不急于让其立刻输出,而是将其对应的表征重新输入到模型中进行额外一轮计算,让模型充分挖掘利用表征中的丰富信息。

效果:在多个数学推理基准(GSM8K、MATH500、AIME24)上,RR方法一致地提升了LRMs的推理性能。例如,在极具挑战性的AIME24上,DeepSeek-R1-Distill-LLaMA-8B的准确率相对提升了20%!这表明让模型更充分地利用这些高信息量的「顿悟」表征,能有效解锁其推理潜力。

应用二:基于思考词汇的测试时扩展(ThinkingTokenbasedTest-timeScaling-TTTS)

启发:在推理时如果允许模型生成更多token(增加计算预算),如何引导模型进行更有效的「深度思考」,而不是漫无目的地延伸?

方法:受启发于前人工作,作者在模型完成初始推理输出后,如果还有token预算,则强制模型以「思考词汇」开头(如「Therefore」、「So」、「Wait」、「Hmm」等)继续生成后续内容,引导模型在额外计算资源下进行更深入的推理。

效果:当token预算增加时,TTTS能持续稳定地提升模型的推理性能。如图所示,在GSM8K和MATH500数据集上,在相同的Token预算下,TTTS持续优于原始模型。在AIME24数据集上,尽管原始模型的性能在早期提升得较快,但当token预算达到4096后,模型性能就到达了瓶颈期;而TTTS引导下的模型,其性能随着Token预算的增加而持续提升,并在预算达到6144后超越了原始模型。

小结

这项研究首次揭示了LRMs推理过程中的动态机制:通过互信息动态追踪,首次清晰观测到LRMs推理过程中的互信息峰值(MIPeaks)现象,为理解模型「黑箱」推理提供了创新视角和实证基础。

进一步地,研究者发现这些互信息峰值处的token对应的是表达思考、反思等的「思考词汇」(ThinkingTokens),并通过干预实验验证了这些token对模型推理性能具有至关重要的影响。

最后,受启发于对上述现象的理解和分析,研究者提出了两种简单有效且无需训练的方法来提升LRMs的推理性能,即表征循环(RepresentationRecycling-RR)和基于思考词汇的测试时扩展(ThinkingTokenbasedTest-timeScaling-TTTS)。

研究者希望这篇工作可以为深入理解LRMs的推理机制提供新的视角,并进一步提出可行的方案来进一步推升模型的推理能力。

  要解决这一问题,放松税收征管并非良策,因为这不仅涉及税务机关工作人员渎职问题,也影响社会公平,毕竟各地税务机关征管力度不一,将影响企业公平竞争,有违全国统一大市场构建。

责编:胡台泰编辑

以色列升级全国戒备状态

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。

小腿后面突然开始收紧

  中央要求谋划新一轮财税改革,税制改革是重头戏,未来增值税、消费税、个税等主要税种还将有进一步改革举措。笔者呼吁,在税收征管不断强化的同时,为促进企业、个人实际税负维持在合理水平,未来税制改革应当统筹考虑降低名义税率。

特朗普称打击伊朗处核设施

  第三,新的台行政机构刚上路,即遇上立法机构改革风暴,尚无亮丽表现。再加上若干“部会”状况不少,屡成媒体议论焦点,如台内务主管部门、经济主管部门、“海委会”等。

美洲偶遇王一博

  十二届四川省委科技委员会第一次会议,有多个重要议题,包括“学习中央科技委员会有关会议精神”“审议《省委科技委员会工作规则》等文件”。

中国冥币在海外杀疯老外烧个不停

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。

汪峰回应与宁静牵手

  世界经济论坛官网17日刊文称,中国已成为全球最大的电动汽车市场,中国车企生产的电动汽车占全球电动汽车总产量的一半以上。而在这一市场上,墨菲和其他分析师认为,美国车企当下很难抵挡中国自主品牌的实力。墨菲说,消费者现在对中国自主品牌的“忠诚度”很强,尤其是在美国对中国电动汽车征收超过100%的关税后,这种“忠诚度”可能会变得更加强烈。/p>

向太回应给郭碧婷在老家买地

  当地时间8月29日,巴黎残奥会首个比赛日。在伊夫林省圣康坦自行车馆,中国队选手李樟煜上演了一场“速度与激情”。男子C1级3000米个人追逐赛资格赛,他以3:31.338的成绩刷新该项目世界纪录。决赛中,李樟煜状态火热,夺得金牌,这也是中国体育代表团在本届残奥会上获得的首枚金牌。另一位中国队选手梁伟聪摘得银牌,恭喜中国队包揽该项目金银牌!/p>

逆袭

  中国驻英国使馆发言人强调,在乌克兰问题上,中国的立场是劝和促谈,坚定不移,一以贯之。为此,中国和巴西最近联名发表了关于推动政治解决乌克兰危机的“六点共识”,强调遵守局势降温三原则,即战场不外溢、战事不升级、各方不拱火,同时呼吁各方坚持对话谈判、加大人道主义援助、反对使用核武器、反对攻击核电站、维护全球产业链供应链稳定等。