Meta首席AI科学家 LLM无法:孕!!育真正“智能”

2025-07-29 15:23:09      来源:聊城新闻网

LLM用得越久,速度越快!Emory大学提出SpeedupLLM框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时推理成本降低56%,准确率提升,为AI模型发展提供新思路。

在人类的认知世界里,熟练意味着更快、更高效。

比如看似复杂的魔方,只需训练几十次后便能「盲拧」;而面对一道做过几遍的数学题,我们往往能在脑海中迅速复现思路,几秒内作答。

那,大语言模型也能这样吗?

Emory大学的研究者BoPan和LiangZhao最近发布了一篇令人振奋的成果:大语言模型的性能,也和熟练度有关,确实能「越用越快」!

论文地址:https://arxiv.org/abs/2505.20643

论文首次系统性地验证了LLM在「有经验」的条件下,不仅性能不降,反而能大幅减少推理时间和计算资源,揭示了「AI也能熟能生巧」的全新范式。

如何让LLM变熟练?

为系统验证「熟练加速效应」,作者提出一个统一框架,构造并量化三类记忆机制下的「使用经验」。

该框架由两部分组成,一是推理时动态计算资源分配,二是记忆机制。

对于动态计算资源分配,该文章系统性将多种已有test-timescaling方法扩展成动态计算资源分配,从而允许LLM在熟练的问题上分配更少的计算资源。

对于记忆机制,该框架引入记忆机制,从而实现通过过往经验加速当前推理。

在多轮使用中,大模型是否能像人类一样「从经验中变快」?是否存在一种方法,能系统性地提升效率,而非单纯堆算力?

研究亮点1:用经验节省算力

在任务重复或相似的推理过程中,研究者发现LLM通过利用以往经验(包括memorycache、in-contextmemory等),可以实现减少高达56%的推理预算,保持甚至提升准确率。

这意味着模型在处理「熟悉」的任务时能少走很多弯路,不仅答得准,还答得快。

研究亮点2:系统性大规模实验

为了验证普适性,研究者考察了:

多种test-timescaling方法,包括Self-Refine、Best-of-N、Tree-of-Thoughts和当前最新的LongChain-of-Thought(o1式思考)

多种记忆,包括监督学习(SupervisedFine-tuning)、检索过去经历、三种自我反思(Reflection)

多种问题相似度,包括LLM在1)完全相同、2)意思一样仅表述不同、3)题目一样,仅换数字、4)不同题目但需要相同知识回答。

不同机制均表现出显著的推理加速,展示了这一现象的广泛性。

实验结果

在「重复问答」、「分步推理」等任务中,越是「重复」,模型推理越快,效果越好。而且,这种趋势随着经验积累更加明显。

实验结果带来了以下八大关键发现:

发现一:LLM真的可以「越用越快」!

实验结果表明,在配备适当记忆机制和计算预算调控策略的前提下,LLM在处理重复或相似任务时,平均可节省高达56%的推理开销,且这一行为在80组实验设置中有64组都出现了显著的加速现象,覆盖率高达80%,验证了「经验式加速」具有普适性。

发现二:越快≠越差,反而更准!

令人惊喜的是,推理成本的下降不仅没有牺牲准确率,反而普遍带来了准确率的提升。实验测得推理成本与准确率提升之间的Pearson相关系数为-0.41(p=0.0002),这表明「更快」也意味着「更稳」「更准」。

发现三:相似度越高,提速越明显

研究设计了4个相似度等级,从完全重复(S1)到结构变化大(S4)。结果发现,S1和S2类问题下的加速最显著(分别节省16.0%和15.4%计算),而S4问题由于结构不同、记忆不具备直接迁移性,加速效果最弱。

发现四:问题相似度低时,记忆机制可能反噬

当问题间差异过大时,记忆机制可能误导模型走错方向,导致推理成本反升、准确率反降。这种现象在部分S4设置中显著,提示我们记忆并非越多越好,而应「选得准、用得巧」。

发现五:情节记忆反思记忆,更能加速推理

在不同记忆机制对比中,情节式记忆(如SFT和In-Context)在推理加速上表现更佳。例如In-Context平均节省27.4%计算,而反思类记忆仅为3.6%~8.8%。这与心理学研究一致:人类在形成熟练技能时,最初依赖的是具体实例的情节记忆。

发现六:In-Context比SFT更高效

在低样本(1~3轮)场景下,In-Context学习相比SFT更具泛化能力、更少过拟合,尤其在本研究的推理速度上,In-Context更快、更稳、更准,展现了非参数记忆的强大即时适应力。

发现七:文本记忆易「触顶」,参数记忆可持续提速

反思类与In-Context等文本记忆方法存在上下文窗口的「瓶颈」,在加入3个案例后效果逐渐饱和;相比之下,SFT通过权重更新记忆内容,不受窗口限制,推理速度随经验持续提升。

发现八:越「泛化」的反思,提速越明显

三种反思机制中,Reflect-Update表现最佳。原因在于它能持续总结抽象规则,而不是堆积具体数字或案例。这种「泛化性强」的反思更容易跨任务迁移、辅助加速,未来设计更好反思机制时值得关注。

让LLM拥有「记忆力」和「熟练度」

这项研究提出了一种值得重视的新范式:

推理效率不只是堆硬件,也能靠「学习历史」提升。

在客服、搜索、问诊等反复场景中,部署「记忆型LLM」将带来:更低的响应延迟、更少的算力消耗、更强的适应性和个性化。

这项研究不仅补足了现有推理加速研究的空白,更为构建「具备人类熟练性」的AI模型提供了新思路。

  钟自然出生于1962年8月,安徽桐城人,曾在原地质矿产部和原国土资源部工作多年,2014年任原国土资源部党组成员,中国地质调查局局长、党组书记。

责编:林嘉绮编辑

跳楼机好不容易升咖又打回原形了

  常年打球的张先生告诉《环球时报》记者:“在郑钦文夺冠前的这几年,网球运动在大众层面一直是向上走的态势,加入网球运动行列中的人不断增多。”张先生分析,这也许跟网球是隔网运动有关,因此在疫情期间受到欢迎。

一组数据看懂中国外资吸引力

  [环球时报综合报道]“一段时间以来,比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称,美银证券汽车产业分析师约翰·墨菲当天在美国汽车媒体协会有关活动中表示,美国底特律三巨头(即通用汽车、福特汽车和斯特兰蒂斯)应“尽快”退出中国市场。他同时警告说,美国三大车企需要采取更严厉的措施削减开支,尤其是在内燃机业务方面,因为这是目前利润的主要来源。

中学领导侵吞学生伙食费万元

  张先生告诉《环球时报》记者,近年来走入网球馆和网球场的人越来越多,这一现象在郑钦文夺冠后更加明显,其中尤以青少年人群为多。

常州队全员业余球员硬刚苏超

  据国际网球联合会发布的《2021年全球网球报告》,2021年全球参与网球运动的人口有8718万人,中国以1992万人成为全球网球参与人数排名第二的国家,仅次于美国,占全球总网球人口的22.9%。同时,中国网球场的数量也为全球第二,达49767个。网球教练则以11350人位居全球第五。

李沐宸因家庭变故至今还在还债

  据英国政府13日发表声明称:“今天的行动包括英国首次针对俄罗斯总统‘影子舰队’中的船只实施制裁,俄罗斯利用这些船只规避英国和七国集团(G7)的制裁,并继续不受限制地进行石油贸易。”这些新制裁还针对俄罗斯军方的弹药、机床、微电子和物流供应商,包括位于中国、以色列、吉尔吉斯斯坦和俄罗斯的实体。声明写道,英国首相苏纳克在意大利参加G7峰会时宣布了这些新的制裁措施,“这将削弱俄罗斯为其战争机器提供资金和装备的能力”。

向太说自己和郭碧婷的个性很像

  但随着税收征管能力不断强化,税收征收率不断提高,企业实际税负正在逐步接近名义税负,在当前经济形势下,企业痛感会更明显,一些企业如果不能承担可能会选择停业,这不仅影响就业,更会对宏观经济运行带来负面影响。/p>

汪峰回应与宁静牵手

  [环球时报特约记者 任重]英国政府当地时间13日以“打击普京的战争机器”为由宣布50项新制裁,对象包括5家中国实体。中国驻英国使馆发言人当天回应说,英国政府罔顾国内国际民意,不断火上浇油,不但没有反思自己的恶劣行径,反而罗织罪名制裁中国及其他国家企业,充分暴露了英方的虚伪嘴脸。中方敦促英方立即纠正错误,撤销对中国企业的制裁。/p>

买件衣服不能试穿回家发现穿不上

  北京、上海、广州是3大全方位门户复合型功能的国际航空枢纽,成都、深圳、重庆、昆明、西安、乌鲁木齐、哈尔滨是7大区位门户复合型功能的国际航空枢纽。