KAGThinker :结构化思考新范式 支持逻辑严谨的大模型、复杂推理

2025-07-23 13:55:28      来源:中华网

近日,蚂蚁集团知识引擎团队协同浙江大学、同济大学正式发布了其在结构化推理领域的最新成果——KAG-Thinker模型,该模型是KAG框架的重要迭代升级,聚焦于为通用或专业领域复杂推理任务构建稳定、可解释的思考范式。

2025年以来,OpenAI推出的DeepResearch展示了大模型在复杂推理任务中多轮检索、规划推理的强大能力。随后,产学界涌现了较多以模型为中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它们的核心思路是,通过强化学习让模型自己“学会”如何检索和利用外部知识,从而让小模型也能像专家一样“思考”。然而,这些基于自然语言的推理方法就像让模型“自由发挥”,推理不严谨、过程不稳定等问题依然突出。而人类专家解决复杂问题时,往往采用结构化的思考方法,把原始问题拆解成多个可独立验证的小问题,并依次求解。受此启发,研究团队提出了KAG-Thinker,为模型的思考过程建立一套清晰、分层的“脚手架”,从而提升复杂任务中推理过程的逻辑性与稳定性。

该模型延续了KAG框架LogicalForm自然语言与逻辑函数双语义表示机制,以更好地利用结构化知识;并通过广度拆分与深度求解相结合的方式,提升问题求解的严谨性;同时引入以知识点对齐为中心的知识边界判定机制,以充分利用大模型参数化知识与外部形式化知识,并借助内容抗噪模块降低检索信息噪声,增强检索内容的可信度。

视频1KAG-Thinker与KAG框架集成,「结构化思考」引导的「深度推理」问答产品示例

最终,研究团队将上述策略集成于一个支持多轮迭代与深度推理的统一架构中,通过监督微调方法训练出KAG-Thinker7B通用模型。

实验结果显示,在7个单跳和多跳推理数据集上,其性能相较使用强化学习Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。与KAG框架集成后在多跳推理任务上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B为基模)方法。此外,模型也在医疗问答任务中验证了其在专业领域中的有效性。其他专业领域的精细化定制,可以参考其在医疗问答上的应用及表现。

图1KAG-Thinker语料合成和模型训练过程概览

模型方法

模型的架构如下图所示。模型的核心内容包括:

图2复杂问题求解概览图

广度拆分+深度求解:应对复杂决策任务

复杂多跳问题通常需拆分为多个简单子问题,以更高效地利用外部知识库进行求解,KAG-Thinker提出了一种「广度拆分+深度求解」的方法(详见图2):

广度拆分:将原始问题分解为若干原子问题,各子问题间保持逻辑依赖关系,确保拆分的准确性。每个原子问题由一个LogicalForm算子表示。每个LogicalForm具备双重表示形式——自然语言描述(Step)与逻辑表达式(Action),二者语义一致。

深度求解:针对需要检索(Retrieval)的子问题,进行深入求解,以获取充足的外部知识保障答案准确。在检索前,模型会先执行知识边界判定:若判断当前大模型自身知识已足够回答该子问题,则跳过检索;否则继续深度求解。

知识边界判定:充分利用LLM参数化知识

为充分利用大模型的参数化知识、减少不必要的检索任务,KAG-Thinker以知识点(如实体、事件)为中心定义Retrieval子任务,并通过SPO三元组限定检索粒度,以此为基础判断大模型与外部知识库的边界。

知识边界判定任务是一个无监督过程:首先让大模型直接作答子问题,再由其判断该答案是否为真实答案。此过程生成两个标签:

自然语言输出的判断结果(True/False);

答案首次出现时对应token的概率,若低于设定阈值则标记为False,否则为True。

仅当两个标签均为True时,才认为大模型自身知识足以回答该子问题,无需额外检索,可直接采用其生成的答案。

图3知识边界判定

检索内容抗噪:提升检索内容的可信度

对于必须检索的子问题,Thinker需要判断当前检索结果是否能求解出对应子问题。然而,不同检索器检索的内容参差不齐,尤其是网页检索得到的内容。

为了更好的分析检索结果,检索抗噪模块会分析每篇检索回来的文章与当前子问题的关系,去掉一些无关内容,再从剩余内容从中提取一些核心信息,作为直接给出子问题的答案还是继续进行深度检索的依据。

LogicalForm求解器

在广度拆分和深度求解时,Thinker沿用KAG框架中定义的4种LogicalForm求解器。每种LogicalForm算子的定义如图4所示。Retrieval主要解决检索类的问题,Deduce和Math主要解决推理分析类问题,Output主要用于答案汇总。

实验结果

单跳和多跳问答

为了评估模型的效果,研究团队选了7个通用的单跳和多跳推理数据集,并使用相同的检索器(E5-base-v2),Baseline选择了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用这些Baseline方法的评价指标(EM)。为了使用相同的检索器,只使用LogicalForm表示中的Step中的纯自然语言的内容。整体实验效果如表1所示。

与无检索基线相比,Thinker模型的平均性能比NaiveGeneration和CoT分别高出27.1%和34.6%。

与检索增强方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分别高出24.6%、22.6%和14.8%。

与基于强化学习的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。

具体而言,在单跳数据集中平均提升了4.5%,在多跳数据集中平均提升了3.9%。主要原因是,知识点粒度的检索任务拆解降低了检索的复杂性。

表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同数据集上的EM性能

KAG框架升级

KAGV0.8升级了知识库的能力。扩展了私域知识库(含结构化、非结构化数据)、公网知识库两种模式,支持通过MCP协议引入LBS、WebSearch等公网数据源。此外,升级了私域知识库索引管理的能力,内置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多种基础索引类型,支持开发者自定义索引&产品端联动的能力(如视频2所示)。

用户可根据场景特点选择合适的索引类型,在构建成本&业务效果之间取得平衡。在本次0.8的发版中,KAG全面拥抱MCP,提供接入公网MCP服务及在agent流程中集成KAG推理问答(基于MCP协议)的能力。

视频2可配置化的知识索引构建能力

KAG框架的应用

KAG框架V0.8版本为Thinker模型应用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器进行求解,再用Thinker模型进行答案汇总,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。这也说明KAG框架能更好的帮助Thinker模型进行求解。

表2不同模型在自建检索库上的性能

同时,针对KAG框架问题拆解不稳定的现象,也做了问题广度拆解的稳定性测试,将同一个问题,拆解两次,如果两次结果相同,则分数为1,否则为0。

实验结果如图5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique这三个数据集上的稳定性表现优于KAG-V0.87B和KAG-V0.872B。在常用的温度参数0.6和0.8下,KAGwithThinker7B+72B分别相对于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。

图5不同温度参数下不同模型稳定性测试

KAG-V0.8withThinker在三个数据集上的平均性能要优于HippoRAGV2和PIKE-RAG,详细的实验设置参考KAG-V0.8releasenotes。

虽然KAG-V0.8withThinker大幅度提升了框架的稳定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。这说明7B的Thinker模型的问题拆解能力还有所欠缺,分析BadCase发现,对于一些复杂的问题,Thinker模型的拆分能力还不够,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的妈妈是谁和JohnIii,DukeOfCleves的妈妈的妈妈是谁。

这种问题Thinker模型拆分不稳定,主要的原因有两种,第一,LLM对复杂的纯自然语言问题拆分存在不一致,第二,7B模型的泛化能力有限。为了解决这些问题,研究团队表示将来会从结构化数据中合成问题拆分样本,保证模型拆分的一致性。

表3不同框架在多跳推理上的性能表现

医疗领域的应用

为了验证该框架在专业领域的能力,研究团队在医疗领域做了一系列的改造,训练出了KAG-Med-Thinker。实验结果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,与已有的多轮规划和检索增强模型IRCoT和ReAct相比,KAG-Med-Thinker分别取得了3.95%和4.41%的显著性能提升。同时,它还比NaiveRAG自适应检索模型高出3.8%。

表4、不同模型在MedQA上的准确性

  [环球时报特约记者 任重]英国政府当地时间13日以“打击普京的战争机器”为由宣布50项新制裁,对象包括5家中国实体。中国驻英国使馆发言人当天回应说,英国政府罔顾国内国际民意,不断火上浇油,不但没有反思自己的恶劣行径,反而罗织罪名制裁中国及其他国家企业,充分暴露了英方的虚伪嘴脸。中方敦促英方立即纠正错误,撤销对中国企业的制裁。

责编:吕泽雨编辑

孟子义李昀锐并排官宣

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。

王欣瑜仍创造中国女网历史

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。

对战

  近些年我们也能看到这些举措,中国推出大规模减税降费政策,有不少是长期执行的制度性政策。比如为消除重复征税,营业税改为增值税;增值税基本税率从17%降至13%;个人所得税也通过扩大税率级距、增加专项附加扣除、提高起征点,实际降低了税负;城镇职工基本养老保险单位缴费比例降至16%等。

丝路友谊偕行致远

  第二,议程设置失灵。新任领导刚上任,却没有提出让民众有感的重大改革行动,欠缺议程设置能力,迄未展现其领导能力,无法主导政治议程,反而任由蓝白“在野”党主导议题引领风潮。

同济的专业任意选到底是怎么选

  第一,台内务问题难解。近期“在野”党主导的台立法机构改革行动,造成“朝野”关系紧张、立法机构议事冲突频传;台行政机构提复议案让行政和立法冲突浮上台面,政党纷纷走上街头诉诸群众,政局动荡、人心不安。

人之初

  “积极管理你的核心业务,这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示,虽然底特律汽车制造商需要重新思考在中国的经营方式,但美国电动汽车领导者特斯拉的情况略有不同,与传统的底特律汽车制造商相比,特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势,这有助于该公司在中国市场的发展,使其有“更大的发展空间”。(汪品植)/p>

中国网协祝贺王欣瑜晋级决赛

  去年以来,中国对多个国家单方面免签。截至目前,中方已经对法国、德国、意大利、荷兰、西班牙、瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡等国施行单方面免签;还与泰国、新加坡、马来西亚、格鲁吉亚等国互免了签证。此前的6月13日,国务院总理李强在惠灵顿总督府同新西兰总理拉克森举行会谈。李强表示,将把新西兰纳入单方面免签国家范围,希望新方为中国公民赴新提供更多便利。/p>

樱桃琥珀

  李瀚明表示,乌鲁木齐机场的国际航线虽然多,但不强。比如国际航班量占比较少,国际航班密度不够,国际航线集中在中亚、西亚。香港航线实际上是乌鲁木齐唯一一条向东直飞的国际和地区航线。