KAGThinker 结构化思考新范式 支持逻辑严谨的大模:(型复杂推)、理

2025-07-22 16:42:32      来源:嘉信盈泰官网

近日,蚂蚁集团知识引擎团队协同浙江大学、同济大学正式发布了其在结构化推理领域的最新成果——KAG-Thinker模型,该模型是KAG框架的重要迭代升级,聚焦于为通用或专业领域复杂推理任务构建稳定、可解释的思考范式。

2025年以来,OpenAI推出的DeepResearch展示了大模型在复杂推理任务中多轮检索、规划推理的强大能力。随后,产学界涌现了较多以模型为中心(Model-Centric)的方法,比如Search-R1、ReSearch等。它们的核心思路是,通过强化学习让模型自己“学会”如何检索和利用外部知识,从而让小模型也能像专家一样“思考”。然而,这些基于自然语言的推理方法就像让模型“自由发挥”,推理不严谨、过程不稳定等问题依然突出。而人类专家解决复杂问题时,往往采用结构化的思考方法,把原始问题拆解成多个可独立验证的小问题,并依次求解。受此启发,研究团队提出了KAG-Thinker,为模型的思考过程建立一套清晰、分层的“脚手架”,从而提升复杂任务中推理过程的逻辑性与稳定性。

该模型延续了KAG框架LogicalForm自然语言与逻辑函数双语义表示机制,以更好地利用结构化知识;并通过广度拆分与深度求解相结合的方式,提升问题求解的严谨性;同时引入以知识点对齐为中心的知识边界判定机制,以充分利用大模型参数化知识与外部形式化知识,并借助内容抗噪模块降低检索信息噪声,增强检索内容的可信度。

视频1KAG-Thinker与KAG框架集成,「结构化思考」引导的「深度推理」问答产品示例

最终,研究团队将上述策略集成于一个支持多轮迭代与深度推理的统一架构中,通过监督微调方法训练出KAG-Thinker7B通用模型。

实验结果显示,在7个单跳和多跳推理数据集上,其性能相较使用强化学习Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4.1%。与KAG框架集成后在多跳推理任务上超越HippoRAGV2、PIKE-RAG等In-ContextLearning(以Qwen2.5-72B为基模)方法。此外,模型也在医疗问答任务中验证了其在专业领域中的有效性。其他专业领域的精细化定制,可以参考其在医疗问答上的应用及表现。

图1KAG-Thinker语料合成和模型训练过程概览

模型方法

模型的架构如下图所示。模型的核心内容包括:

图2复杂问题求解概览图

广度拆分+深度求解:应对复杂决策任务

复杂多跳问题通常需拆分为多个简单子问题,以更高效地利用外部知识库进行求解,KAG-Thinker提出了一种「广度拆分+深度求解」的方法(详见图2):

广度拆分:将原始问题分解为若干原子问题,各子问题间保持逻辑依赖关系,确保拆分的准确性。每个原子问题由一个LogicalForm算子表示。每个LogicalForm具备双重表示形式——自然语言描述(Step)与逻辑表达式(Action),二者语义一致。

深度求解:针对需要检索(Retrieval)的子问题,进行深入求解,以获取充足的外部知识保障答案准确。在检索前,模型会先执行知识边界判定:若判断当前大模型自身知识已足够回答该子问题,则跳过检索;否则继续深度求解。

知识边界判定:充分利用LLM参数化知识

为充分利用大模型的参数化知识、减少不必要的检索任务,KAG-Thinker以知识点(如实体、事件)为中心定义Retrieval子任务,并通过SPO三元组限定检索粒度,以此为基础判断大模型与外部知识库的边界。

知识边界判定任务是一个无监督过程:首先让大模型直接作答子问题,再由其判断该答案是否为真实答案。此过程生成两个标签:

自然语言输出的判断结果(True/False);

答案首次出现时对应token的概率,若低于设定阈值则标记为False,否则为True。

仅当两个标签均为True时,才认为大模型自身知识足以回答该子问题,无需额外检索,可直接采用其生成的答案。

图3知识边界判定

检索内容抗噪:提升检索内容的可信度

对于必须检索的子问题,Thinker需要判断当前检索结果是否能求解出对应子问题。然而,不同检索器检索的内容参差不齐,尤其是网页检索得到的内容。

为了更好的分析检索结果,检索抗噪模块会分析每篇检索回来的文章与当前子问题的关系,去掉一些无关内容,再从剩余内容从中提取一些核心信息,作为直接给出子问题的答案还是继续进行深度检索的依据。

LogicalForm求解器

在广度拆分和深度求解时,Thinker沿用KAG框架中定义的4种LogicalForm求解器。每种LogicalForm算子的定义如图4所示。Retrieval主要解决检索类的问题,Deduce和Math主要解决推理分析类问题,Output主要用于答案汇总。

实验结果

单跳和多跳问答

为了评估模型的效果,研究团队选了7个通用的单跳和多跳推理数据集,并使用相同的检索器(E5-base-v2),Baseline选择了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用这些Baseline方法的评价指标(EM)。为了使用相同的检索器,只使用LogicalForm表示中的Step中的纯自然语言的内容。整体实验效果如表1所示。

与无检索基线相比,Thinker模型的平均性能比NaiveGeneration和CoT分别高出27.1%和34.6%。

与检索增强方法相比,Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分别高出24.6%、22.6%和14.8%。

与基于强化学习的方法相比,Thinker模型比SOTA模型ReSearch高出4.1%。

具体而言,在单跳数据集中平均提升了4.5%,在多跳数据集中平均提升了3.9%。主要原因是,知识点粒度的检索任务拆解降低了检索的复杂性。

表1不同模型(基座模型Qwen2.5-7B-Instruct)在不同数据集上的EM性能

KAG框架升级

KAGV0.8升级了知识库的能力。扩展了私域知识库(含结构化、非结构化数据)、公网知识库两种模式,支持通过MCP协议引入LBS、WebSearch等公网数据源。此外,升级了私域知识库索引管理的能力,内置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多种基础索引类型,支持开发者自定义索引&产品端联动的能力(如视频2所示)。

用户可根据场景特点选择合适的索引类型,在构建成本&业务效果之间取得平衡。在本次0.8的发版中,KAG全面拥抱MCP,提供接入公网MCP服务及在agent流程中集成KAG推理问答(基于MCP协议)的能力。

视频2可配置化的知识索引构建能力

KAG框架的应用

KAG框架V0.8版本为Thinker模型应用提供支持,融入KAG框架后的Thinker模型,Math、Deduce都使用框架中的求解器进行求解,再用Thinker模型进行答案汇总,可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3.0%,3.8%。这也说明KAG框架能更好的帮助Thinker模型进行求解。

表2不同模型在自建检索库上的性能

同时,针对KAG框架问题拆解不稳定的现象,也做了问题广度拆解的稳定性测试,将同一个问题,拆解两次,如果两次结果相同,则分数为1,否则为0。

实验结果如图5所示,KAG-Thinker7B在HotpotQA、2Wiki和Musique这三个数据集上的稳定性表现优于KAG-V0.87B和KAG-V0.872B。在常用的温度参数0.6和0.8下,KAGwithThinker7B+72B分别相对于KAG-V0.87B和KAG-V0.872B平均提升了17.9%和7.6%。

图5不同温度参数下不同模型稳定性测试

KAG-V0.8withThinker在三个数据集上的平均性能要优于HippoRAGV2和PIKE-RAG,详细的实验设置参考KAG-V0.8releasenotes。

虽然KAG-V0.8withThinker大幅度提升了框架的稳定性,但是平均性能要低于KAG-V0.872B,略高于KAG-V0.832B。这说明7B的Thinker模型的问题拆解能力还有所欠缺,分析BadCase发现,对于一些复杂的问题,Thinker模型的拆分能力还不够,例如「WhoisthepaternalgrandmotherofJohnIii,DukeOfCleves?」,需要分解出JohnIii,DukeOfCleves的妈妈是谁和JohnIii,DukeOfCleves的妈妈的妈妈是谁。

这种问题Thinker模型拆分不稳定,主要的原因有两种,第一,LLM对复杂的纯自然语言问题拆分存在不一致,第二,7B模型的泛化能力有限。为了解决这些问题,研究团队表示将来会从结构化数据中合成问题拆分样本,保证模型拆分的一致性。

表3不同框架在多跳推理上的性能表现

医疗领域的应用

为了验证该框架在专业领域的能力,研究团队在医疗领域做了一系列的改造,训练出了KAG-Med-Thinker。实验结果如表4所示,在DeepSeek-R1-Distill-Qwen-14B上,与已有的多轮规划和检索增强模型IRCoT和ReAct相比,KAG-Med-Thinker分别取得了3.95%和4.41%的显著性能提升。同时,它还比NaiveRAG自适应检索模型高出3.8%。

表4、不同模型在MedQA上的准确性

  农业农村部派出3个由司局级干部带队的工作组和7个科技小分队,赴河北、山西、江苏、安徽、山东、河南、陕西7省,指导各地做好抗旱准备和应对工作,保质保量完成夏收夏播。

责编:五韵诗编辑

官方调查那尔那茜

  “积极管理你的核心业务,这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示,虽然底特律汽车制造商需要重新思考在中国的经营方式,但美国电动汽车领导者特斯拉的情况略有不同,与传统的底特律汽车制造商相比,特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势,这有助于该公司在中国市场的发展,使其有“更大的发展空间”。(汪品植)

陈可辛吴君如女儿考入美国名校

  经查,李鹏新丧失理想信念,背弃初心使命,培植个人势力,搞“七个有之”;无视中央八项规定精神,违规接受宴请和车辆司机服务安排;对组织不忠诚、不老实,在组织函询时不如实说明问题,违背组织原则,卖官鬻爵,严重污染地方政治生态;廉洁底线失守,长期违规收受礼品、礼金;腐化堕落;贪婪无度,政商勾连,大搞新型腐败,利用职务便利为他人在矿产开发、企业经营、干部选拔任用等方面谋利,并非法收受股权股份等巨额财物。

习近平会见新西兰总理拉克森

  阿拉木图人口近200万人,民航吞吐量规模在1000万人次;乌鲁木齐人口超过400万人,民航吞吐量规模在2700万人次。“新疆人均乘机次数更多,但乌鲁木齐国际旅客吞吐量不到阿拉木图的十分之一,国际货邮吞吐量更是阿拉木图的零头。” 李瀚明认为,换个角度,差距就是上升的空间。

陈楚生摇滚

  “有些地区出现了多个国际航空枢纽的格局。比如华南的广州、深圳,西南的成都、重庆、昆明,西北的西安、乌鲁木齐。但与成渝不同的是,西北地域辽阔,西安与乌鲁木齐距离非常远,两个枢纽生态位截然不同。”

王欣瑜首进草地赛四强

  适度超前也有面向未来的考量。李瀚明表示,最近几年,国内长途旅行取代了一部分出国游的需求。西北是国内长途旅行的主要目的地之一,新疆、青甘大环线等热度居高不下。西北遥远,高铁也不发达,更依赖民航运输。此外,西安和乌鲁木齐还有建设国际航空枢纽的需要。

中餐厅

  详细剖析两个企业补税案例,也能一定程度上消除上述担忧。枝江酒业之所以被要求补缴8500万元消费税,直接原因是审计部门发现问题,税务部门据此执行。/p>

成毅去钓鱼了

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。/p>

者来女回家吧

  “积极管理你的核心业务,这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示,虽然底特律汽车制造商需要重新思考在中国的经营方式,但美国电动汽车领导者特斯拉的情况略有不同,与传统的底特律汽车制造商相比,特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势,这有助于该公司在中国市场的发展,使其有“更大的发展空间”。(汪品植)