好家伙 和洒水车过不去了是吧 全新名爵MG4曝:光!! (箭头尾灯)

2025-07-26 03:36:46      来源:看看新闻网

本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受JiaxuanYou教授指导。其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。

说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。作为一种常见而复杂的交流形式,这一颇具挑战的任务也自然地成为了日趋强大的大语言模型的试金石。

人们发现,顶尖大模型能生成条理清晰的说服语段,甚至在Reddit等用户平台以假乱真,但大模型在心智感知方面的缺失却成为了进一步发展说服力的瓶颈。

成功的说服不仅需要清晰有力的论据,更需要精准地洞察对方的立场和思维过程。这种洞察被心理学称为「心智理论」(ToM),即认识到他人拥有独立的想法、信念和动机,并基于此进行推理。这是人类与生俱来的认知能力,而大模型在对话中却往往缺乏心智感知,这导致了两个显著的缺陷:

模型往往仅围绕核心论点展开讨论,而无法根据论点之间的联系提出新的角度;

模型往往仅关注并重复己方观点,而无法因应对方态度变化做出策略调整。

为解决这一问题,伊利诺伊大学香槟分校的研究者提出了ToMAP(TheoryofMindAugmentedPersuader),一种引入「心智理论」机制的全新说服模型,让AI更能「设身处地」从对方的角度思考,从而实现更具个性化、灵活性和逻辑性的说服过程。

论文标题:ToMAP:TrainingOpponent-AwareLLMPersuaderswithTheoryofMind

开源代码仓库:https://github.com/ulab-uiuc/ToMAP

ToMAP:知己知彼,百战不殆

ToMAP创新性地在说服者框架中引入两大心智模块:反驳预测器和态度预测器。

反驳预测器模拟人类在说服中主动预判对方可能持有的反对观点。本文发现,大模型说服者本身就具备反驳预测的能力,只需要通过提示词设计「激活」这一能力即可。定性与定量分析显示,基于模型生成的反驳观点与真实被说服者的观点在语义上高度相似。这让说服者在对话中占据「先发优势」,从而主动化解对方的疑虑。在主张「素食食谱」的例子中,反驳预测器能主动识别出「烹饪麻烦」「味道不好」等对方反对素食的理由,构建出围绕核心论点的复合关系。

仅仅识别反论点并不能刻画复杂对话中的态度变化,因此,态度预测器进一步评估对手对上述反论点的态度——是坚定认可,还是中立或已被说服?该模块以对话历史和论点为输入,利用BGE-M3文本编码器与多层感知机(MLP)分类器,在对话过程中动态估算对方对各个论点的态度倾向,使说服者能有的放矢地展开论证。

实验表明,预测器在5点预测上的表现显著优于直接使用大模型推理。例如,在上图的对话中,对方已经认可素食对健康的好处,却提到其并不「享受」素食。这说明其很可能对素食的味道持保留态度,为下一轮的说服侧重点提供了关键线索。

两大预测器的引入使得说服者在作出决策时掌握更为丰富的信息:其不仅能预知对方可能的反驳意见,还能动态评估对方心理状态。这有利于其设计更多样化、有针对性的对话,切实有效地影响对方观点。

然而,LLM本身未必能有效利用这些信息,为了充分发挥上述模块的优势,ToMAP采用了强化学习(RL)方法,通过大量对话对模型进行训练。在每轮对话中,模型会根据「说服力得分」进行奖励,该得分衡量的是对方在一轮交互前后态度的变化。为避免重复、冗长、格式不当等问题,训练还引入了格式奖励、重复惩罚、超长惩罚等辅助信号,帮助模型生成通顺、有说服力的对话。

实验分析:运筹帷幄,策略制胜

本文在多种数据集与对手模型上对说服者模型进行了系统测试,评估对手模型在3轮对话前后的态度转变。

结果显示,基于Qwen-2.5-3B的ToMAP模型显著优于基线模型和无心智模块的RL版本。值得注意的是,尽管ToMAP仅使用3B参数的小模型,其性能却超越了多种参数规模更大的模型,包括GPT-4o与DeepSeek-R1。这说明即使是规模较小的模型,在合适的训练配方和模块设计的加持下,也能展现出惊人的说服力。

回顾ToMAP模型的训练轨迹,我们得以一窥其能力增长背后的原理。从图中可以看出,在说服奖励不断增加的过程中,ToMAP的重复度惩罚始终保持在较低水平,说明心智模块的信息有效地提高了模型输出的多样性。

另外,在对话长度相对稳定的条件下,ToMAP的思考长度显著高于基线,表明RL赋予了模型深度思考策略的能力,具有不可或缺的作用。另外,ToMAP更倾向于使用理性和有针对性策略,而非空洞的情绪煽动或权威引用——策略的改进正是其说服力提升的重要原因。

我们还发现,ToMAP在长对话中依然稳定提升说服力。基准模型和常规RL模型在早期几轮对话中效果较好,但随着对话轮次增加,说服力趋于饱和甚至下降;相比之下,ToMAP在10轮对话中依然保持稳定增长,显示出优秀的策略调整能力和论点的多样性。

结语:为AI注入「人性认知」的火花

本研究提出了ToMAP,一种融合心智理论的AI说服框架,致力于解决当前大语言模型在说服任务中缺乏对手建模与策略灵活性的问题。论文通过「反论点预测器」模拟人类预判异议的能力,通过「态度预测器」感知对方态度的细微变化,使AI在说服过程中更加敏锐与应变。通过精心设计的强化学习机制,促进模型生成内容多样、结构规范、逻辑清晰的高质量论证。

ToMAP不仅提升了模型的说服能力,在多个数据集和模型组合中显著超越强大基线,更是在大模型「心智建模」方向上迈出的重要一步。通过主动理解对方认知结构与态度倾向,ToMAP展现出初步的「社会认知」特征,使得语言模型在复杂交互任务中更具人性化与策略性。

总之,ToMAP不仅是一种有效的说服者训练框架,更是推动AI迈向具备「类人思维模式」的创新尝试,为构建可信、灵活的AI交流系统提供了坚实基础。

  世界经济论坛官网17日刊文称,中国已成为全球最大的电动汽车市场,中国车企生产的电动汽车占全球电动汽车总产量的一半以上。而在这一市场上,墨菲和其他分析师认为,美国车企当下很难抵挡中国自主品牌的实力。墨菲说,消费者现在对中国自主品牌的“忠诚度”很强,尤其是在美国对中国电动汽车征收超过100%的关税后,这种“忠诚度”可能会变得更加强烈。

责编:屠小溪编辑

大批美军部队开始加餐

  “要完善科技创新体系,积极对接国家战略科技力量和资源,优化完善创新资源布局,努力攻克一批关键核心技术,着力打造西部地区创新高地。”

藏海传热播绝非偶然

  适度超前也有面向未来的考量。李瀚明表示,最近几年,国内长途旅行取代了一部分出国游的需求。西北是国内长途旅行的主要目的地之一,新疆、青甘大环线等热度居高不下。西北遥远,高铁也不发达,更依赖民航运输。此外,西安和乌鲁木齐还有建设国际航空枢纽的需要。

以色列要求全境民众进避难所

  适度超前也有面向未来的考量。李瀚明表示,最近几年,国内长途旅行取代了一部分出国游的需求。西北是国内长途旅行的主要目的地之一,新疆、青甘大环线等热度居高不下。西北遥远,高铁也不发达,更依赖民航运输。此外,西安和乌鲁木齐还有建设国际航空枢纽的需要。

以色列开始哭哭啼啼

  另外,近些年受经济下行、大规模减税降费、楼市土地市场低迷等影响,地方财政收入受到一定冲击,而刚性支出有增无减。在财政收支矛盾不断加大的背景下,地方政府也有更大的动力加强征管,查漏补缺,依法依规征收该征收的税费。当然,税务部门也要同时落实落细减税降费政策,坚守不收“过头税费”红线。

留英博士迷奸多人想化学阉割减刑遭拒

  中国驻英国使馆发言人13日表示,英方有关制裁是没有国际法依据的单边主义行径,中方坚决反对,已向英方提出严正交涉。英国政府罔顾国内国际民意,不断火上浇油,助长战事延绵不绝、生灵涂炭,致使和平更加遥遥无期。

王欣瑜祝福巴多萨早日康复

  路透社13日称,新制裁包括衡水元展贸易有限公司和总部位于香港的恒邦微电子有限公司,理由是它们涉嫌或曾经参与“破坏乌克兰稳定”或“破坏或威胁乌克兰领土”。“美国之音”称,衡水元展贸易有限公司和香港恒邦微电子有限公司此前已被美国财政部制裁过。/p>

大学生感染情况

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。/p>

张真源使出了一招倒挂金钩

  除了国际航线网络的短板,乌鲁木齐也缺乏国际顶级航司入驻。国泰航空凭借座舱、餐食、服务等方面的表现,建立起国际品牌形象,常年与新加坡航空、阿联酋航空、卡塔尔航空这样的顶级航司保持同一水准。通过国泰开航,乌鲁木齐有望在国际市场引起更多关注。