AI狂欢 网站末日来了 互联网变现难 谷歌让点击惨遭:灭顶之|灾

2025-07-23 06:08:17      来源:中国文明网

本文第一作者为韩沛煊,本科毕业于清华大学计算机系,现为伊利诺伊大学香槟分校(UIUC)计算与数据科学学院一年级博士生,接受JiaxuanYou教授指导。其主要研究方向为:大语言模型的安全性及其在复杂场景中的推理。

说服,是影响他人信念、态度甚至行为的过程,广泛存在于人类社会之中。作为一种常见而复杂的交流形式,这一颇具挑战的任务也自然地成为了日趋强大的大语言模型的试金石。

人们发现,顶尖大模型能生成条理清晰的说服语段,甚至在Reddit等用户平台以假乱真,但大模型在心智感知方面的缺失却成为了进一步发展说服力的瓶颈。

成功的说服不仅需要清晰有力的论据,更需要精准地洞察对方的立场和思维过程。这种洞察被心理学称为「心智理论」(ToM),即认识到他人拥有独立的想法、信念和动机,并基于此进行推理。这是人类与生俱来的认知能力,而大模型在对话中却往往缺乏心智感知,这导致了两个显著的缺陷:

模型往往仅围绕核心论点展开讨论,而无法根据论点之间的联系提出新的角度;

模型往往仅关注并重复己方观点,而无法因应对方态度变化做出策略调整。

为解决这一问题,伊利诺伊大学香槟分校的研究者提出了ToMAP(TheoryofMindAugmentedPersuader),一种引入「心智理论」机制的全新说服模型,让AI更能「设身处地」从对方的角度思考,从而实现更具个性化、灵活性和逻辑性的说服过程。

论文标题:ToMAP:TrainingOpponent-AwareLLMPersuaderswithTheoryofMind

开源代码仓库:https://github.com/ulab-uiuc/ToMAP

ToMAP:知己知彼,百战不殆

ToMAP创新性地在说服者框架中引入两大心智模块:反驳预测器和态度预测器。

反驳预测器模拟人类在说服中主动预判对方可能持有的反对观点。本文发现,大模型说服者本身就具备反驳预测的能力,只需要通过提示词设计「激活」这一能力即可。定性与定量分析显示,基于模型生成的反驳观点与真实被说服者的观点在语义上高度相似。这让说服者在对话中占据「先发优势」,从而主动化解对方的疑虑。在主张「素食食谱」的例子中,反驳预测器能主动识别出「烹饪麻烦」「味道不好」等对方反对素食的理由,构建出围绕核心论点的复合关系。

仅仅识别反论点并不能刻画复杂对话中的态度变化,因此,态度预测器进一步评估对手对上述反论点的态度——是坚定认可,还是中立或已被说服?该模块以对话历史和论点为输入,利用BGE-M3文本编码器与多层感知机(MLP)分类器,在对话过程中动态估算对方对各个论点的态度倾向,使说服者能有的放矢地展开论证。

实验表明,预测器在5点预测上的表现显著优于直接使用大模型推理。例如,在上图的对话中,对方已经认可素食对健康的好处,却提到其并不「享受」素食。这说明其很可能对素食的味道持保留态度,为下一轮的说服侧重点提供了关键线索。

两大预测器的引入使得说服者在作出决策时掌握更为丰富的信息:其不仅能预知对方可能的反驳意见,还能动态评估对方心理状态。这有利于其设计更多样化、有针对性的对话,切实有效地影响对方观点。

然而,LLM本身未必能有效利用这些信息,为了充分发挥上述模块的优势,ToMAP采用了强化学习(RL)方法,通过大量对话对模型进行训练。在每轮对话中,模型会根据「说服力得分」进行奖励,该得分衡量的是对方在一轮交互前后态度的变化。为避免重复、冗长、格式不当等问题,训练还引入了格式奖励、重复惩罚、超长惩罚等辅助信号,帮助模型生成通顺、有说服力的对话。

实验分析:运筹帷幄,策略制胜

本文在多种数据集与对手模型上对说服者模型进行了系统测试,评估对手模型在3轮对话前后的态度转变。

结果显示,基于Qwen-2.5-3B的ToMAP模型显著优于基线模型和无心智模块的RL版本。值得注意的是,尽管ToMAP仅使用3B参数的小模型,其性能却超越了多种参数规模更大的模型,包括GPT-4o与DeepSeek-R1。这说明即使是规模较小的模型,在合适的训练配方和模块设计的加持下,也能展现出惊人的说服力。

回顾ToMAP模型的训练轨迹,我们得以一窥其能力增长背后的原理。从图中可以看出,在说服奖励不断增加的过程中,ToMAP的重复度惩罚始终保持在较低水平,说明心智模块的信息有效地提高了模型输出的多样性。

另外,在对话长度相对稳定的条件下,ToMAP的思考长度显著高于基线,表明RL赋予了模型深度思考策略的能力,具有不可或缺的作用。另外,ToMAP更倾向于使用理性和有针对性策略,而非空洞的情绪煽动或权威引用——策略的改进正是其说服力提升的重要原因。

我们还发现,ToMAP在长对话中依然稳定提升说服力。基准模型和常规RL模型在早期几轮对话中效果较好,但随着对话轮次增加,说服力趋于饱和甚至下降;相比之下,ToMAP在10轮对话中依然保持稳定增长,显示出优秀的策略调整能力和论点的多样性。

结语:为AI注入「人性认知」的火花

本研究提出了ToMAP,一种融合心智理论的AI说服框架,致力于解决当前大语言模型在说服任务中缺乏对手建模与策略灵活性的问题。论文通过「反论点预测器」模拟人类预判异议的能力,通过「态度预测器」感知对方态度的细微变化,使AI在说服过程中更加敏锐与应变。通过精心设计的强化学习机制,促进模型生成内容多样、结构规范、逻辑清晰的高质量论证。

ToMAP不仅提升了模型的说服能力,在多个数据集和模型组合中显著超越强大基线,更是在大模型「心智建模」方向上迈出的重要一步。通过主动理解对方认知结构与态度倾向,ToMAP展现出初步的「社会认知」特征,使得语言模型在复杂交互任务中更具人性化与策略性。

总之,ToMAP不仅是一种有效的说服者训练框架,更是推动AI迈向具备「类人思维模式」的创新尝试,为构建可信、灵活的AI交流系统提供了坚实基础。

  据介绍,根据气象监测情况,今年4月下旬以来,全省平均降水量26.6毫米,较常年同期偏少75%,截至6月13日,大部分地区连续无有效降水日数超60天,郑州等10个地市在70天以上;平均气温23.2度,较常年同期偏高1.8度。

责编:召卿编辑

邵雨轩谈疯产姐妹解散原因

  6月13日9时,国家防总针对广西、福建启动防汛四级应急响应,派出两个工作组分赴广西、福建协助指导;新增针对河北、内蒙古启动抗旱四级应急响应,并继续维持针对河南、山东的抗旱四级应急响应,两个工作组正在两省协助指导。

伊朗开始逐步亮出杀手锏

  6月14日上午,水利部组织开展抗旱专题会商,分析研判华北黄淮等北方地区旱情形势,要求即日起,受旱地区上游黄河、海河、淮河流域的控制性水库全部进入抗旱调度模式,加大下泄流量,保障抗旱用水需求,确保城乡居民饮水安全,以及规模化养殖和大牲畜用水安全,全力保障灌区农作物时令灌溉用水。6月14日15时,水利部将针对河南、河北的干旱防御应急响应提升至三级,目前维持针对山西、江苏、安徽、山东、陕西、甘肃6省的干旱防御四级应急响应,并派出两个工作组正在一线指导抗旱工作。

下半年巨蟹座翻身做主

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。

张继科说没价值的原因找到了

  笔者跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。

父母去世岁大哥一人供出个大学生

  王一新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予王一新开除党籍处分;由国家监委给予其开除公职处分;终止其黑龙江省第十三次党代会代表资格;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

被通知裁员的黄金一小时

  坚持因地制宜、科学抗旱,河库灌区及时开闸放水,增加流量,采取疏通渠道、维修涵闸等措施,做到远送多浇、有水可浇;引黄灌区根据抗旱需水情况,及时开闸放水,争取多引黄河水;平原灌区发挥机电井作用,采取有效措施保障机井通电,并组织投入各类排灌机械179.4万台,努力增加抗旱播种面积。丘陵岗区利用坑、塘、堰、坝等小型水利工程组织抗旱播种。夏播以来,全省累计抗旱浇水7977.3万亩次,播种进度与常年相当。/p>

周杰伦强直性脊柱炎

  [环球时报综合报道]“一段时间以来,比亚迪、吉利等中国自主品牌的崛起给不少外国汽车品牌带来压力。”美国CNBC网站18日报道称,美银证券汽车产业分析师约翰·墨菲当天在美国汽车媒体协会有关活动中表示,美国底特律三巨头(即通用汽车、福特汽车和斯特兰蒂斯)应“尽快”退出中国市场。他同时警告说,美国三大车企需要采取更严厉的措施削减开支,尤其是在内燃机业务方面,因为这是目前利润的主要来源。/p>

纪凌尘还留着年前的画

  阿里巴巴向《环球时报》记者提供的数据显示,郑钦文的球拍、潘展乐的泳镜……这些冠军同款装备已登上淘宝热搜,卖爆天猫。其中郑钦文夺冠同款网球拍高居淘宝热搜第一名。自8月3日郑钦文夺冠至8月5日樊振东夺冠,其间超200万人在天猫搜索了“小球”品类相关商品,其中网球相关装备搜索量同比增长300%,“郑钦文同款”专业网球拍V14,48小时内收到了超4万人的问询,超3000人加购,成交量同比暴涨超2000%,成为天猫网球类目成交TOP1商品。不仅如此,就连郑钦文夺冠现场教练穿的“加油服”也火出圈。