ChatGPT Agent正式发布了: 【看看实力】如?何

2025-07-28 23:57:01      来源:东南网

[TechWeb]7月18日消息,OpenAICEO奥特曼(SamAltman)带队直播25分钟发布“ChatGPTAgent”,首个统一智能体,大大提升了ChatGPT处理现实世界任务需求的能力。

例如,通过ChatGPTAgent,可以让ChatGPT处理以下请求:“查看我的日历,并根据最新消息简要介绍即将召开的客户会议”、“计划和购买食材,为四人做日式早餐”以及“分析三个竞争对手并创建幻灯片”。ChatGPT将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的PPT、Excel,总结其分析结果。

奥特曼称:“ChatGPTAgent使用计算机执行复杂任务,对自己来说是一个真正感受AGI的时刻。”

即日起,专业版(Pro)、增强版(Plus)和团队版(Team)ChatGPT用户都可使用ChatGPTAgent。

ChatGPTAgent的使用入口没变,还是在ChatGPT原页面,“工具”下拉选择“Agentmode”即可。

融合三大能力,PPT比人做得好

今年1月,OpenAI发布了首个智能体Operator,让AI像人类一样直接与GUI交互,可以自主上网、点击和输入。

Operator推出2周后,OpenAI又推出了首个DeepResearch,推理模型直接可以使用工具,开展研究,擅长分析和总结信息。

现在,ChatGPTAgent融合了此前三大技术突破的优势:Operator与网站交互的能力,DeepResearch整合信息的技巧,以及ChatGPT智能对话优势。

“Agentmode”下的ChatGPT可以直接使用用户的计算机资源,包括智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出PPT和Excel汇总发现结果。

为了展示ChatGPTAgent能力,团队演示了一个真实场景:上传一张团队吉祥物图片,ChatGPT可以制作公司吉祥物漫画风贴纸,然后再订购500张并送到某个地址。

在理解提示词后,ChatGPT先整合搜索-再推理创作-再执行任务,调用用工具Imagen生成动漫版图片,设计贴纸,最后从StickerMule订购500份寄到的用户指定的地址。

另外,团队还演示了ChatGPTAgent做PPT的能力。

要求ChatGPT从Google云中提取分析评估数据并制作成PPT,直接用图表展示结果。

ChatGPTAgent链接Google云API进行搜索,并读取相关内容信息,并编写一些代码。

模型使用图像生成功能,为PPT图表做一些装饰和优化。

制作出第一张PPT(如上图),还不够精致。

强化学习的一个关键特性是模型会审视自己的结果,并加以完善,以交付出色的最终结果。

最终,ChatGPTAgent调用模型生成了如下PPT图表。

ChatGPTAgent“跑分”情况

在网页浏览、现实任务完成能力的评估中,ChatGPTAgent全部刷新了SOTA。

在人类最后考试(HLE)中,ChatGPTAgent以41.6%的得分,刷新了最高纪录。当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。

在最难的数学基准测试FrontierMath中,通过使用工具,如访问终端执行代码,ChatGPTAgent的准确率达到27.4%,远远优于之前的o3和o4-mini两种模型。

在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上,ChatGPTAgent的输出大约有一半的情况下与人类相当或更好,同时明显优于o3和o4mini。

在评估数据科学生产力任务的DSBench中,ChatGPTAgent显著超越了人类表现。

在Excel编辑能力的SpreadsheetBench测试中,当能够直接编辑电子表格时,ChatGPTAgent的得分甚至更高,为45.5%,而Excel中的Copilot为20.0%。

在投行分析师1-3年级建模任务的内部评估中,ChatGPTAgent表现优于DeepResearch和o3模型。

在OpenAI发布的BrowseComp基准测试(衡量浏览代理在网络上定位难以找到的信息的能力),ChatGPTAgent以68.9%的准确率成为新SOTA,比DeepResearch高出17.4%。

最后,关于WebArena⁠(在新窗口中打开),这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试,ChatGPTAgent比基于o3的CUA(为Operator提供动力的模型)有所改进。

AIAgent三维竞争格局形成

2025年是全球AIAgent技术爆发元年,行业从基础大模型竞争全面转向智能体落地,竞争格局呈现多层级分化。

在通用领域,今年年初,中国团队开发的全球首个通用Agent“Manus”发布即引发震撼,6月访问量达1616万次。

在垂直领域,就在OpenAIChatGPTAgent发布前一天,亚马逊云科技发布了企业级Agent部署平台AmazonBedrockAgentCore,提供七大核心服务(如运行时隔离、代码沙盒、浏览器工具),支持8小时异步任务,帮助开发者打通AIagent从概念验证到生产部署之间的关键环节。

随着OpenAIChatGPTAgent的强势加入,当前AIAgent已形成“通用vs垂直”、“端到端vs多模型”、“C端工具vsB端平台”的三维竞争格局。

  省应急管理、农业农村、水利等部门成立由25个厅级干部带队的工作组和27个专家组,分片包市深入一线、深入基层,对各地水源调度抗旱播种、抗旱保苗等工作进行督促指导,及时协调解决遇到的实际困难和问题。各地也积极采取行动,组织人员力量全面开展抗旱。

责编:方元容编辑

蓝朋友表白季

  经查,陈玉祥丧失理想信念,背弃初心使命,执纪违纪,执法犯法,罔顾中央八项规定精神,热衷于吃喝享乐,长期频繁接受宴请,违规接受旅游、健身等活动安排;无视组织原则,在干部选拔任用中为他人谋取利益并收受财物;违规收受礼品、礼金;违反工作要求,干预和插手司法及执纪执法活动;甘于被“围猎”,把组织赋予的权力当作谋取私利的工具,大搞权钱交易,利用职务便利为他人在企业经营、项目运营等方面谋利,并非法收受巨额财物。

北大浙大隐藏升学通道

  去年,民航局、国家发改委联合发文《关于推进国际航空枢纽建设的指导意见》,画出国际航空枢纽的蓝图,提出“3+7+N”国际航空枢纽功能体系。

小米总裁回应去美的学习

  “实际上就是‘打样’。”李瀚明认为,国泰开航证明了乌鲁木齐机场具备保障顶级航司的能力,会产生示范效应。国泰飞得好,其他国际顶级航司,以及东亚、东南亚的航司都会考虑跟进。除了证明机场的保障能力,也是新疆以此为契机,对外释放开放活力的强烈信号。

周杰伦强直性脊柱炎

  国家防灾减灾救灾委员会办公室、应急管理部会同国家粮食和物资储备局向河北、山西、内蒙古、山东、河南5省(区)调拨3万件中央救灾物资,支持地方做好抗旱救灾各项工作。

蓝朋友表白季

  依据有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予钟自然开除党籍处分;按规定取消其享受的待遇;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

两地明确医生可告知艾滋病患者配偶

  美国财政部本周早些时候也公布了新的反俄制裁方案,涉及俄罗斯以及中国等其他国家的300多家公司、银行和数十名个人。中国外交部发言人林剑13日表示,美国在全球范围内滥施单边制裁贻害无穷,严重损害他国主权安全,造成人道惨剧,破坏产供链稳定。乌克兰危机升级后,美方制裁更是变本加厉。而这种乱舞制裁大棒的做法,不仅无助于问题的解决,反而成为世界一个主要的风险源头。/p>

孟羽童回应一手好牌打得稀烂

  十二届四川省委科技委员会第一次会议,有多个重要议题,包括“学习中央科技委员会有关会议精神”“审议《省委科技委员会工作规则》等文件”。/p>

张婧仪周翊然叠叠乐也好磕

  去年以来,中国对多个国家单方面免签。截至目前,中方已经对法国、德国、意大利、荷兰、西班牙、瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡等国施行单方面免签;还与泰国、新加坡、马来西亚、格鲁吉亚等国互免了签证。此前的6月13日,国务院总理李强在惠灵顿总督府同新西兰总理拉克森举行会谈。李强表示,将把新西兰纳入单方面免签国家范围,希望新方为中国公民赴新提供更多便利。