《九章云极》是:如;何做到的

经观智讯2025-07-18 20:31:02

机器之心报道

Panda

从ChatGPT引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件3.0时代」。

在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动AI实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。

正如诺贝尔奖得主、DeepMindCEODemisHassabis说的那样:「强化学习足以实现智能,因为这是所有哺乳动物(包括人类)的学习方式。」强化学习之父、2024年图灵奖得主RichardSutton也在《经验时代》中写道:「通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。」

然而,相比于预训练大模型,目前通常用于后训练大模型的强化学习存在自己独有的困难:不仅需要高频的数据交互和环境反馈,还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台,大多仍以静态推理负载为主,难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。

这一背景下,谁能率先打造出真正适配强化学习的大规模智能计算平台,谁就有机会在新一轮的AI基础设施竞争中占据高地。2025年6月,九章云极正式发布业界首个工业级强化学习云平台AgentiCTRL,这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台

AgentiCTRL基于混合专家(MoE)架构,仅需极少代码即可完成AI智能体的训推流程,从而显著增强大模型推理能力。相比于传统强化学习方案,AgentiCTRL可将端到端训练效率提升500%,综合成本下降60%。

在这个云服务纷纷向「AI云原生」转型的时代,九章云极率先跑通了强化学习大规模云化的全链路路径,可以说是为更进一步的「智能体原生云」树立了行业新范式。

为什么是九章云极?

领先源自系统级重构

本质上讲,强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体,所需的不止是简单的算力堆叠,而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。

面对这一挑战,九章云极并未沿袭传统云平台「横向扩GPU」的简单思路,而是从架构底层出发,对强化学习训练流程进行了系统性重构。AgentiCTRL平台的推出,正是这一重构的成果。

这里,我们重点看看AgentiCTRL的一些核心亮点。

首先,AgentiCTRL实现了强化学习训练流程的极致简化

过去,部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在AgentiCTRL上,用户仅需极少代码即可启动完整的训练-推理-回传闭环

代码演示

这背后,是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言,这意味着开发效率的数倍提升;对于企业客户而言,则意味着强化学习的真正可用、可控、可复制。

其次,AgentiCTRL率先将Serverless架构原生融入了RL工作负载的训练平台

强化学习的计算需求高度不稳定:有的时间段GPU大量空转,有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案,不仅浪费严重,也难以调度。AgentiCTRL通过弹性算力编排,实现了资源的「按需即取、即用即还」,最大化资源利用率的同时,显著降低了训练成本。

更为关键的是,九章云极自研的异构算力操作系统与调度平台,让AgentiCTRL成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈,还是多节点分布式策略更新的同步难题,九章云极都在平台层实现了技术闭环。

这些能力也得到了实际验证。举个例子,使用AgentiCTRL,九章云极针对颇具挑战性的ComputerUse任务对基础模型Qwen-VL-2.5-7B进行了后训练,最终得到了智能体Alaya-UI

在这个过程中,AgentiCTRL表现强劲,不仅降低了37%的训练耗时并提升了25%的GPU利用率,而且所需的人工介入次数也大幅下降了90%。整体上看,成本下降了60%

得到的Alaya-UI的性能也在基础模型的基础上大幅提升——在OSWorld基准上,Alaya-UI的任务完成率从6.87%跃升至24.8%。

经过更多实验验证,AgentiCTRL能将端到端训练效率提升5倍以上,而在同等任务规模下,其整体成本可下降60%,堪称当前最具性价比的强化学习云平台

换句话说,九章云极不是在已有AI云平台之上「追加一个强化学习模块」,而是以强化学习为原生能力,重构了整个智能计算平台的架构与逻辑。

这正是九章云极能够走在行业前列的核心原因。

不止于平台

九章云极的智能基础设施战略布局

强化学习云平台只是表层,真正让九章云极在强化学习竞赛中跑在最前面的,是其对下一代AI云本质的前沿探索。

传统的云计算厂商,往往将AI能力作为「功能补丁」叠加在通用云之上,更多是在做资源分发和算力服务,更像是一种裸金属(baremetal)的供给模式。而九章云极的战略方向明确而清晰:强化学习不是一个云服务模块,而是未来AI云的操作系统级能力,是支撑智能体系统运行的调度中枢、学习引擎和演化机制。

可以说,九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源,更包括三层能力的同步建设:

底层是软件定义的AI基础设施,其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。中层是九章智算操作系统AlayaNeWOS,是工作负载的抽象与调度逻辑层,其中包括Serverless架构、AI导向的数据中心架构、多AIDC训练架构、异构资源调度、AI原生、分布式算网。上层则是九章智算云AlayaNeWCloud,其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台VKS和专享容器平台DKS;它们共同组成了面向开发者、模型厂商、应用企业的API与工具链系统。

实际上,九章智算云不仅是九章云极强化学习平台的算力底座,更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下,九章智算云以「1度算力」为度量单位,率先提出普惠化AI计算标准,从资源调度方式、价格模型到工作负载适配方式,全面对齐智能体时代的训练需求。

不同于传统云厂商依赖GPU售卖或按卡计费的裸金属逻辑,九章智算云提供了真正按使用量计价的serverless架构,这不仅降低了门槛,更实质性打通了「人人可用AI」的最后一公里。

正如图灵奖得主、「ArtificialIntellgence」这一技术术语的提出者约翰・麦卡锡(JohnMcCarthy)曾说过的那样:算力应该像水电资源一样随用随取。现在,九章智算云正在实践这一愿景。

而在调度能力方面,九章智算云通过自主研发的异构算力操作系统与AI-native的资源管理系统,实现了弹性调度+异构支持+多租户隔离的完备能力,成功突破「秒级生成百万级token」的性能瓶颈,并且其GPU利用率甚至可超过95%,总拥有成本(TCO)相比传统方案降低达60%,形成了明显的「性能/价格比」优势。

不仅如此,九章智算云在产业赋能上的落地表现也已具备规模优势,当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署,并支撑多个RL模型及智能体系统的在线训练与推理任务。在国内市场同类平台中,其智能体训练任务承载能力和调度效率长期保持领先,稳居强化学习云领域第一梯队

正是在这些能力的加持下,九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环,并以此为基础,构建起属于自己的AI云原生生态护城河。

看起来,九章云极的战略视野并不局限于细节的技术层面,而是放眼未来AI的基础设施主导权:在大模型标准趋于同质化的今天,谁能主导智能体运行的「训练-反馈-部署」闭环平台,谁就能在下一代AI生态中占据支点位置。而九章云极,已经拥有自己的独特优势。

顺带一提,为了加速这一战略落地,九章云极还启动了「AI-STAR企业生态联盟」,并与赛富投资基金等多家产业机构联合设立了「AI-STAR智算生态基金」,首期投入1.8亿元,期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为AgentiCTRL拓展了丰富的应用场景,也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

因此,AgentiCTRL的发布并不是一个孤立事件,而是九章云极未来路线图中的关键一步。在这一逻辑下,平台能力、开发工具、生态伙伴、资本配置……正共同构成一个面向未来十年的智能计算战略。

强化学习云第一云!

是做出来的

当强化学习成为智能体模型训练的核心引擎,决定下一轮AI基础设施竞争胜负的,很可能是「可用」与「可规模化」之间的距离。

九章云极用AgentiCTRL平台证明,强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法,而是一场从底层架构到运行逻辑的系统性重建:支持万卡级异构调度、Serverless弹性架构、强化学习工作负载原生抽象……这些综合起来就不再只是简单的优化,而是范式跃迁。

从客户视角看,这种跃迁可以带来直接而确定性的价值回报:

开发门槛显著降低:无需自建环境、编排节点、维护资源,RL训练变得像调用API一样简单;训练效率大幅提升:端到端性能可提升5倍;成本结构全面重塑:资源调度更高效,综合成本最多可下降60%,让RL真正进入性价比可控区间。

更重要的是,九章云极从一开始就不是只做「RL工具链供应商」,而是在构建一个支持智能体运行的操作系统级云平台

在未来,强化学习不会是「少数人的科研特权」,而将成为AI系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境,谁就掌握了创造未来的先机。而九章云极,已经走在了前面。

当智能体原生时代真正到来,我们可能会重新回头审视这场转变的起点。而那时,我们会看到,九章云极及其创造的AgentiCTRL或许正是它最早的铺路者。

  携程集团副总裁秦静认为,随着这一政策的施行,将加速中国与澳大利亚之间的旅游交流及经贸互动。同时,政策也将惠及在澳大利亚生活的逾百万华人华侨,使得他们回国探亲或旅游的过程更为简便顺畅。秦静指出,作为亚太地区的重要国家,中国与澳大利亚在经济上具有高度的互补性,合作潜力巨大,未来也期盼在旅游领域激发更强劲的合作动力。