斯坦福毕业 用RL做Agent 华人创业团队种子:轮融资12,00“万美元”

2025-07-23 20:12:39      来源:西安新闻网

机器之心原创

PokeeAI公开测试版现已正式上线!

「哈喽,可以听到吗?」北京时间上午10点,大洋彼岸的Pokee.ai创始人朱哲清接通了我们的连线电话,此刻他正位于美国西海岸,当地时间为前一日晚上7点。

用他的话说最近的状态就是「忙」,非常忙。忙着发布Agent产品PokeeAI的公开测试版,忙着处理第一轮融资的各种后续事宜,忙着对核心4人组团队「扩张」至7人,忙里偷闲在小红书庆祝自己29岁生日,并在评论下认真回复网友提问……

「忙」,或许不是从最近开始的,往前数200多天,那时候也「忙」。忙着成立Pokee.ai,忙着与100多位投资人聊如何用强化学习模型构建AIAgent,忙着准备产品内测。

再往前数到2017年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在Meta工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。

朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体验……

创业是从去年10月开始的,公司名为Pokee.ai,取自「小口袋」之意,寓指做一个轻便、决策能力强、随叫随到解决问题的模型。公司整体定位是聚焦于开发一款交互式、个性化、高效的AIAgent。

但较之主流以LLM为核心的AIAgent构建方式,Pokee.ai是以RL为核心,用朱哲清的话说,在Pokee的架构中,LLM主要是充当人机交互界面,类似「UI层」,用以理解用户意图,而真正决策、执行任务的全都是基于RL结构完成。

但那是去年10月,OpenAI还没有发布o1,将RL推向大众,DeepSeek也还没有引起全球狂欢。

在与大多数的投资人聊的时候,他们都觉得Pokee.ai这个方向是天方夜谭……如今,它已经慢慢从「非共识」变成了「共识」,而Pokee.ai也迈进新阶段。

最新消息,Pokee.ai完成1200万美元种子轮融资,由Point72Ventures领投,PokeeAI的公开测试版现已上线。

本周,在Pokee正式公测前,《机器之心》与朱哲清聊了聊,以下为对话内容:

机器之心:Pokee.ai去年10月成立,如今产品正式公测、完成种子轮融资,这样的节奏在你预期内吗?

朱哲清:整体节奏比较快,去年10月Pokee.AI成立,从概念验证,到通用Agent框架搭建,再到如今产品公测和融资宣布,其实也才7个多月。之前定的目标是,今年上半年最重要的是做完产品第一轮公测、拿到种子轮融资,现在全部完成,总体来说符合预期。

与Meta相比,节奏大概会快4—5倍,对我来说生活和工作节奏没有太大变化,甚至有更多时间去思考。我之前工作时同步在读博士,那时候特别忙,一周可能要工作100多个小时,现在还是100多个小时,但思考的时间变多了。

机器之心:你做的事情其实很少有人做,你印象中投资人问的最多的问题是什么?

朱哲清:刚开始和投资人聊的时候,总体感受就是他们不理解为什么要用一个跟别人不一样的方式去做Agent,那时候RL又不火、DeepSeek也没出来。当我第一次跟投资人说我们最终想做的是让一个RLSystem变成一个像通用操作系统一样的东西时,他们都觉得这是天方夜谭。

机器之心:说到做AIAgent的初衷,你曾说Pokee.AI做的是「目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。」这是不是现在很火的ASI概念?

朱哲清:我觉得ASI与AGI的定义范畴其实很模糊,从某种意义上来说,我们可能已经实现了ASI,如果给你一个100万Token的文章,人类要读很久才能把它读完,而模型只需要几秒或几十秒钟就完成了,那从这个角度来说它已经SuperHumanIntelligence。

我们距离Agent「ChatGPT时刻」还有多远?

机器之心:在你看来,一个通用Agent应该具备哪些特点?

朱哲清:一个通用Agent的核心能力在于,不管是在什么场景下,要解决什么问题,只要把prompt告诉它,它就可以把任务完成,而不需要事先去配置要用哪些工具。

我们的设想是,客户给到一个prompt,说这是我要做的事情需求,这家公司或者开发者不需要处理,直接将prompt「扔」给Pokee,Pokee就根据prompt调用对应工具,把问题解决,将结果直接传回给公司或开发者,之后后者可以把内容用更好的展现形式反馈会给客户。

机器之心:可以理解为这是AIAgent的「ChatGPT时刻」吗?现在处于什么阶段?

朱哲清:是的,这是一个完完全全不需要人为配置的AIAgent,也是我们的最终设想。现在的AIAgent需要的(工具)配置量很大,要匹配MCPServer、找工具,而在prompt下面可以加的工具很有限,也不能拼命加,那总体的训练量就很大。

机器之心:所以当时创业是因为看到这些局限性,Pokee.ai是如何做的?

朱哲清:我们想做的就是如何能够让第三方开发者在几乎不需要做任何开发的情况下完成AIAgent的搭建,不管是NoCode还是LowCode。NoCode是指Pokee直接跑一个prompt,得到工作流后,直接复制粘贴给无数个场景下面;LowCode,是指别人通过我们的接口把他们想要解决的问题以Prompt形式传过来,从而把问题解决了,也不用告诉我们要用什么工具。

机器之心:以RL为核心的AIAgent和以LLM为核心的AIAgent的差异性在哪里?

朱哲清:首先,当下的很多LLM也用强化学习,而我们做的强化学习模型的工具调用范围和常规LLM模型的工具调用范围不一样,具体来说是动作空间(ActionSpace)的区别,就是LLM模型的动作空间只有Token,而强化学习模型的动作空间可能不是Token,是那些工具,直接通过工具本身的泛化性来完成对于AIAgent的搭建。

机器之心:在你对通用Agent的描述中,对prompt的要求很高,但似乎并不是每个人都会提问题,如何看待这一现象?

朱哲清:是的,现在用户在使用Pokee的时候也会遇到这个问题,已经把prompt给你了,可为什么你写出来的东西不是我想要的?关键就在于,用户给的prompt可能并不是他们的真正意图,想做的和说的是两回事。

该如何理解意图就叫做对齐(Alignment),这件事情非常难,因为没有一个GroundTruth,每个人说话方式都不一样。如果真的想要找到GroundTruth,说用户一定指的是这件事情,那必须要通过和这个人的长期Memory联系起来才能够找到。

如果我来评判这条路径上该怎么走,就是先要能够解决问题,之后把用户的非训练数据进行个性化(personalization),然后要去理解、对齐。大概就是三步走——决策能力、对于Memory的personalization、Alignment。

机器之心:能否举例说一下?

朱哲清:比如之前投资人在试用我们产品时,写了一个Prompt——能不能帮我draft一个LinkedInPost?那这个「draft」的意思到底是「单纯帮我写好但不要发出去」还是「帮我写好并直接发出去」?

要想了解他的真正意图就需要去看过往给他的员工或者同事说这句话的时候,他会怎么说,以及后者的回复,通过他们之间的交互来确认他说「draft」的意思。这是很复杂的一件事情,需要非常个性化的Memory才能完成。

机器之心:那当前处于哪一步?

朱哲清:整个行业第一步都还没做完,更别说二、三步了(笑)。

机器之心:基于此,该怎么做?

朱哲清:我觉得这是一个很有意义也非常前瞻的问题,但从商业化角度来说,这不是第一优先级,最先聚焦的应该是能不能解决问题?先把问题解决了,然后再往下探索能不能更好地理解(问题)。

机器之心:据了解,Pokee的架构是,将小型LLM作为人机交互界面,类似「UI层」,用于理解用户意图,而真正决策、执行任务的全部基于强化学习结构来完成。基于这一理解,其实你们对于prompt的要求很高?

朱哲清:对,这就复杂得多了,所以我一直说,LLM做得越好,我们就能做得越好。虽然我们是将RL而非LLM作为AIAgent核心,但我们与LLM并非竞争关系,如果纯语言方向不能变得更好,我们也会有瓶颈,根本无法完全完整地理解用户到底要说什么。

创业,一个孤独的漫长旅程

机器之心:从离开Meta开始创业到现在有大半年时间,你觉得工作和创业有什么区别,最大的感受是什么?

朱哲清:区别很大,期间也有过挣扎,但不是因为时间管理、劳累,而是创业本身是一条很模糊的路,或者说本来就没有路,你想走成什么样,它就是什么路。作为公司CEO,看似有很大的话语权,你说要往哪走就往哪走,但实际上能做的决策数量有限,要对公司、大家负责。

在大公司不一样,可以做无数次决策,甚至可以换组,这个东西做不下去就换个方向。

机器之心:据了解,团队从成立到今年4、5月份一直是四人核心配置,现在有多少人?有没有考虑扩张?

朱哲清:目前团队有7个人,接下来还会招两三个人,但是大概率在收入规模扩大前不会将团队配置超过10个人。

机器之心:所以也可以说AI时代的创业更为「轻量级」?

朱哲清:是的,AI时代,模型、产品打磨各方面其实用不了很多人,人多了,反而做事情会蹑手蹑脚。

机器之心:你们办公室位于哪里?日常工作状态是怎样的?

朱哲清:我们没有办公室。

机器之心:那平时开会也是线上?

朱哲清:全部线上,因为有人在西雅图,有人在湾区,还有人在新加坡,都不在一起。另外我们都是Meta出身,习惯了远程办公,即便没有办公室,效率也挺高,而且还能兼顾生活。现在,我们每天线上开一个会,要做什么,大家一起讨论决定。

  河南省气候中心6月12日8时发布干旱橙色预警,根据最新气象干旱监测显示,安阳、鹤壁、焦作、开封、洛阳、漯河、南阳、平顶山、濮阳、商丘、新乡、信阳、许昌、郑州、周口、驻马店等16个地市72个国家级气象站监测到气象干旱达到重旱等级以上,并已持续10天。据天气部门预报,6月24日之前,全省将维持高温晴热天气,虽然部分时段有分散对流性降水,但无法有效缓解旱情。

责编:曾馨仪编辑

合肥通报女童隔窗向路人求助

  李鹏新严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定,经中央纪委常委会会议研究并报中共中央批准,决定给予李鹏新开除党籍处分;由国家监委给予其开除公职处分;收缴其违纪违法所得;将其涉嫌犯罪问题移送检察机关依法审查起诉,所涉财物一并移送。

重温红船精神

  经查,李鹏新丧失理想信念,背弃初心使命,培植个人势力,搞“七个有之”;无视中央八项规定精神,违规接受宴请和车辆司机服务安排;对组织不忠诚、不老实,在组织函询时不如实说明问题,违背组织原则,卖官鬻爵,严重污染地方政治生态;廉洁底线失守,长期违规收受礼品、礼金;腐化堕落;贪婪无度,政商勾连,大搞新型腐败,利用职务便利为他人在矿产开发、企业经营、干部选拔任用等方面谋利,并非法收受股权股份等巨额财物。

句话讲清习主席中亚之行的深远意义

  十二届四川省委科技委员会第一次会议,有多个重要议题,包括“学习中央科技委员会有关会议精神”“审议《省委科技委员会工作规则》等文件”。

老爸买下整车送女儿

  坚持因地制宜、科学抗旱,河库灌区及时开闸放水,增加流量,采取疏通渠道、维修涵闸等措施,做到远送多浇、有水可浇;引黄灌区根据抗旱需水情况,及时开闸放水,争取多引黄河水;平原灌区发挥机电井作用,采取有效措施保障机井通电,并组织投入各类排灌机械179.4万台,努力增加抗旱播种面积。丘陵岗区利用坑、塘、堰、坝等小型水利工程组织抗旱播种。夏播以来,全省累计抗旱浇水7977.3万亩次,播种进度与常年相当。

普京说俄士兵脚踩之地就属于俄罗斯

  省应急管理、农业农村、水利等部门成立由25个厅级干部带队的工作组和27个专家组,分片包市深入一线、深入基层,对各地水源调度抗旱播种、抗旱保苗等工作进行督促指导,及时协调解决遇到的实际困难和问题。各地也积极采取行动,组织人员力量全面开展抗旱。

庆余年

  钟自然严重违反党的政治纪律、组织纪律、廉洁纪律和生活纪律,构成严重职务违法并涉嫌受贿、故意泄露国家秘密犯罪,且在党的十八大后不收敛、不收手,性质严重,影响恶劣,应予严肃处理。/p>

特朗普特使喊话马斯克

  截至6月13日,全省大、中型水库可用水总量40.48亿立方米,储量充足有保证,按照6月底前无有效降雨的最不利因素考虑,可放水7亿立方米用于抗旱灌溉;南水北调中线工程、大中型水库及河道供水正常,地下水源较充沛,能够满足抗旱需求。5月下旬以来,对全省98.72万眼农田建设灌溉机井和56.85万项灌排沟渠设备进行全面排查,及时修复损坏设施,确保抗旱灌溉需要。省财政近期专门安排3000万抗旱专项资金,支持各地开展抗旱工作。/p>

美媒竟将台湾与以伊冲突挂钩

  美团数据也显示,7月以来,“网球”搜索量同比去年增长超60%。网球体验课、网球培训季度课包在平台热销,美团上网球运动相关团购订单量同比激增172%。