野生DeepSeek火了 速度碾:压官方版 {权重开源;}

2025-07-22 02:27:01      来源:株洲新闻网

机器之心报道

没等来DeepSeek官方的R2,却迎来了一个速度更快、性能不弱于R1的「野生」变体!

这两天,一个名为「DeepSeekR1T2」的模型火了!

这个模型的速度比R1-0528快200%,比R1快20%。除了速度上的显著优势,它在GPQADiamond(专家级推理能力问答基准)和AIME24(数学推理基准)上的表现均优于R1,但未达到R1-0528的水平。

在技术层面,采用了专家组合(AssemblyofExperts,AoE)技术开发,并融合了DeepSeek官方的V3、R1和R1-0528三大模型。

当然,这个模型也是开源的,遵循MIT协议,并在HuggingFace上开放了权重。

HuggingFace地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

经过进一步了解,我们发现:DeepSeekR1T2是德国一家AI咨询公司「TNG」推出的,模型全称为「DeepSeek-TNGR1T2Chimera」(以下简称R1T2)。

该模型除了前文提到的在智力水平和输出效率之间实现完美平衡之外,相较于这家公司的初代模型「R1TChimera」,智力大幅跃升,并实现了突破性的think-token一致性。

不仅如此,即使在没有任何系统提示的情况下,该模型也能表现稳定,提供自然的对话交互体验。

在评论区,有人误以为这个模型出自DeepSeek官方,并且认为他们是不是也在走相同的路线:给模型起各种名称,就是不用主系列下一代版本号?

更多的人认可该模型「找到了智能与输出token长度之间的最佳平衡点,并且提升了速度」,并对该模型在现实世界的表现充满了期待。

模型细节概览

从HuggingFace主页来看,R1T2是一个基于DeepSeekR1-0528、R1以及V3-0324模型构建的AoEChimera模型。

该模型是一个采用DeepSeek-MoETransformer架构的大语言模型,参数规模为671B。

R1T2是该公司4月26日发布的初代模型「R1TChimera」的首个迭代版本。相较于利用双基模型(V3-0324+R1)的初代架构,本次升级到了三心智(Tri-Mind)融合架构,新增基模型R1-0528。

该模型采用AoE技术构建,过程中利用较高精度的直接脑区编辑(directbrainedits)实现。这种精密融合不仅带来全方位提升,更彻底解决了初代R1T的token一致性缺陷。

团队表示,R1T2对比其他模型具备如下优劣:

与DeepSeekR1对比:R1T2有望成为R1的理想替代品,两者几乎可以通用,并且R1T2性能更佳,可直接替换。

与R1-0528对比:如果不需要达到0528级别的最高智能,R1T2相比之下更加经济。

与R1T对比:通常更建议使用R1T2,除非R1T的特定人格是最佳选择、思考token问题不重要,或者极度需求速度。

与DeepSeekV3-0324对比:V3速度更快,如果不太关注智能可以选择V3;但是,如果需要推理能力,R1T2是首选。

此外,R1T2的几点局限性表现在:

R1-0528虽推理耗时更长,但在高难度基准测试中仍优于R1T2;

经SpeechMap.ai(由xlr8harder提供)测评,R1T2应答克制度(reserved)显著高于R1T,但低于R1-0528;

暂不支持函数调用:受R1基模型影响,现阶段不推荐函数调用密集型场景(后续版本可能修复);

基准测试变更说明:开发版由AIME24+MT-Bench变更为AIME24/25+GPQA-Diamond测评体系,新体系下R1与初代R1T的分差较早期公布数据更大。

最后,关于R1T2中重要的AoE技术,可以参考以下论文。

论文标题:AssemblyofExperts:Linear-timeconstructionoftheChimeraLLMvariantswithemergentandadaptablebehaviors

  公器私用,将地质调查、矿产开发等权力作为敛财纳贿的工具,搞权钱交易,利用职务便利为他人在企业经营、项目承揽、矿权审批等方面谋利,并非法收受巨额财物;

责编:商书蝶编辑

男生被教官体罚做深蹲致换肾

  纪宁说,目前中国青少年网球尤其是女子青少年网球,已经成为体育职业化和商业化领域一个风口。郑钦文夺冠能促进更多中国青少年加入网球运动。与此同时,中国网球训练场地和比赛场地硬件条件以及软件设施也在发生巨大变化,网球经济蕴含的巨大空间也随之逐步释放出来。

以色列和伊朗手里还有多少底牌

  针对上述情况,通用汽车高管表示,企业对扭转中国市场的销售局面仍有信心,他们希望旗下新能源车型能在中国市场继续发力。据彭博社报道,通用汽车董事长兼首席执行官玛丽·博拉此前表示,“当你观察中国市场时,会发现它与5年前有很大不同。我们希望能够以正确的方式参与到这个市场中。”尽管在中国市场份额占比不大,但斯特兰蒂斯也看好中国市场,并“入股”中国车企。去年10月,斯特兰蒂斯宣布与中国零跑汽车成为全球战略伙伴,并向后者投资15亿欧元。

最近的韩剧男主颜值

  详细剖析两个企业补税案例,也能一定程度上消除上述担忧。枝江酒业之所以被要求补缴8500万元消费税,直接原因是审计部门发现问题,税务部门据此执行。

央视曝光高端酱香老酒竟是酒精勾兑

  尽管中国并未采取集中清缴清欠税收等行动,但随着税收大数据广泛应用,网状、系统性税收风险分析取代了此前个人经验点对点分析,税收征管力度事实上在不断强化,税收征收率在不断提高。以前企业偷漏税可能不容易被发现,但近些年通过税收大数据,税务部门会收到企业风险提示,并跟企业确认,不少企业需要依法补缴税款。

终于有剧拍了五代十国

  最近两起企业补税事件引起市场关注。一是湖北枝江酒业股份有限公司被要求补税8500万元,因这笔税款被追溯至1994年,使得税务“倒查30年”成为舆论焦点。二是宁波博汇化工科技股份有限公司3月份收到当地税务要求补税5亿元的通知,最近企业宣布停产。上述两起事件,引起了一些企业人士的担忧。这些担忧包括是否存在全国性查税,不少企业担忧如果倒查多年需要补税,这对于经营困难的当下无疑是“雪上加霜”。跟多位省级、市级税务人士交流得知,目前并没有全国性查税部署。一些地方根据当地税收大数据风险提示等对个别企业查税,是日常工作,也是税务部门正常履职。毕竟税务部门主要负责税收、社会保险费和有关非税收入的征收管理,发现偷逃税、少缴税行为,理应依法制止,否则就是渎职。(第一财经)

丁真发长文告别无限超越班

  中国驻英国使馆发言人13日表示,英方有关制裁是没有国际法依据的单边主义行径,中方坚决反对,已向英方提出严正交涉。英国政府罔顾国内国际民意,不断火上浇油,助长战事延绵不绝、生灵涂炭,致使和平更加遥遥无期。/p>

伊朗超三分之一导弹没有被以军拦截

  在会见国泰集团行政总裁林绍波时,自治区党委书记马兴瑞表示,希望国泰集团发挥优势,和新疆共同运行好直航航线,不断提升吸引力和可持续性。着眼更大范围、更宽领域拓展双方互利合作,助力新疆经济社会加快发展,打造亚欧黄金通道和向西开放桥头堡。用好新疆区位优势,积极开拓中亚等区域市场,实现更大发展。/p>

中国女排比意大利女排

  中国驻英国使馆发言人13日表示,英方有关制裁是没有国际法依据的单边主义行径,中方坚决反对,已向英方提出严正交涉。英国政府罔顾国内国际民意,不断火上浇油,助长战事延绵不绝、生灵涂炭,致使和平更加遥遥无期。