梁文锋和杨植麟,第四次撞车

来源:《中国企业家》杂志 |2026-01-30 08:22:35

二人为何都瞄准了视觉理解?

文|《中国企业家》见习记者 孙欣

记者 王怡洁


(相关资料图)

这已经是2025年以来的第4次,DeepSeek创始人梁文锋和月之暗面创始人杨植麟在技术路线上精准“撞车”。

1月27日,月之暗面发布并开源新模型Kimi K2.5,该模型由K2和K2-Thinking并存演进而来。在官方视频里,杨植麟将其形容为“全能模型”,视觉理解、代码、多模态、思考与非思考模式、Agent及Agent集群能力,都被封装进了同一个模型中。

除了代码能力极大提升之外,K2.5的一大亮点在于“视觉理解能力”的极大增强,可分析用户上传的图片、视频,并据此编程或解答问题。

无独有偶,K2.5发布的同日,DeepSeek也上线了新一代模型OCR-2。该模型同样在视觉理解上取得重大突破,解决方法更另辟蹊径。DeepSeek创新了“视觉因果流”机制,不再需要按照固定顺序扫描图片,而是能像人一样,根据图像内容的语义和逻辑,动态调整阅读顺序。

屡屡在同一条技术路线上探索,又数次同日发布成果,梁文锋与杨植麟的心有灵犀已经很难用偶然来解释,他们二人又为何不约而同地瞄准了视觉理解这座山峰?

四次“撞车”

实际上,梁文锋和杨植麟模型产品、论文总是选择同期发布,并非因为“内卷”。拆解二人的成果会发现,他们在关键技术路线上“和而不同”的创新,背后是对大模型和产业痛点的相似判断。

2025年1月20日,DeepSeek-R1上线后火速破圈。Kimi 1.5也紧随其后发布,且同样采用了“基于结果奖励的强化学习”路线。

2025年2月18日,梁文锋和杨植麟前后脚发表了关于注意力架构的最新论文,聚焦于解决Transformer注意力机制下,长上下文处理效率低下、算力消耗过高的行业痛点。

其中,梁文锋作为共同作者,提出了DeepSeek-NSA(原生稀疏注意力)架构,通过分层压缩、关键令牌选择与滑动窗口结合的策略,大幅降低了长上下文处理的算力消耗。

同日,杨植麟也作为论文共同作者,提出了MoBA(混合块注意力)架构,并与NSA选择了不同的优化路径——基于专家混合(MoE)原理,通过分块处理与动态门控机制,让模型自主实现全注意力与稀疏注意力的切换。

只不过,NSA更侧重硬件层面的优化,MoBA则倾向于在Transformer框架内做灵活创新。虽路径不同,但二人的核心目标一致:解决效率瓶颈,让模型在复杂任务中更具实用性。

2025年4月,DeepSeek发布数学推理模型DeepSeek-Prover-V2。通过子目标分解的强化学习推进定理证明,让模型能够“自验证”推理过程的合理性,几乎同期,月之暗面也上线了数学推理专项模型,同样采用了“自验证”核心方式,大幅提升了定理证明的稳定性与准确性。

这一次“撞车”源于,彼时AI深度推理还是行业的技术难点。而数学推理作为核心场景,直接关系到大模型在科研、金融、工程等领域的落地能力,二人同时聚焦这一方向,背后是对验证AI落地价值的一致探索。

而最近的一次同台竞技,DeepSeek的OCR-2和月之暗面的K2.5又不约而同地瞄准了视觉理解。这一次同样绝非巧合。

数月前,《中国企业家》从相关人士处了解到,DeepSeek和月暗一直在围绕谁能先做出具备前沿能力的视觉语言模型,让大模型不再成为“聪明的瞎子”而暗自较劲。

结合2025年7月SuperCLUE发布的多模态测评报告,或可找到二人攻坚视觉语言模型的答案。

报告指出,视觉语言模型正普遍面临三大痛点:1.专业领域知识欠缺,特别是在医疗影像分析、工业应用等专业领域得分较低。2.复杂场景适应不足,在自动驾驶、空间推理等任务中表现较差。3.多模态融合深度不够,图文不一致情况下,判断准确率不足65%。

由此可见,视觉理解是大模型从“语言交互”走向“全场景交互”的必经之路,也已成为制约模型商业化落地的瓶颈。梁文锋与杨植麟同时聚焦这一领域,源于对行业痛点的相似洞察——谁能率先突破,就能在多模态商业化竞争中占据主动。

如何翻越视觉理解高山?

实际上,在大语言模型层面,国内模型正在与海外模型日益拉近距离。但业内人士对《中国企业家》表示,在视觉理解层面,海外被称为“御三家”的Google Gemini、OpenAI GPT 5.2和Claude已“卷”到下一阶段,国内大模型则还处于追赶和“补课”阶段。

例如,数月前网络上曾让大模型做识别车型的测试。特斯拉被车主自贴了一个小米标志,不少大模型将其认错。“这说明综合视觉信息,当前对多模态模型依旧有困难。”前述人士说。

此次发布中,杨植麟在视频中演示了一段视频,K2.5通过识别图片或者视频,复刻出一个网址的功能。此前国内大模型更多需要借助语言、指令来实现。“需要精确地告诉模型,左上角是个按钮,需求都要用指令来描述。”

“一图胜千言。”科技博主海拉鲁对《中国企业家》说。大部分情况下,用户很难用文字一次性描述出自己想要编出的前端界面,视觉理解核心意义在于让大模型从“读文字”升级为“懂信息、用信息。”

K2.5是月暗在视觉理解上交出的第一份答卷。团队让原生的多模态架构设计与大规模视觉文本进行联合预训练,采用了约15万亿个Token持续训练。在这个基础底座之上,构建Visual Agentic Intelligence(视觉智能体智能)系统。简而言之,K2.5从视觉理解编码入手,分解Agent任务,增强Coding能力。

接近月之暗面的人士告诉《中国企业家》,训练中最现实的困难在于多模态数据的匮乏,以及对数据的处理。“普通人每天拍的照片对模型来说没什么用。需要高质量的数据,才能让模型学到东西。像维基百科,也只是中等质量的数据。”

此外,月之暗面在K2.5中也再次坚持了对“技术品味”的追求,“如果你希望模型更加浪漫,精通软件的UI界面、美学设计,你该给它匹配什么样的数据,这都需要对世界有更多审美认知。”前述人士说。

1月29日凌晨,月之暗面团队在Reddit上回答了网友问题,杨植麟表示:“模型的核心在于品味,因为智能本身是非同质化的(non-fungible)。”

海拉鲁评价道,Kimi是国内编程不错的模型里面第一家真正“开眼”的。AI从业者徐再世也表示:K2.5与其他多模态模型最大的区别在于,把视觉和编程、Agent能力结合得更紧密,这降低了开发门槛,让非程序员靠截图录屏也能做出原型。

除了前端设计,伴随K2.5,Kimi还推出了Kimi Code,可以在终端里直接运行,也能集成到 VSCode、Cursor等主流编辑器中。简单来说,K2.5可以自动发现用户的编程过程,并将用户现有的Skills(给AI Agent使用的技能包)迁移到新的工作流中。

相对于K2.5侧重在工程化层面解决问题,DeepSeek在视觉技术源头做出了更多创新。

传统的视觉语言模型(VLM)在扫描图片时,通常是固定地从左到右、从上到下。但人类在理解图片时,会代入自身的语义顺序和取舍,如先看标题,再看正文。

OCR-2也模仿了人类的逻辑,其替换了原本的CLIP编码器,引入了全新的视觉编码器DeepEncoder V2。该架构打破了固定顺序(从左上到右下)扫描图像的限制,而是模仿人类视觉的“因果流(Causal Flow)”逻辑。

从这个维度上看,DeepSeek和月之暗面虽然都在补齐视觉理解的短板,但二者的创新点发生在不同环节。K2.5是基于多模态模型提升工程化性能,更靠近商业落地侧;而DeepSeek更侧重追溯到技术源头,进行创新。

集群重新定义Agent

除了视觉理解,此次K2.5的Agent集群功能也获得了不少业内人士的称道。

徐再世在做大语言模型预训练的工作,他看到,Anthropic的Claude Opus在编程场景上表现突出,一个原因就是它很擅长通过工具调用来执行任务。但很多语言模型在工具调用中,出错概率很高。而K2.5引入的Agent Swarm(智能体集群)架构,从单一Agent进化到Agent集群,意味着模型能力的关键提升。

在杨植麟对Agent集群的介绍中,K2.5不再是一个单打独斗包揽一切的智能体,而是一支即时组建的“智能体团队”。即当任务下达时,主Agent能够生出上百个“子Agent”,由主Agent支配。相较于单智能体模式,其任务执行效率提升最高达4.5倍。

月暗团队演示了一段视频,他们给Kimi Agent集群投喂了40篇关于心理学和AI的论文。K2.5先是通过多次调用工具,按顺序把论文通读一遍;随后,其衍生出数个子Agent负责不同章节撰写。最后,成果由主Agent负责把关验收,将所有内容汇总成一份长达几十页的PDF综述。

要实现上百个Agent并发运行并非易事,平衡调度器便是一大难点:在训练初期,子Agent可能会因协同失败而放弃并行策略。而月暗团队采用了PARL (并行智能体强化学习) 的训练方法,团队通过分阶段奖励,引导模型建立稳定偏好。

此外,当100个Agent同时工作,通信、算力都将产生巨大负载,Agent之间可能会信息复读、相互干扰,效率可能会低于单体模型。团队需要让模型学习如何自主通信,并动态调整智能体数量和资源分配。

据《中国企业家》了解,K2.5整个Agent集群由K2.5模型全自动创建与协调,用户无需对子智能体或工作流进行预先定义。即便某个子智能体失败,主Agent也能迅速感知并重新调度。

徐再世解释道,无需预定义意味着K2.5的Agent集群是动态分工,模型自己会决定这个任务需要什么角色,自动创建子Agent并行工作。

1月29日,在解答网友询问K2.5的“智能体蜂群”在运行100个并行推理流时,如何解决延迟和上下文信息丢失问题时,月之暗面联创吴育昕表示:K2.5的各个子智囊团可以在不“腐蚀”或污染主调度器上下文的情况下独立执行子任务,即子Agent本质上拥有各自的工作记忆,只在必要时将结果返回给调度器。

“从K2开始,月暗团队每一步都走得很扎实稳重。”虽然徐再世认为,月暗的产品形态还需要时间打磨。但从长远来看,Agent集群技术的突破有着重大价值。“这意味着未来的智能体将无需人工设计工作流,真正实现人力的解放。”

(责任编辑:何欣)

责任编辑:【henankuaibao】

关键词:

本文相关推荐

梁文锋和杨植麟,第四次撞车

二人为何都瞄准了视觉理解?文|《中国企业家》见习记者孙欣记者王怡洁

01月30日 08:22 要闻

焦点关注:苏州聚心拓电子材料有限公司成立 注册资本500万人民币

天眼查App显示,近日,苏州聚心拓电子材料有限公司成立,法定代表人为

01月30日 07:56 热点

【环球财经】法国2025年新增企业注册量创新高

新华财经巴黎1月29日电(记者李文昕)法国国家统计和经济研究所29日发

01月30日 07:05 资讯

思看科技:与拓竹科技签订框架合作协议 共同设计及开发消费级3D扫描仪 资讯

思看科技:与拓竹科技签订框架合作协议共同设计及开发消费级3D扫描仪人

01月29日 21:03 资讯

世界黄金协会:中国投资者2025年买了432吨金条金币|每日资讯

世界黄金协会:中国投资者2025年买了432吨金条金币,金条,中国,金币,金

01月29日 20:22 快讯

南京市教育局:如遇极端天气或交通受阻等特殊情况,学生到校时间可适当延后,学校不作迟到处理

南京市教育局:如遇极端天气或交通受阻等特殊情况,学生到校时间可适当

01月29日 18:28 热点

永城充电站建设从“补空白”转向“提品质”

永城充电站建设从“补空白”转向“提品质”,充电站,充电桩,永城市,电动

01月29日 17:33 资讯

武汉地铁11号线越江隧道启动掘进 微资讯

1月29日拍摄的武汉地铁11号线四期工程越江隧道盾构始发现场(无人机照

01月29日 17:20 快讯

国内酿酒股一览(2026/1/29)

截至1月29日,A股涉及酿酒的上市公司具体分布情况为:主板的有53家、中

01月29日 15:02 资讯

十年国债ETF(511260)飘红,债市配置价值凸显

相关机构表示,中长期维度,我们仍然维持窄幅震荡的判断,这主要是因为

01月29日 15:08 快讯

山西省住房和城乡建设厅关于《建筑固废资源化处置碳排放核算标准》公开征求意见的通知-今日快讯

山西省住房和城乡建设厅关于《建筑固废资源化处置碳排放核算标准》公开

01月29日 10:29 要闻

福瑞医科:1月28日持仓该股ETF资金净流出2060.32万元,3日累计净流出6422.32万元_当前关注

据同花顺(300033)iFind,福瑞医科(300049)1月28日ETF资金当日净流

01月29日 09:16 资讯

1月29日生意社丙酮基准价为4700.00元/吨|每日快讯

1月29日,生意社丙酮基准价为4700 00元 吨,与本月初(4057 50元 吨)相

01月29日 09:12 快讯

观点:美联储3月维持利率不变的概率为86.5%

据CME“美联储观察”:美联储到3月降息25个基点的概率为13 5%,维持利

01月29日 06:16 快讯

焦点速看:海南定安:从一杯咖啡到乡村振兴新引擎

这是1月27日拍摄的海南定安县富文镇的九所会客厅水塔咖啡馆(无人机照

01月28日 21:24 要闻

科润智控:2025年净利同比预降58%-65%_热推荐

中证智能财讯科润智控(920062)1月28日晚间披露2025年度业绩预告,预

01月28日 20:07 资讯

国家金融监督管理总局庆阳监管分局核准陈立成交通银行股份有限公司庆阳分行副行长

2026年01月22日,国家金融监督管理总局庆阳监管分局核准陈立成交通银行

01月28日 17:51 热点

文明实践四季常青 “东台更懂你”满城芬芳 每日焦点

冬日阳光洒在东台市安丰古镇上,一座融合古韵与现代设计的建筑里,居民

01月28日 17:09 资讯

内容正在升级改造,请稍后再试! 热讯

内容正在升级改造,请稍后再试!

01月28日 16:08 要闻

热头条丨港元拆息普遍向下 一个月息连跌四日报2.66%

智通财经APP获悉,1月28日,港元拆息普遍向下,而与楼按相关的一个月拆

01月28日 14:49 资讯

2025年全国新开工改造城镇老旧小区2.71万个

2025年全国新开工改造城镇老旧小区2 71万个

01月28日 14:28 快讯

2026年1月28日全国主要批发市场晚籼稻价格行情

2026年1月28日全国主要批发市场晚籼稻价格行情

01月28日 12:58 要闻

水贝一黄金预定价平台兑付困难?深圳罗湖区通报

水贝一黄金预定价平台兑付困难?深圳罗湖区通报

01月28日 11:25 快讯

简讯:波音结束连续六年巨额亏损

CBA常规赛:辽宁本钢不敌深圳马可波罗1月18日,在2025-2026赛季中国男

01月28日 10:22 要闻

荆州赏梅正当时

1月26日,荆州市荆州区八岭山镇恒荣梅园内寒梅绽放、暗香浮动,不少游

01月28日 09:19 资讯

带你了解共2只,齿轮上市公司龙头股(收藏)(2026/1/27)

宁波东力:齿轮龙头。从近三年扣非净利润复合增长来看,近三年扣非净利

01月28日 09:00 快讯

百事通!【好评中国】河声丨65亿人次奔赴山海描绘幸福中国

【好评中国】河声丨65亿人次奔赴山海描绘幸福中国

01月27日 19:29 资讯

兴业股份:公司光刻胶用相关产品送样尚处于参数指标反馈与提升改进之中 焦点速看

兴业股份:公司光刻胶用相关产品送样尚处于参数指标反馈与提升改进之中

01月27日 17:08 资讯

见证蜕变时刻!丽减美瘦吧第二届减重大赛颁奖盛典圆满成功

近日,鹏城深圳星光熠熠,丽减美瘦吧第二届减重大赛颁奖盛典在此隆

01月27日 16:52 热点资讯

2025年末北京人民币各项贷款余额12.09万亿元 同比增长4.9%

2025年末北京人民币各项贷款余额12 09万亿元,同比增长4 9%,全年新增5

01月27日 16:37 快讯