突破256K超长上下文瓶颈，快手Keye-VL-2.0刷新多模态推理能力边界

每日快讯

2026

05/28

16:51

近日，快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。作为Keye家族最新一代的30B级主力基座，Keye-VL-2.0-30B-A3B率先将DSA（DeepSeek Sparse Attention）机制引入多模态理解场景，成功解锁了256K超长上下文的深度感知，在长视频时序感知上实现了几乎无损的推理能力。

更具里程碑意义的是，这也是Keye系列首次解锁Agent协作机制，在Code、Tool、Search等复杂场景下展现出了扎实的系统级协作与执行潜力。

DSA首次落地多模态，破解长视频理解瓶颈

视频理解的痛点，往往在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。

Keye-VL-2.0-30B-A3B在底层架构上完成了关键跨越——首次在多模态理解场景中成功应用了DSA（DeepSeek Sparse Attention）。通过结合稀疏注意力与极具针对性的特征聚合，模型在处理长达小时级的视频序列时，能够有效进行高噪环境下的信息提纯，精准捕捉关键帧并理清动态规律。

这一技术突破直接体现在模型对长时序任务的理解能力上。无论是TimeLens的细粒度动作锚定，还是在LongVideoBench上的综合长时序解析，Keye-VL-2.0-30B-A3B都展现出了对同级别甚至200B+超大参数开源基座的显著压制力。

从静态识别迈向深度推理，实现视频理解质变

长视频理解一直是多模态领域最具挑战性的方向之一。

传统视觉大模型通常依赖抽帧与标签化描述完成视频解析，能够识别“出现了什么”，却难以真正理解连续时序中的逻辑关系。因此，当用户输入一段数分钟甚至数十分钟的视频，并要求模型进行总结、规划或决策时，很多模型仍会输出基于字幕与标签拼接的“流水账”。

Keye-VL-2.0-30B-A3B则展现出明显不同的能力路径。在冰岛旅行Vlog测试中，模型不仅识别出天气骤变、极端环境与事故风险等关键视觉信息，还能够结合上下文推演出“需准备保暖装备”“建议优先选择跟团出行”等具备现实决策价值的旅行建议。面对工艺制作视频，模型可输出毫秒级精确时间戳拆解，准确识别复杂工序并完成结构化归纳；在电竞赛事视频中，则能够结合视觉变化、字幕信息和比分演化，还原“绝境翻盘”的叙事逻辑，实现跨模态语义融合分析。

这种能力的关键，在于模型开始建立“时序因果链条”。它不仅理解单帧内容，更能够在长时间跨度的视频流中识别事件之间的关联关系，并基于人类逻辑完成更深层次的规划与判断。

Agent能力首次解锁，打通“感知—规划—执行”闭环

此次发布的另一项关键突破，是Keye系列首次在多模态基座中内建了Agent协作机制。

依托Code Agent、Tool Agent等能力模块，Keye-VL-2.0具备复杂任务拆解、工具调度与多轮执行能力，可在代码解析、API调用、任务规划等场景中实现稳定执行。在复杂业务测试中，面对涉及门店检索、距离测算、商品筛选、订单生成等多线程任务链，模型能够自主完成任务规划、参数调用及容错调整，顺利完成多轮执行闭环。这标志着快手多模态模型正式从“内容理解”迈向“任务执行”，具备更强业务协同潜力。

强化学习与多专家融合，构建可靠推理底座

为了进一步提升复杂推理场景下的稳定性，快手还构建了一套全新的多模态强化学习体系。

其中，Context-RL奖励机制通过混合模态参考信息生成细粒度奖励信号，对数学、代码、多步推理等复杂任务进行事实性约束，降低模型幻觉率。同时，团队引入Accuracy Filtering机制，对训练轨迹进行实时质量筛选，剔除逻辑断层与低质量样本，提升强化学习稳定性。此外，针对多任务学习中的“灾难性遗忘”问题，快手还创新性引入跨模态MOPD（多专家策略蒸馏/合并）技术。

通过动态路由与参数融合，模型在持续增强视频理解与Agent能力的同时，依然能够保持数学推理、STEM与指令遵循等通用能力稳定增长。下图是Keye-VL-2.0-30B-A3B最终定版在全维度基准测试中的“全景成绩单”：

扎根业务场景，推动智能生态全面升级

技术突破的终点不但是榜单成绩，更是业务价值兑现。目前，Keye-VL-2.0已在内容推荐、商业化投放、内容治理等多个内部场景落地应用，通过提升视频语义理解精度，显著增强推荐系统命中率和广告标签抽取效果。与此同时，其Video × Agent能力也将进一步赋能创作者生态，实现视频检索、高光提取、智能剪辑、营销生成等自动化工作流，推动内容生产方式升级。

快手技术团队表示，未来将以将以30B版本的成功经验为跳板，稳步向真正的原生多模态（Native Multimodal）与端到端深度融合挺进，通过一次次扎实的业务验证与版本迭代，持续构筑具有深度的行业技术影响力，沉淀不可替代的核心基建壁垒。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

突破256K超长上下文瓶颈，快手Keye-VL-2.0刷新多模态推理能力边界

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 汽车电池

关注我们