多米体育app官方客服电话是多少号

【纪要】快手可灵负责人谈视频大模型的发展和竞争

发布日期：2026-04-29 21:42 点击次数：139

视频大模型竞争肉眼可见加剧，可灵负责人在近期的公开发声中，首次回溯了可灵为何能在sora之前面世，又在产品、算力、商业变现的多轮挑战中保持竞争力

几组数据：

ARR（年化收入运行率）

2025年3月突破1亿美元（约7亿人民币），2026年1月超过3亿美元（约21亿人民币）

用户规模：

全球总用户：2025年4月→7月，3个月从2200万翻至4500万

付费用户：2026年1月环比增长350%

移动端MAU：Sensor Tower 数据3月移动端平均月活跃用户(MAU)达780万（AI视频生成移动端占比少，但是可作为整体风向标）

一、可灵从何而来

2024年sora刚释放出demo时，快手内部就定下目标：要做全球第一个（可用产品），并超越 Sora。可灵 1.0 的起步非常坎坷,在那个阶段，可灵甚至没有足够的顶级 NVIDIA 显卡可用，很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。

（当时AI视频生成处于行业空白期）当时上头部牌桌的唯一机会。如果不搏这一把，可灵很可能陷入「平庸-无资源-被淘汰」的负循环……博输了还是 Nobody，博赢了就彻底改变命运。

快手一直倡导的核心价值观：Disagree and Commit（保留意见但全力执行），可灵也是如此——先激烈讨论、表达反对，但在目标定死、进入执行阶段后，能投入 120% 的精力和意愿。

二、如何将先发红利转化为长期优势

一个发展主线贯穿可灵数次迭代的始终：多模态。

一个始终要解决的问题：用户生成前想要=用户生成后得到

前期可灵在工程能力（对物理世界的还原上等维度）不断推高，基座模型能力要确保

推出 MVL（多模态视觉语言）。其本质是解决输入侧的问题：虽然人类最习惯语言，但语言描述不了的细节，可以用图片、视频等其他模态的信息来补充。在我们的架构里，这些多模态信息被转化为语言流中的「特殊词（Special Tokens）」

未来“动作”、“3D场景”都有可能成为可灵多模态语言的一部分

（快手财报电话会上也提到，Seedance 2.0支持多模态输入的技术路线，跟可灵在去年12月推出的O1模型一致，也印证了可灵围绕多模态进行模型迭代的前瞻性）

三、可灵的几个重要节点

可灵1.0：意义在于让快手从“Nobody”变成全球大模型领域的“正式玩家”。达成了“全球第一个发布的、用户真正可用的DiT架构视频生成模型”。

可灵O1与2.6：分别攻克多模态输入（用图片、视频补充文字描述）和多模态输出（音画同步）的试点。

可灵3.0（All-in-One）：将输入与输出能力合二为一，实现多模态模型的大一统。并推出分层交互：通用版（3.0）和极客专业版（3.0 Omni，支持主体库等更强控制）。

四、对于接下来AI视觉生成领域的判断

1、中期愿景（快则1年，慢则3年）：让每个人都能用AI拍出好故事、好电影。AI改写短剧赛道已是确定性事件，接下来是电影。

2、新平台诞生逻辑：当规模化、多样性的好内容多到一定程度，全新的AI内容平台就会诞生。AI提供了无法被垄断的新供给。

3、决胜点：当生成质量都达到临界点后，个性化与可操控性将成为决定胜负的关键。例如让用户自己的形象、性格代入短剧，成为主角。

4、边界模糊：在AI生成内容时代，游戏与影视的边界会模糊。系统不仅能“猜你喜欢”，还能让用户通过互动直接影响情节走向。