多米体育app官方客服电话是多少号
新闻动态 你的位置:多米体育app官方客服电话是多少号 > 新闻动态 > 【纪要】快手可灵负责人谈视频大模型的发展和竞争

【纪要】快手可灵负责人谈视频大模型的发展和竞争

发布日期:2026-04-29 21:42    点击次数:137

视频大模型竞争肉眼可见加剧,可灵负责人在近期的公开发声中,首次回溯了可灵为何能在sora之前面世,又在产品、算力、商业变现的多轮挑战中保持竞争力

几组数据:

ARR(年化收入运行率)

2025年3月突破1亿美元(约7亿人民币),2026年1月超过3亿美元(约21亿人民币)

用户规模:

全球总用户:2025年4月→7月,3个月从2200万翻至4500万

付费用户:2026年1月环比增长350%

移动端MAU:Sensor Tower 数据3月移动端平均月活跃用户(MAU)达780万(AI视频生成移动端占比少,但是可作为整体风向标)

一、可灵从何而来

2024年sora刚释放出demo时,快手内部就定下目标:要做全球第一个(可用产品),并超越 Sora。可灵 1.0 的起步非常坎坷,在那个阶段,可灵甚至没有足够的顶级 NVIDIA 显卡可用,很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。

(当时AI视频生成处于行业空白期)当时上头部牌桌的唯一机会。如果不搏这一把,可灵很可能陷入「平庸-无资源-被淘汰」的负循环……博输了还是 Nobody,博赢了就彻底改变命运。

快手一直倡导的核心价值观:Disagree and Commit(保留意见但全力执行),可灵也是如此——先激烈讨论、表达反对,但在目标定死、进入执行阶段后,能投入 120% 的精力和意愿。

二、如何将先发红利转化为长期优势

一个发展主线贯穿可灵数次迭代的始终:多模态。

一个始终要解决的问题:用户生成前想要=用户生成后得到

前期可灵在工程能力(对物理世界的还原上等维度)不断推高,基座模型能力要确保

推出 MVL(多模态视觉语言)。其本质是解决输入侧的问题:虽然人类最习惯语言,但语言描述不了的细节,可以用图片、视频等其他模态的信息来补充。在我们的架构里,这些多模态信息被转化为语言流中的「特殊词(Special Tokens)」

未来“动作”、“3D场景”都有可能成为可灵多模态语言的一部分

(快手财报电话会上也提到,Seedance 2.0支持多模态输入的技术路线,跟可灵在去年12月推出的O1模型一致,也印证了可灵围绕多模态进行模型迭代的前瞻性)

三、可灵的几个重要节点

可灵1.0:意义在于让快手从“Nobody”变成全球大模型领域的“正式玩家”。达成了“全球第一个发布的、用户真正可用的DiT架构视频生成模型”。

可灵O1与2.6:分别攻克多模态输入(用图片、视频补充文字描述)和多模态输出(音画同步)的试点。

可灵3.0(All-in-One):将输入与输出能力合二为一,实现多模态模型的大一统。并推出分层交互:通用版(3.0)和极客专业版(3.0 Omni,支持主体库等更强控制)。

四、对于接下来AI视觉生成领域的判断

1、中期愿景(快则1年,慢则3年):让每个人都能用AI拍出好故事、好电影。AI改写短剧赛道已是确定性事件,接下来是电影。

2、新平台诞生逻辑:当规模化、多样性的好内容多到一定程度,全新的AI内容平台就会诞生。AI提供了无法被垄断的新供给。

3、决胜点:当生成质量都达到临界点后,个性化与可操控性将成为决定胜负的关键。例如让用户自己的形象、性格代入短剧,成为主角。

4、边界模糊:在AI生成内容时代,游戏与影视的边界会模糊。系统不仅能“猜你喜欢”,还能让用户通过互动直接影响情节走向。



Powered by 多米体育app官方客服电话是多少号 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024