发布日期:2026-04-29 21:42 点击次数:137
视频大模型竞争肉眼可见加剧,可灵负责人在近期的公开发声中,首次回溯了可灵为何能在sora之前面世,又在产品、算力、商业变现的多轮挑战中保持竞争力
几组数据:
ARR(年化收入运行率)
2025年3月突破1亿美元(约7亿人民币),2026年1月超过3亿美元(约21亿人民币)
用户规模:
全球总用户:2025年4月→7月,3个月从2200万翻至4500万
付费用户:2026年1月环比增长350%
移动端MAU:Sensor Tower 数据3月移动端平均月活跃用户(MAU)达780万(AI视频生成移动端占比少,但是可作为整体风向标)

一、可灵从何而来
2024年sora刚释放出demo时,快手内部就定下目标:要做全球第一个(可用产品),并超越 Sora。可灵 1.0 的起步非常坎坷,在那个阶段,可灵甚至没有足够的顶级 NVIDIA 显卡可用,很多训练是靠公司此前采购的 AMD 卡或其他厂家的芯片支撑的。
(当时AI视频生成处于行业空白期)当时上头部牌桌的唯一机会。如果不搏这一把,可灵很可能陷入「平庸-无资源-被淘汰」的负循环……博输了还是 Nobody,博赢了就彻底改变命运。
快手一直倡导的核心价值观:Disagree and Commit(保留意见但全力执行),可灵也是如此——先激烈讨论、表达反对,但在目标定死、进入执行阶段后,能投入 120% 的精力和意愿。
二、如何将先发红利转化为长期优势
一个发展主线贯穿可灵数次迭代的始终:多模态。
一个始终要解决的问题:用户生成前想要=用户生成后得到
前期可灵在工程能力(对物理世界的还原上等维度)不断推高,基座模型能力要确保
推出 MVL(多模态视觉语言)。其本质是解决输入侧的问题:虽然人类最习惯语言,但语言描述不了的细节,可以用图片、视频等其他模态的信息来补充。在我们的架构里,这些多模态信息被转化为语言流中的「特殊词(Special Tokens)」
未来“动作”、“3D场景”都有可能成为可灵多模态语言的一部分
(快手财报电话会上也提到,Seedance 2.0支持多模态输入的技术路线,跟可灵在去年12月推出的O1模型一致,也印证了可灵围绕多模态进行模型迭代的前瞻性)
三、可灵的几个重要节点
可灵1.0:意义在于让快手从“Nobody”变成全球大模型领域的“正式玩家”。达成了“全球第一个发布的、用户真正可用的DiT架构视频生成模型”。
可灵O1与2.6:分别攻克多模态输入(用图片、视频补充文字描述)和多模态输出(音画同步)的试点。
可灵3.0(All-in-One):将输入与输出能力合二为一,实现多模态模型的大一统。并推出分层交互:通用版(3.0)和极客专业版(3.0 Omni,支持主体库等更强控制)。
四、对于接下来AI视觉生成领域的判断
1、中期愿景(快则1年,慢则3年):让每个人都能用AI拍出好故事、好电影。AI改写短剧赛道已是确定性事件,接下来是电影。
2、新平台诞生逻辑:当规模化、多样性的好内容多到一定程度,全新的AI内容平台就会诞生。AI提供了无法被垄断的新供给。
3、决胜点:当生成质量都达到临界点后,个性化与可操控性将成为决定胜负的关键。例如让用户自己的形象、性格代入短剧,成为主角。
4、边界模糊:在AI生成内容时代,游戏与影视的边界会模糊。系统不仅能“猜你喜欢”,还能让用户通过互动直接影响情节走向。
Powered by 多米体育app官方客服电话是多少号 @2013-2022 RSS地图 HTML地图
Copyright Powered by365建站 © 2013-2024