近日,AI 视频生成公司「爱诗科技」完成 B 轮融资,总金额超过 6000 万美元。
该轮融资由阿里巴巴领投,达晨财智、深创投、北京市 AI 基金、湖南电广、巨人网络和 Antler 跟投。据了解,这也是国内视频生成领域单次最大融资额。
爱诗在融资和增长上的猛势,是如今国内视频生成赛道集体狂飙的一个缩影,目前爱诗旗下产品 PixVerse 的全球用户已经迈过 1 亿大关。就在 4 个月前,这个数字还是 6000 万。
同样起飞的还有商业化。爱诗科技创始人兼 CEO 王长虎告诉《智能涌现》,公司产品的订阅收入已经覆盖成本。
另一位视频生成领域头部玩家,快手的财报显示,2025 年 Q2,旗下可灵 AI 的营收已经超过 2.5 亿元,占快手总营收的 4.8%。
然而,仅仅一年前,由于 Sora 的掀桌、大厂的入局,AI 视频生成创业,一度不被看好。
《智能涌现》曾在《杨立昆、朱啸虎不看好的赛道,正在海外悄悄赚钱》一文中提到,2024 年初,不少投资人的共识是:视频模型 ROI 短时间无法打正,以及初创公司会像语言模型赛道一样,被 2-3 家大厂淘汰。
成立在 2023 年 4 月的爱诗科技,对市场的不看好深有体会:彼时的视频生成还是非共识,创业公司资源有限,创始人王长虎和谢旭璋并非最受资本欢迎的 " 天才少年 "。
在爱诗科技 CEO 王长虎看来,爱诗回到舞台中央,恰恰因为坚持了 " 不变 ":
从第一天起,团队就将视频生成作为确定性的机会,从自研模型到产品化,从未偏离主线;
至于产品,C 端则是团队一直看好的方向——爱诗旗下的产品,AI 视频创作平台 PixVerse(海外)和拍我 AI(国内),主打为普通用户提供低门槛的 AI 视频创作工具。
其特效模板通过 " 提示词封装 ",将视频生成复杂的制作过程简化为 " 一键生成 "。
2025 年 8 月 27 日,爱诗发布的新一代视频生成模型 PixVerse V5,优化了生成速度、视觉质量、指令遵循等能力。
与此同步上线的,是一款面向 C 端用户的 "Agent 创作助手 ",没有视频创作基础的用户,也能用现有的模板库和极为简单的指令,创作出一段视频。
△使用 "Agent 创作助手 " 和内置的模板创作视频。图源:作者试用
△ " 拍我 AI" 生成的宠物视频。图源:作者试用
从不被看好到拿下最大单笔融资额,爱诗做对了什么?
成功逆袭,爱诗到底做对了什么,王长虎总结出了两点:
第一,无论用户还是团队,都不盲目烧钱扩张。
王长虎告诉我们,过去半年内,爱诗用户规模从 6000 万增长到一亿,比起投放,靠产品能力本身去做聪明的增长,是更为行之有效的方法。比如,2024 年 11 月," 毒液变身 " 等展示模型能力的特效模板,迄今已为 PixVerse 带来了过百亿的曝光量。
第二,不盲目对模型做 Scaling(扩大参数规模)。
在爱诗科技看来,Scaling Law 仍然适用于当下的视频生成模型。但对于资源有限的创业公司而言,模型训练不允许失败,试错成本远高于大厂。
这意味着,每一次的模型训练,爱诗都需要保证模型质量的前提下,降低训练成本,同时规划更为精细化的迭代方向。
爱诗的经验是,每一次模型和产品的迭代,都要贴着用户的需求走。
比如,团队发现,不管在专业创作还是短视频领域,大多数单镜头视频的长度都在 10s 以内,广为传播的视频长度在 10 秒左右,"60s 一镜到底 " 不是用户的核心需求。
因此爱诗把资源集中在提升视频生成的速度、质量和指令遵从优化上。
基于 " 分布匹配蒸馏 " 技术,爱诗在行业中率先将视频生成速度从 " 分钟级 " 压缩到了 " 秒级 "。为了保证视频生成的质量,团队在训练过程中引入特征自约束损失,稳定了视频生成的画质。
这两点经验,都指向了同一个方向:创业公司如何更高效地利用有限的资源,建立自己的优势。
不过,资源有限下的遗憾也是存在的。让王长虎最为扼腕的,是没有全球最早训练出对标 Sora 的模型。
" 早些年,有些钱我们没有拿。" 他告诉《智能涌现》," 但回头看,我们应该多储备一些资金,尽可能地去拿钱,更早把模型做出来。"
当然,Timing(时机)对创业者而言同样重要。
2023 年 4 月,爱诗成立在一个视频生成还是非共识的时间点。
非共识创业的难点是摆在明面上的。王长虎回忆,当时,市面上还不存在高性能的视频生成模型,小型创业公司常被市场质疑的一点是:是否有训练高性能视频生成模型的能力和资源。
但另一面,非共识创业,也让爱诗免受行业 FOMO(害怕错过)情绪的负面影响。王长虎告诉我们:" 这反而让我们在早期处于一种更健康的状态:估值与能力相匹配,发展节奏更扎实,而不是被高估值所左右。"
再者,比别人更早,也意味着技术和产品上的先发优势。2024 年下半年,随着 Sora 将 DiT 架构变为视频生成领域的技术共识,海内外不少大厂和初创公司才接连入局,发布视频生成模型。
彼时,PixVerse 的全球用户规模已经达到 1000 万,并且已经实现了规模化收入。近期发布的视频生成模型 V5,也在独立测评平台 Artificial Analysis 的最新测试中,登顶全球图生视频榜单,在文生视频榜中位列全球第二。
Artificial Analysis 的最新测试
视频生成界,也会诞生 "Canva" 和 "Photoshop"
视频生成的游戏,到底有没有创业公司的机会?这是创业以来,王长虎和团队最常被问的问题。
爱诗几乎用了 2024 年一整年,来回答这个问题。那一年,他们面对了 Sora 的突袭,快手和字节的轮番倾轧。
但事实证明,在一个相当初期的赛道,机会没有独属于强者。2024 年 7 月,紧接着可灵 AI,爱诗发布了 PixVerse V2,成了国内首个发布可实际使用的 DiT 视频模型的创业公司。
至于未来的格局,王长虎判断:AI 技术并不是简单把抖音等短视频平台中的内容替换成 AI 内容,而是带来了全新的交互方式:
" 一旦视频能实现实时或准实时生成,用户在观看内容的同时,也能即时调整、生成新的内容。" 在他看来,视频行业全新的交互逻辑,注定会像 " 短视频孕育出抖音 " 一样,孕育出新的国民级产品。
2025 年,视频生成赛道的竞速,已经从 " 比谁先复刻出 Sora",拉到了产品差异化竞争。
一个明显的迹象是,视频生成领域的不同玩家,逐渐分散至风格、用户画像、功能各异的细分领域。
比如,前商汤秒画负责人刘宇成立的 Vivix Group Limited,其产品 TipTap 聚焦在 AI Porn 的生成;前光年之外联合创始人曹越创业做的 Sand AI,则跳出了主流的 DiT 技术路线,采用自回归路线,实现了视频的无限扩展生成。
爱诗聚焦的用户,是没有视频制作技术的普通人。王长虎对我们表示,由于视频创作门槛高,加之工具供给不足,目前 95% 的人的视频创作需求还没被满足。
他将目前的产品比作视频生成界的 Canva," 更大众,更平权 ",而其他视频生成产品则是 Photoshop 和 Figma,服务的是专业创作者。
在外界的视角中,2024 年 11 月以来," 美人鱼变身 "" 毒液变身 " 等特效模板的全球爆火,是爱诗押对的幸运一棋。
△ " 拍我 AI" 提供的视频生成模板。图源:" 拍我 AI" 官网
但王长虎认为,特效模板走红,是迟早的事," 模板能够将用户的创作门槛降下来,是团队自然而然做出的决策。"
如今,为 C 端用户提供视频生成模板,也是爱诗产品生态中重要的一部分。在社区中,不仅有官方制作的模板,还有不少来自用户自发的创作。比如,拍我 AI 上,一款用户做出的 " 衣柜变装 " 模板,获得了百万级以上的浏览量。
产品的定位,也决定了爱诗目前最看重的几个指标:用户增长、留存以及社区行为活跃度(如 UGC 模板创作)。
视频生成行业的发展,还未到终局。著名风投机构 BVP 在 2025 年 AI 报告中提到,在接下来 1 年中,视频生成领域的格局,大概率会像如今的语言模型那样尘埃落地。
谁能覆盖成本、稳步扩大用户规模,谁就更有可能留在牌桌上。
来源:36氪