AI视频大模型之争：谁能成为下一个DeepSeek-格隆汇

DeepSeek后劲依然很足，压力率先传导到大模型“六小虎”：零一万物宣布全面拥抱DeepSeek，放弃大参数模型竞争；百川智能两周年之际，创始人王小川反思战线拉得过长，不够聚焦，过早进入商业化，增加了组织的复杂度；月之暗面在沉寂多月之后，加入大模型价格战。

“百模大战”下，“六小虎”是在一年多时间内，“战”出来的大语言模型创业公司。而在国内AI视频生成领域，同样也“战”出一些创业公司：爱诗科技、生数科技、智象未来、Pika。（注：“六小虎”中智谱、MiniMax、阶跃星辰也有相关产品）

从ChatGPT、Sora、再到DeepSeek，在这场席卷全球的AI风暴里，大模型“六小虎”可谓几家欢乐几家愁，有的仍在牌桌上，但有的也就下了牌桌。

无独有偶，AI视频大模型赛道的创业企业亦是如此……鹿影科技被爆将被MiniMax收购，智象未来CEO梅涛近日在接受媒体采访时表示，今年对他们很重要，要留在牌桌上。

“目前行业普遍面临的都是商业化问题。”爱诗科技一名内部人士表示，今年公司旗下产品pixverse计划在国内上线，试图打开新的商业化版图。生数科技引入原字节AI“大将”骆怡航担任CEO，也被视为加快商业化进程的举措。

成本和商业化的“魔咒”

2024年10月，百度创始人李彦宏在一次内部讲话中称，Sora这种AI视频大模型的投入周期太长，10年、20年都可能拿不到业务收益，无论多火爆，百度都不去做。李彦宏一针见血地指出了行业内普遍面临的问题：高成本、商业化前景不明。

Sora正式发布后，中国银河证券研究院的报告显示，Sora对算力需求呈指数级增长，其根据Sora参数规模推演出的训练单次算力需求或可达到2.6×10^24Flops，相当于GPT-3175B的8.2倍。

智象未来一位内部人士认为，旗下产品Hi Dream AI没有在C端上做大量的投入，也与成本有关，“不仅需要消耗大量的算力成本，运营成本也不是一笔小数目。”目前文生视频企业的商业化选择比较相似，主要采取API接口和订阅制两种模式。

B端是目前企业的主要收入来源，从生数科技、智象未来公开的一些信息来看，主要是和广告、动漫、营销、影视、游戏等，与视频有着天然关联的行业产生合作。C端则大多数采用积分制，按月收费，分标准版、专业版和旗舰版，每月59元-500元不等。Vidu用户已覆盖200多个国家和地区，暂未公布月活。

与大语言模型一样，文生视频应用同样面临用户留存的问题。多位知名AIGC创作者均表示，市面上的产品或多或少存在一些“硬伤”，不会固定只使用一家或者两家的产品。

中信证券研报指出，文生视频领域虽在Sora发布后加速发展，新架构模型性能提升显著，应用场景潜力巨大，但要真正实现大规模商业化，还有很长的路要走，技术打磨、用户体验优化、市场教育，一个都不能少。

“今年将是视频模型商业化快速发展的一年。”生数科技首席科学家朱军表示，在文生视频领域，人们对视频消费的需求广阔，生成本身的价值密度更高，因而商业化进展也会更快。

近期，原字节跳动火山引擎AI应用产品线一号位骆怡航正式加入生数科技。骆怡航在AI商业化领域的丰富经验，或将为生数科技带去商业化落地经验和行业资源。

商业化加速的背后，是大模型公司的融资门槛正在变得更高。近半年，文生视频领域的融资消息，更是屈指可数。3月5日，爱诗科技宣布完成A5轮融资，其上一轮融资消息披露则是去年12月，完成A2至A4轮融资，总金额近3亿元。

去年12月，智象未来也宣布完成数亿元A轮融资，该轮融资由合肥产投、华富嘉业、湖北长江电影集团有限责任公司共同投资。生数科技最近一轮融资信息披露还是在去年6月，宣布完成数亿元Pre-A轮融资，由北京市人工智能产业投资基金、百度联合领投，中关村科学城公司等跟投。

“从VC角度来说，在不同阶段看的东西可能不一样，早期孵化阶段看团队质量，到今天的话既要看技术，又要看商业化。”朱军在公开场合表示，去年下半年投资环境变得谨慎了一些，今年上半年明显环境变得更好了。

天使投资人、资深人工智能专家郭涛也表示当前投资领域对相关赛道关注度持续升温，但已从单纯的概念炒作转向理性评估。

“一家独大”的概率不高

如同ChatGPT在2023年初带来的大语言模型创业潮，2024年2月，Sora的发布同样推动

文生视频模型加速进化。在这之前，爱诗科技PixVerse V1、Runway Gen1、Pika1.0已经发布。而后创业公司乘风而上，科技巨头纷纷下场。

2024年4月，生数科技发布了对标Sora的视频大模型Vidu 1.0，期间多次上线新功能，今年1月更新至2.0版本。PixVerse则从2024年7月开始，保持着近2个月一次的极速迭代模式。

快手可灵发布后，字节、腾讯混元和阿里通义万相相继加入其中，MiniMax的海螺视频App也全球上线……

从去年下半年至今，文生视频在保持主体一致性和连续性上，有了很大的改善，基本物理规律的遵循度也有所提高。

“但是发展至今市面上的主流产品整体差距并不大，比如从时长上来看，基本上都是5秒左右，最多20秒。生成时间过长，后面崩的可能性很大，这是普遍面临的稳定性不够好的问题。”海螺AI一名员工表示，“运动效果偶尔会出现误差，是因为当前视频模型大部分使用DIT架构，这一架构下AI无法真正识别物理空间。”

去年Minimax推出海螺视频时，其创始人闫俊杰曾表示，做视频模型这件事还挺难的。他认为视频的工作复杂度比做文本更难，因为视频的上下文文本天然很长，一个5秒的视频就有几M，但5秒看100个字可能都不到1K，这是几千倍的存储差距。

“这里面的挑战在于，之前基于文本建的这套底层基础设施怎么来处理数据，怎么来清洗数据，以及怎么来标注。”闫俊杰认为，基础设施需要升级，其次就是耐心，视频开源内容没那么多，需要付出的耐心更大。

除此之外，数据训练还受限于版权问题，比如此前MiniMax受到了爱奇艺的起诉。当前，各家的解决办法主要是和影视机构、视频平台等合作，智象未来创始人梅涛表示，高质量的版权数据资产，将成为人工智能企业核心竞争力之一，“2028年有理由相信大模型会把人类所产生的现有的、现成的数据消耗掉，面对未来可能出现的数据匮乏情况，应该提前布局，思考应对策略。”

受DeepSeek影响，开源的风同样吹到了AI视频领域。2月21日，阶跃星辰最新开源的是两款多模态模型——Step-Video-T2V、Step-Audio；2月26日，阿里的技术团队开源了文生视频大模型，包括全部推理代码和权重，最宽松的开源协议；3月初，腾讯图生视频与此前文生视频模型HunyuanVideo一样，发布即开源……

开源即意味着很多企业并不需要浪费资源投入到基础模型当中，因此在DeepSeek风靡全球后，关于语言大模型最后只会剩下三四家的说法，甚嚣尘上。梅花创投创始人吴世春认为大模型会呈现“3+1”的状态，即阿里、腾讯、字节跳动和DeepSeek。

那未来，AI视频行业是否会像大语言模型一样，最终只剩下几家留在牌桌上，专注做基础模型研发的呢？

在朱军看来，大概率不会出现一家独大的情况。“今天的视频大模型发展大部分是阶段性层面，目前已经可以服务专业用户，并生成好的内容，但整体上，模型仍有很大提升空间，需要从效率、成本等方面的突破，目前这个赛道还没到很拥挤的一个状态。”

另外，他还判断视频领域很难出现类似DeepSeek这种“靠效率遥遥领先”的模型，因为相较于语言模型，视频生成模型起步稍晚，业内已经形成了对效率优化的共识，未来则更期待让视频模型走向“更可控、更好用、每个人都能用”。

在郭涛看来，行业真正的“DeepSeek时刻”需要满足三大条件：生成视频时长突破1分钟且画质达到4K工业级标准，推理成本控制在1元/分钟以内，以及出现日活千万级的爆款应用。

谁能成为AI视频大模型赛道的“DeepSeek”？目前各家还都在路上。

AI视频大模型之争：谁能成为下一个DeepSeek

成本和商业化的“魔咒”

“一家独大”的概率不高

相关阅读

评论