对话生数科技 Vidu 产品负责人:100 天千万用户之后,2025 年视频生成产品会变成怎样?
2025-1-21 10:19:0 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

AI Native 不重要,关键是要解决用户问题。

作者 | Founder Park
悄摸的,Vidu 上线 100 天,用户增速全球第一,前不久我们聊过的 Vidu 1.5 版本多主体一致性新功能,已经被用户拿来生成了超过千万次。
2024 年是视频生成的大年,Sora 横空出世,带火了整个行业,国内大厂和创业公司接二连三地发布自家的视频生成模型,其中国内在全球第一个发布的视频模型,就是具有清华系背景的生数科技推出的 Vidu。
趁着这两天刷屏的 Vidu 2.0 版本的发布,我们找到生数科技产品副总裁、 Vidu 产品负责人廖谦,和他聊聊 Vidu 产品增长背后的故事,以及生数科技如何理解多模态大模型产品的未来。
还有最重要的,2025 年,视频生成的市场会发生怎样的变化?

01

AI 的终极形态催生全新的内容平台
FP:像 Vidu 这种视频生成产品未来会怎样,生数科技怎么思考的?
廖谦:我和团队一直在沟通、探索一个问题,那就是多模态的终极形态可能会是什么样的?
这里需要提到我们对 AI 视频生成发展关键里程碑节点的推断,内部称为多模态大模型发展的「奇点时刻」,主要从生成速度、叙事能力、多模态能力三个维度来评判,根据不同实现程度,分为几个等级,类似于自动驾驶划分的六个等级,来判断目前多模态大模型发展程度和阶段。
图片由生数科技提供
有了这样一个明确的发展路线和目标,我们就能倒推现阶段我们需要做什么。
你可以看到 Vidu 一直有着自己的节奏。
在速度上,2024 年 7 月底全球上线 Vidu 1.0 版本时,Vidu 单片段的实测推理速度就已跑进了 30 秒以内,当时就实现了全球最快,此后不断迭代,像这次发布 Vidu 2.0 生成速度直接突破至 10 秒内。
在一致性上,我们从角色一致到主体一致再到 1.5 版本的多主体一致,2.0 版本在多主体一致上又有了进阶,画面更稳,主体场景更像。
在多模态上,我们目前还是单视频模态。今年我们会有融合音频模态的产品出来。
未来多模态模型的终极形态是三个维度都达到我们定义的高标级别,到那时会催生出一种全新的内容平台,实时的、可交互的、纯粹个性化的。
图片由生数科技提供
我们来想象一下这样的场景:当你在刷短视频或者长视频内容平台,甚至 VR 时,假如这个视频是关于《天龙八部》的,你代入的角色是段誉。当你看到一个大恶人时,你可以通过文字、触摸屏幕、语音,甚至像我们现在这样交流的方式进行输入,选择逃跑、跟他拼了或者跪地求饶。假如你说「跟他拼了!」,当多模态模型接收到你的指令后,就会立刻根据你的要求实时重新生成内容。这会是一种全新的内容消费方式,它会对一部分人群有非常大的吸引力。
并不是说这种方式一定会颠覆 TikTok 或者 YouTube 之类的内容平台,但它很有可能从中诞生一个全新的内容平台。
FP:新发布的 Vidu 2.0 版本,有什么样的变化?
廖谦:对于 Vidu 2.0 版本来说,我们要足够快,并且还会更快,内容的一致性也要更好。这是从最终目标倒推出来的,也是我们会在很长一段时间内不断去迭代优化的方向。
Vidu 2.0 版本还有一个变化,加量不加价。同样的钱,你可以得到更多的积分,同时我们还支持闲时生成,也就是错峰模式。因为之前生成一个 1080P 的视频,要几块钱,价格还是挺贵的。只有当一项技术的成本大幅下降的时候,它才有可能被更广泛地应用。所以,Vidu 2.0 版本的特点就是速度快、一致性更好、更 affordable。
再讲讲另外一个问题,为什么有些公司一开始就很明确做 ToB 业务,有些公司就只聚焦在 ToC 业务?生数不管团队规模多小,我们都希望 ToB 和 ToC 业务并行发展。因为 ToB 业务本身是非常有意思的,而且还有一个很重要的原因,刚刚提到的如果那个终极愿景的技术被开发出来,它可以应用在游戏领域,无论是游戏制作,还是纯粹的互动游戏;也可以应用在 AR、VR 甚至社交领域。
像 Character.AI,AI 陪伴类的产品,目前主要是文字形式的,也可以是图片形式的,那为什么未来不能是多模态的呢?这都是很自然、很容易理解的演变方向。所以我们要做 ToB 业务,把这样的技术开放出来去,这样才能让整个行业、整个社会发展得更好。这也是朱军老师(生数科技创始人兼首席科学家)之前贴在我们公司的 slogan——提升人类的生产力和创造力。
FP:用户的反馈对于产品迭代有怎样的帮助?
廖谦:你会发现,这一波AI模型有意思的地方就在于,连开发者自己都不太清楚模型的边界究竟在哪里。这时候我就特别理解为什么 OpenAI 刚开始推出 ChatGPT 时一定要免费,可能他们自己也不确定模型的边界,所以想让大家多多尝试,充分挖掘模型的潜力,这其实是一个共创的过程。
用户会发现一些新奇的玩法,然后在我们的高创群里分享,用户会聊到说「我打赌他们不知道」,意思是我们官方也不知道 Vidu 还能这么玩。
举个例子,如果体验过 Vidu 的多主体一致性功能,就知道我们原本的设想是用户上传三张图,分别对应三个主体,比如一张图是人物,下一张是物品,还有一张是场景。
但有的用户脑洞就很大,就上传了一张「九宫格」或者「三宫格」,里面包含不同角色、不同背景、不同形态等各种主体信息,然后上传这一张「组合图」。结果发现,这样玩效果还挺好,背景信息也能有效利用。再比如用户上传了一张青草绿地的环境图,竟然还能通过模型改变图中的天气。
FP:你刚提到 Vidu 有的功能会给用户一些使用的引导,有没有留白的部分呢?
廖谦:在我看来,像模板这类东西就没有给用户留白,它是一种既定的、写死的任务形式。而文生、图生、参考生视频实际上是很留白的。它给用户留出了很大的发挥空间。我也希望通过给双方多一些激励的方式,鼓励用户多分享他们的想法和使用心得,让大家多多用起来。
FP:从产品角度来看,如果要定义一个或者三个产品,最需要做好的关键 feature,你认为会有什么?
廖谦:要去做好的事情,换算成指标,那就是提升留存率以及人均生成视频的次数。其中,提升人均生成视频次数是首要任务,其次是提高导出率,导出率就相当于下载率。
从本质上讲,这两个指标反映出模型是否真正解决了用户的实际问题。如果模型切实解决了问题,用户生成视频的次数自然会增多;要是解决得足够出色,用户下载视频的意愿也会更强烈。毕竟,假如模型效果不行,用户可能需要生成 10 次视频才有 1 次值得下载,这无疑会大大增加运营成本。

02

从模型驱动到模型+用户双驱动
FP:上次跟鲍凡(生数科技 CTO)聊,提到 Vidu 1.5 版本在全球首发的多主体参照功能是智能涌现的结果,这个涌现其实是产品测试团队发现的,可以讲述下当时的经过吗?
廖谦:其实就 Vidu 1.5 版本而言,最开始并不是奔着这个主题去的。之前多主体一致性、多模态上下文一直是我们的研究方向,我们还为此制定了循序渐进的步骤。然而,在完成步骤一和步骤二后,惊喜地发现,步骤四和步骤五的部分能力竟然提前涌现出来了
在 Vidu 1.5 版本发布大概前一周,我记得是晚上十一点多,我们在内部测试时,发现这个能力涌现了,而且各方面测试效果特别好。然后高管立刻拉了个会议进行协商,两个小时之内,我们就把后续事宜敲定了。要是在大厂,这么重大的事情,层层汇报审批,没一两个月根本定不下来(笑)。这就是创业公司的魅力所在。
FP:Vidu 1.5 版本发布之后,用户端效果如何?
廖谦:基于多主体一致性,用户已经生成了上千万条视频,用户以及客户都给了我们非常积极的反馈。这对整个团队来说,是极大的鼓舞。
Vidu 1.5 版本在多主体一致性方面还有提升空间,所以后续我们会推出 2.0、3.0 版本。不过,1.5 版本能力的涌现还是让我们惊喜。要知道,生数科技做的事情非常具有创新性,作为行业最早的前行者是一定要承担白茫茫的探索的,尤其是多主体方向的确定,在我们做的时候,全球范围内没有其他任何公司在投入做这方面。在我们取得成果后,不少友商纷纷跟进,这对我们来说也是好事,说明这个方向是大家都认可的。
FP:Vidu 距离产品上线过去差不多半年时间,这半年里产品有哪些变化?
廖谦:在我去年加入之前,Vidu 先技术研发后进行产品化的思路更明显。后面我加入之后,会更多地从用户的视角出发去推动产品的发展。
比如推出了更符合用户心智的首尾帧功能,在全球范围内的用户反馈很好。一个资深的日本导演就曾跟我分享,他们只用四张关键帧画面,其他都交给 Vidu 首尾帧,就能生成一个人物表情丰富、光影交互自然、动作流畅,媲美 S 级的动漫视频片段。此外我们在品牌视觉层面也做了整体升级,上线了 AI 模板功能等。
AI 模板主要是为了解决小白用户提示词写作门槛高的问题。像我这样审美比较直男的人,很难写出好的提示词,这并非是智商的问题,而是因为制作视频需要很强的美学和空间想象能力。所以,我们把用户可能普遍会做的一些固定任务进行模板化处理,同时对提示词进行优化,甚至对模型也做一些调整优化,这样用户就不用自己写提示词了,大大降低了视频生成使用门槛。
总之,在产品层面,从模型驱动变成了模型+用户的双向驱动。
其次,我们的迭代速度变得更快了。现在每周都会进行一到两次迭代,有时候不会对外宣发。我们希望通过这种更加敏捷、小步快跑的方式,获得更好的用户反馈。
最后,团队规模也有了一定的扩张,能让我们的工作能够进展得更快一些。
FP:刚提到的 AI 模板,似乎其他视频生成产品也有类似的功能?
廖谦:其实像 Sora 之类的包括海外的产品配备这个功能是比较少,有些友商不会把它定义为模板,会把它定义成特效。但这是体现出产品层面上,大家的底层思考是截然不同的。
如果把 AI 模板功能定义为特效,那就意味着大家觉得大模型很适合用来整活,能带来显著的用户增长和广泛传播。但是如果把它单纯定义为特效,就有点定义窄了。
而如果把它定义为模板,目的是在于降低大模型的使用门槛。而且模板的应用不局限于泛娱乐场景,还能拓展到生产力场景。例如,我们最近与电商展开了一系列合作,甚至有些模板并未面向大众发布,而是在 ToB 层面进行售卖,很多模版能解决客户营销内容的制作问题。
FP:特效似乎更多是增长和市场驱动,Vidu AI模版的差异化在哪里?你说的底层思考具体表现是什么?
廖谦:首先,在商业化层面就存在差异。有些是以营销增长为驱动,而我们制作的一些 AI 模板是能直接实现商业化。
其次,对效果的追求是截然不同的。娱乐性内容的质量好坏不「致命」,但生产力相关的内容如果做得不好,无法解决实际问题,就不会有人买单。
再者,行业 know-how 的沉淀也有很大区别。娱乐领域也确实有它的学问,像对热点、文化的把握以及对用户互动心理的洞察等。但在生产力场景中,要求对特定行业和场景有深入了解,并且要考量 ROI 是否为正。举个例子,如果制作一个模板,调试成本过高,而实际操作起来,客户通过其他简单方式就能达成果,那就没必要开发这个模板。
在具体执行过程中,数据采集的方式以及对输入输出的定义,两者间的差别也挺大的。

03

海外主要是自然增长,
去年在投放上没花一分钱
FP:相比大厂,Vidu 还挺低调的,但这次公开千万用户数据,比较好奇增长是怎么做的?
廖谦:增长是自然而然的,实际上从发布的时候就超出了预料。AI 视频生成在前期主要卷的不是产品,是技术,哪家的技术好,生成效果好,用户就用哪家,而不是依赖谁推广得更猛、谁更有名气,刚开始他们并不会忠心于一家,这实际上给了我们这种在技术层面领先的企业一个公平竞争的机会。
因为依赖于清华人工智能研究院,我们公司的技术人才绝大多数在 AI 层面都天然地具备全球一流的研发能力,技术的优势在首发时就得到了充分体现,当时全球用户都用实际的付费表达了对产品的认可,海内外社交媒体上为 Vidu 产品站台的 AI 创作者们也都是自来水。
到了增长的第二阶段,实际上更多是将技术进行场景化转变,这时候如何理解用户的使用场景,如何进行产品化实现,满足用户本身的需要来实现增长就变得相当重要。
文生视频跟图生视频带来了比较好的流量。其次在动漫效果上表现得特别好,用户在社交平台对 Vidu 在这一块的评价特别高。而且我们首创了很多新生功能,比如去年上线了多主体一致性功能,也给 Vidu 带来了非常多的用户,目前参考生视频功能已经突破了上千万使用量。
回到事情本质,用户增长背后还是模型本身实力过硬。其他增长手段不管好坏与否,都是基于产品本身的良好效果才能发挥作用。
FP:生数科技在大家印象里,还挺「土生土长」中国团队的,但是海外成绩意外的好,可以分享下生数团队海外是怎么做的?
廖谦:Vidu 上线的 Day 1,我们就做出了全球化的决策,事实证明这个决定非常正确。第二点,Day 1 我们就开启了商业化。有些同行在产品推出初期是免费的,不说哪种方式是对还是错,这只是不同的商业抉择。我们的产品上线首日就是付费制,尽管用户有一定的免费使用次数。因为我们的模型产品给用户带来了"很爽"的体验,上线后注册用户和付费用户增速都很快,我们在 20 天内突破了 100 万用户,100 多天时用户规模突破 1000 万,这充分展现了产品自身的魅力。
在大模型领域,无论是大语言模型还是多模态模型,产品初期其实就是「模型即产品」。随着用户数量不断增多,应用场景不断丰富,会发现产品和运营方面能做的就更多了。总的来说,我认为上线首日就开始商业化、全球化,以及模型效果足够好,这些是我们能够实现快速增长的核心原因
FP:我们似乎没有看到过 Vidu 在海外的广告,你们主要投哪里?
廖谦:压根没投。在 2024 年,投放这一块我们一分钱都没投。当然查不到我们的广告投放,因为我们压根没花钱。
为什么要这么做呢?
首先,不管是多模态还是 LLM,也就是当下统称的大模型,它们本身就自带流量。对我们来说,打磨产品是最重要的,当下时代的竞争,口碑更重要,产品推广在最开始一定是自然而然的,后期会再进行聚焦式大规模投放,到那时,视频生成基本人人可用,走近普通人的日常。
2025 年,AI 视频生成技术的极大提升已经让这种趋势已经越来越明显。因此,付费投放将成为常态。不过,我们做付费尝试并不是为了烧钱,而是针对海外一些重点国家、重点区域和重点行业,通过付费这种方式,能够更快速、更精准地触达目标群体。
FP:你们目前推广的社媒主要是在哪些平台?
廖谦:主要还是 Twitter、YouTube、TikTok。其实我们只是针对于这些社群的用户做了一些引导,告诉用户你可以这么玩,使用户裂变更快。
FP:所以 Vidu 的用户是在大家看不到的地方,突然几十万、几百万就涨起来了?
廖谦:对。而且特别有意思的是,它是此起彼伏的,你能感觉到不同国家地区的板块联动性。比如最近这一片火起来了,等过段时间那边突然间又涨起来了……
FP:日本、美国这样的发达国家地区,它们会是视频生成业务比较重要的市场。当我们审视市场时,比如说今年打算投入资金做推广,那对生数科技来说,主要是依据什么来划分市场呢?
廖谦:我们有两条业务线。第一个方向简单理解为 SaaS 模式,也就是大家现在能体验到的,带有页面的产品。我们的重点市场会放在北美、日本、中国这些区域。通俗来讲,为什么选择这些地方呢?因为这些地区用户的付费意愿高,毕竟我们的产品是商业化的。而且它们人口基数大,市场规模足够大,尤其是美国和日本。美国和日本不仅是「文化高地」,用户付费意愿也很强。从我们对现有用户的分析以及过往全球化的经验来看,这两个市场是必须要拿下的。
另一条业务线是 MaaS 模式,简单来说提供 API 和云服务。在这方面,我们的重心会从中国逐步向外拓展。因为 MaaS 主要是通过重 SLG(解决方案销售驱动增长)的方式来发展业务。在中国,生数科技做 ToB 业务相对更容易些。目前,我们在海外的这块业务也即将于今年上线并进行尝试。不过,我认为在海外做 API 的 ToB 业务挑战会更大。因为 SLG 模式需要更强大的组织架构来保障。如果你想在美国销售 API,那肯定得在美国有 office,有 local 同事。相比 SaaS 采用的 PLG(产品驱动增长)模式,这种方式天然就会更具挑战一些。
FP:像美国、日本市场的 Vidu 用户,他们对哪块的需求会非常明确?
廖谦:就拿日本市场来说,他们对二次元的关注度非常高。日本用户生成的内容以及给我们的反馈,大多集中在二次元领域,而且评价都特别好,在 Twitter 上就能搜到相关内容。
再看美国市场,与日本相比,写实风格的内容更多,但二次元相关的也不少。在美国,我们有一位 60 多岁的老奶奶使用我们的产品制作了给儿童看的教育动画短片,在 YouTube 上就能搜到,真的挺令人感动的。
在美国,还有一些类似国内所谓「AI 编导」或「AI 导演」的创作者,他们会用我们的产品尝试制作短片、短剧。其实在国内也有类似情况,我发现影视行业对此态度有些两极分化,愿意接受的人非常积极地拥抱,而不愿意接受的人则完全抵触。并且大家对于这类合作都比较谨慎,在作品完成之前,不太愿意对外披露相关信息。

04

重视 AI Native,
不如解决用户本质问题
FP:对于 AI Native 产品而言,感觉目前存在着不少问题。最典型的,很多产品在推广投放后,热度有起有伏。有的产品在推广不久就暂停或者消失了,大家开玩笑叫 ICU 产品。你怎么理解 AI Native 产品现在出现的问题?
廖谦:其实我个人特别反感「AI native」这个词。因为很多时候,解决问题才是关键,没必要非得强调用 AI。就好比,我们不会说自己是「中餐 native 的中国人」,这很奇怪。
这跟我的经历有关。我算是 AI 老兵,上一次 AI 浪潮的时候,我服务过一些政府企业。那时我家在深圳,深圳夏天经常发大水,政府领导就希望通过 AI 识别关键街道的水位变化。当时打算用摄像头来做识别,领导问我能不能做,我说能做,但如果问我有没有更好的办法,我觉得插个尺子在那里,再接个传感器,又快又方便又准,成本还低。
所以我觉得,没必要非得执着于「AI Native」。
为什么 Vidu 在 2024 年不做投放呢?据我了解,不管是大语言模型还是多模态相关产品,目前的留存率都比较低。现在的情况不是说你花钱买了用户他们就能留下来。实际上,是产品、用户场景以及需求痛点把握得不够精准,模型也还需要进一步迭代。这时候去烧钱做投放是不明智的。。
所以我认为,不管是不是 AI,关键在于解决用户使用场景的本质问题,这样企业才能存活下来,并且发展得更好。至于是不是用 AI,真没那么重要
FP:所以最核心的是到底用户遇到了哪些问题,而不是要设计一个什么样的产品。
廖谦:对,做 AI 的人,经常会有个毛病,拿着锤子找钉子。上一代就这样,就拿我刚刚讲的例子来说,即便有 AI 视频识别技术,也没必要在任何场景下都非得用它。你要是盲目地海量购买用户,结果却发现留不住他们。为什么留不住呢?你解决不了我的问题,我留下来干嘛?
所以对于整个行业而言,发展速度确实很快,但还没快到让人慌不择路的地步。我们得有自己的节奏,对技术要有准确判断,要清楚到底什么时候技术发展到了可以疯狂快速买量的阶段,这一点自己心里必须有数。
FP:所以,很多人认为,在 2025 年,甚至当下就可能会出现一波行业回流现象。大家察觉到所谓的 Native 产品,尤其是纯 Chatbot 存在一些问题。很多人开始寻找更具特色的应用场景。
廖谦:我觉得 Chatbot 这种文字对话的方式并不是一个很好的交互方式,如果它是个很好的交互方式,那微软也不用做 Windows 了,乔布斯也不用做 Mac 了,全部命令行结束了。因为 ChatGPT 出来了之后 2023 年这类 Chatbot 其实有疯长,非常多的产品经理在鼓吹用文字交流什么的,我觉得他们并没想清楚背后的核心。
FP:我们之前探讨 AI 领域中表现出色的公司时,有一家公司绝对绕不开,就是 HeyGen。想问问生数科技,如果我们在多主体一致性方面做得很好的话,你觉得会不会出现类似数字人这样优质的落地场景,能够快速助力公司实现大规模盈利?
廖谦:我特别喜欢 HeyGen,在它还不叫这个名字的时候我就开始关注了。他们之前在深圳,而我从 2021 年就也在做数字人,也算是有四年经验的「数字人老兵」了。HeyGen 做得相当出色,给了我很多启发。
我特别欣赏他们在打造产品 MVP 的做法。他们不会一开始就着手做产品,而是先判断相关服务有没有市场,是否值得去做。如果这个服务可行,有意义,他们才会进一步去开发产品,这对我启发很大。所以我现在也在借鉴这种思路。其实,产品 MVP 不一定非得是一个实际的产品,也可以是最小可行化服务——MVS,也就是先以服务(service)的形式呈现,看看用户会不会为此买单,衡量一下 ROI,再预估开发所需成本。这种从 MVP 到 MVS 的转变,对我来说是非常宝贵的经验,目前我也在进行类似的探索。
说到数字人,我们今年一定会推出能够直出音频的多模态技术,这个音频会涵盖环境音、人物音等所有声音元素。所以我觉得数字人这个赛道挺危险的(笑)。
FP:MVS 可能是眼下对整个行业来说都可以去参考的一个模式?
廖谦:比如我们找了一批用户来做内测,一开始,你给我提示词,我给你写,我给你看一下这个效果是否满意。当我们有了一定的人力后,就给用户提供一个 API,用一个很简单的页面来服务。
而且在服务全球用户的过程中,我们发现他们有时会提出这样的需求:「我不需要你的产品,我需要的是你提供的内容和服务,你们能不能做?」当然可以。那在这种情况下,有人会问,我们要不要先搭建一个平台呢?其实没必要,这个时候我们应该先采用 MVS 模式。
FP:也是非常符合国情的一个选择。
廖谦:对,其实我认为很多这样的产品哲学其实它并不高深。中国的很多小商小贩早就有这种 sense,只是说我们在这个行业,我们作为一群受了高等教育的人,反而缺乏了这方面的敏锐度。
FP:都在选模式。所以这也是创业公司的一个好处,你很多时候会从更本质一点东西去思考。
廖谦:对,创业公司东西迭代真的会更快,我能在里面做很多创新,如果在大厂,做这样的创新太难了。

05

Sora 重视变现,
这对行业是好事
FP:Sora 发了以后,咱们的用户有流失吗?
廖谦:没有(笑),甚至还微涨了一点。
Sora 体验的人够多了,我讲一下它的优点,可以看到非常明显的一点,OpenAI 现在对产品更加关注了。
ChatGPT 推出至今已有两年,到现在还是只有一个对话框,这挺让人意外的。这也从侧面反映出,OpenAI 之前作为一个非营利组织,更多关注的是研究,对商业化没那么重视。但从这次推出的 Sora 来看,它对商业化和产品都重视了很多,这是个好事,说明整个行业在这方面达成了共识。
假如 OpenAI 推出的 Sora,不管它实际质量如何,要是免费提供,这其实对行业发展不利,会引发恶性竞争。但 Sora 将自身定位为生产力工具,重视工作流程、产品打造和商业化,在我看来,这简直太好了,超出了我的预期。
FP:一个是 Sora 在产品策略上面跟 ChatGPT 刚推出时完全不一样;另一方面是它对于 workflow 的重视,关注生产力场景。
我个人觉得在视频生成领域,可以很肯定地说国内比 OpenAI 乃至国外都更为领先。这是什么原因呢?
廖谦:这是我个人的观点,第一,我认为当下人才是最为关键的因素,尤其是算法方面的人才。刚刚也提到,我和国内不少同行都有联系,发现视频生成领域的核心力量大多是 95、96 年左右出生,毕业时间前后相差一两岁的博士。他们要么刚毕业,要么还处于博士四、五年级阶段。这是因为这个阶段的他们精力充沛,在研究 diffusion、Transformer 等技术时,既有足够的精力,又有大胆创新的勇气,敢想敢做。所以,你会发现做出核心贡献的人才画像都比较相似。像朱军老师的团队,就一直在这个领域深耕沉淀,他的学生很多都是国内外视频生成领域的高管和核心主干,这一点至关重要。
其次,在整个视频内容生态方面,尤其是短视频领域,中国相比海外要领先 2-4 年。我去美国能明显感觉到中国在这方面的优势。中国的视频内容生态,从产品的完善程度,到庞大的用户基数,再到基于此构建的各种商业形态,比如电商、生活服务等业务,在全球范围内都处于领先地位。在这样的环境下,中国用户天然就会对新的视频相关技术和产品接受度更高。
所以,我觉得第一个优势在于人才,第二个优势则与中国的大环境有关。再加上这一轮大语言模型的发展中,中国的大语言模型相对有些落后,但中国人如此聪慧,自然会思考下一个发展方向,那肯定是多模态,所以大家早早地就开始布局。就拿 OpenAI 举例,它最初做 Sora 的团队有人离职,这肯定会产生一些影响。
FP:以 GPT-4o 这样的文本生成模型为例,无论是在国内还是全球范围内,都属于引领着文本生成大模型技术的发展方向。感觉视频领域很不一样。我们好奇目前的行业里是否有了某些共识,比如缩短生成时间、提高速度这种明确的大方向,还是大家在各自摸索?
廖谦:在我看来,目前大家做事的目标都挺明确的。之前,大家都很关注美感、物理规律等方面。Vidu 推出主体一致性、多主体一致性功能之后,友商们其实都在 follow。我觉得有点追求的友商,今年上半年大概率都能推出类似成果。
实际上,多主体一致性是我们最初提出来的,现在已经成为行业的专有名词,多主体一致性功能切实解决了客户和用户的需求。要知道,在进行内容叙事时,必须保证一致性,而且这种一致性不能仅仅局限于人物层面,也不能只停留在单主体的一致性上,这是我的判断。当然,我预计在半年之内,就能看到最终的结果。

06

内容创作和消费的 gap 在缩小
FP:我们究竟该如何定义当下的视频生成产品呢?在你心里,这个产品在现阶段是怎样的?在你的设想中,它应该是什么样的呢?
廖谦:视频生成领域在内容层面极有可能催生出一种全新的互动式内容平台。还会衍生到游戏、AR、VR 乃至社交领域。就拿教育领域来说,美国那位老奶奶的使用场景就是一个很好的例子,而且我们目前正在与中国的一些高校展开合作。例如,中国的一些古诗词老师在教学过程中可以用视频生成的内容做教学演示,古话叫「一图胜千言」,不同的模态能够表达的信息量肯定是不一样的。
从更长远的视角来看,像近期备受关注的具身智能,还有英伟达最近研发出的技术,可以应用于自动驾驶模型的训练。我们认为,视频生成技术在这些方面的应用场景太大了,我会想到《三体》中描绘的火箭移民以及人们沉浸在虚拟世界的场景。我认为这种生成互动场景,在未来 3-5 年内必定能够实现。
FP:你们会提前预见到那个可被消费的感觉是什么样的?有没有什么标准?
廖谦:就跟好莱坞大片一样。我不能说它会像好莱坞大片那种一、两个小时。但是三五分钟的一个短片连续剧之类的,今年一定会出现。
FP:对于 2025 年,从生数科技的观察来看,你认为在产品形态层面会发生哪些变化?
廖谦:我认为会出现几个变化,一个是趋于平台化,另一个内容生产与消费之间的 gap 将会缩小。
目前,视频内容的生产主要依靠 Adobe、剪映、Final Cut 等工具,而内容消费则集中在 YouTube、爱优腾、抖音、TikTok、视频号等平台,生产和消费环节处于割裂状态,二者之间的 gap 是很大的。
但随着多模态技术的发展,我觉得内容生产与消费之间的 gap 会缩小,就像我之前描绘的 AI 互动场景,内容生产和消费将合二为一。
FP:剪映和抖音来自一家公司;那之前一个是 YouTube,一个是 Adobe,其实是更加合二为一了。在抖音里面也可以简单地做一些视频。
所以你会觉得这对于视频类或者说内容类的平台来说,是一个趋势。
廖谦:对,我认为这种生产和消费的 gap 会缩短,同时创作者的用户基数会变大,因为门槛更低了。
FP:我觉得这个观点相当有意思。它究竟是在我们观察之后,反过来为生数的产品提供助力?还是我们在开展工作过程中,所察觉到并且打算前进的一个发展方向?
廖谦:主要是站在用户层面的战略思考。
消费层面上我认为这个 gap 会缩短,没有说今年一定会完成这个转变。我们有一些爱好者,特别喜欢同人二创。假设咱们几个人特别喜欢海贼王,做出来的东西就会互相看,甚至还可以创作接龙等等,就会形成一个社区向的东西,大家就能玩儿起来。
FP:从这个角度出发,你们 2025 年产品上会朝这个方向有哪些动作?
廖谦:当前的产品形态之所以是这样,是因为多数是从创作者生产的角度出发,旨在帮助创作者更好地进行内容生产。然而,如今已经有不少平台和团队大家在这个方向都有 sense,都在探索,但对于具体情况,比如今年会怎样发展,不同的人有不同的看法。
但简而言之,内容平台的想象空间肯定要比内容创作工具大,高出一到两个数量级,这是行业内资深从业者都会有的 sense。当然,我不是说做内容工具不好。退一步讲,我觉得现在可以说,短期内我们的重点还是搭建一个内容生产平台,把内容生产这件事本身做好。因为如果内容生产做得不够出色,产出的内容不够吸引人,那我之前提到的那种最终的理想形态,就完全是无稽之谈。
把内容生产做好之后才能进一步考虑如何将其与内容消费更好地结合,探索是否会有新的模式出现。即便在内容消费方面暂时没能取得很好的成果,仅仅是将内容生产做到极致,做到全球顶尖水平,我觉得对于一个创业团队而言,这也是非常了不起的成就了。
FP:在 2025 年,视频生成产品的用户群体是否会发生变化?
廖谦:2025 年其实我们内部有一个共识——会有大量的专业创作者涌入,今年会出现很多真正可被消费的内容,之前做的那些内容更像尝试。
FP:如果我们要面对用户去说话的话,那你会希望什么样的人在 2025 年投入去做这些事情?比如说去体验 Vidu 或者市面上其他的视频生成模型。
廖谦:我想的是把目标人群分为四类。
第一类是大众群体,就像我们身边的很多人,他们做内容也就是为了发在朋友圈娱乐一下。
第二类是半专业群体,比如那些拥有几千粉丝到几万粉丝的自媒体人。
第三类是专业群体,像是 AI 导演闲人一坤,或者做 AI 互动剧的专业人士。
第四类是商业场景中的人群。
我觉得今年,专业和半专业的人士会大量涌入我们的用户群体。同时,大众用户也会大量增加,不过大众用户更多是冲着各种特效玩法来体验娱乐的。他们可能很难成为长期深度使用我们工具的用户,但却能很好地沉淀为内容消费者。相对而言,他们在内容生产方面不会有太多突出表现,而真正在内容生产上能做出成绩的,可能还得是半专业和专业用户。
FP:什么样的人会变成半专业用户呢?
廖谦:第一个方面热爱,第二个方面是能赚到钱。我这边有好多用户故事。我们有很多用户是建筑设计师,他们虽然叫设计师,但是他是画那种建筑图的,其实差别还挺大的,因为大环境造成的建筑行业低靡,使他们头脑必须灵活起来,去寻找更好的谋生方式,Vidu 是实现这部分群体赚钱的便利途径。AI 视频生成是新行业,很多人来尝试,获得了第一桶金,建筑设计师们是很有兴趣来尝试的一拨。

07

2025 年是淘汰赛
FP:2025 年,视频赛道大厂林立,OpenAI、Google 等都在,竞争压力只会越来越大。那么,Vidu 在接下来的发展中,自身优势是什么?又有哪些方面需要做好?
廖谦:在接下来的工作中,重点要做到的就是速度和一致性,还有多模态上下文方面进行优化。今年,我们会让上下文长度增加,一致性变得更好,同时还会推出直出音频功能,甚至会朝着实时生成这个方向在产品上进行一些探索。当然,因为我们对最终的局面早就有一个想象,然后基于这个设想倒推,来规划我们该如何开展工作。如此一来,我们就不会陷入盲目跟风和 follow 的情况。
我觉得 Vidu 还有一个优势在于,整个生数科技的核心管理层和同事们都非常纯粹,这或许是因为公司相当一部分人才占比是 AI 技术出身,且都是全球高学历高素质的人才构成的缘故,大家沟通没有那么多弯弯绕绕,高效、直接,聚焦问题本身,这让工作带来极大的成就感而不是疲惫感。
FP:在过去一年,这个行业的内卷程度夸张到了极点。你认为 2025 年AI行业会进入淘汰赛阶段吗?
廖谦:那些无法切实解决用户需求的产品肯定会被快速淘汰。虽说从逻辑上讲,任何有实力、有想法的大语言模型研发团队都理应朝这个方向发展,但并非所有团队都具备相应的实力与充足的创意,所以我觉得这是一场充满挑战的竞赛。
*头图来源:生数科技
极客一问
你看好 Vidu的未来发展吗
 

热点视频

马斯克:有时我也会感到恐惧,接受失败才能一往无前。
点赞关注极客公园视频号
观看更多精彩视频
 

更多阅读


文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653072431&idx=2&sn=659e9b3665f91afb56d99cd9ccc509f0&chksm=7e57d1994920588f7be2b75b6da29e163816667796e5ea2319255256738b7ae06af5096738ef&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh