视频大模型全面开放使用：秒生成，支持动漫风格

允霆科技科技 2024-07-30 390 0 视频大模型全面开放使用秒生成支持动漫风格

·国产视频大模型Vidu全球上线，开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分辨率最高达1080P，生成一段4秒片段只需30秒。

7月30日，国产纯自研视频大模型Vidu（www.vidu.studio）全球上线，开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分辨率最高达1080P，30秒可生成一段4秒片段。目前生数科技推出Vidu免费版和标准版。免费版可生成4秒视频，支持超清和一个并行任务，标准版可生成4秒和8秒视频，每月7.99美元，支持超清、商用、超清后去除水印，支持两个并行任务。

澎湃科技实测。提示词：一只穿着运动服的巴哥在中餐厅吃面条，桌上放了一杯热气腾腾的茶，餐厅环境整洁，背后的时钟显示现在已经中午12点半。

生数科技表示，目前市面上的AI视频工具大多局限于写实风格或源于现实的想象。Vidu除了能实现常见的写实等多元风格外，还新增动漫风格选项。这一功能不仅保持动漫风格的一致性，还显著提高了画面的稳定性，视频大模型全面开放使用：秒生成，支持动漫风格避免了其他视频生成工具“动漫化”时常见的画面跳变和风格突变等问题。在画面质感上，无论是科幻、西部还是浪漫、动画等类型的电影，Vidu可生成符合对应风格的画面片段。此外，Vidu还能生成影视级特效画面，如烟雾、炫光效果、CG特效等。

Vidu生成的特效片段。

在“图生视频”板块中，Vidu上线了角色一致性功能，用户可上传人像图或自定义的角色图，通过文字描述指定该角色在任意场景中做出任意动作。这一功能可简化视频制作流程，节省设计和调整角色形象的时间，同时提供创作自由度。

澎湃科技实测。上传熊猫照片，用作起始帧，提示词：熊猫吃竹子。

生数科技表示，Vidu可理解并生成提示词中的文字，包括字母、数字等，并能生成文字特效。对于第一人称、延时摄影等镜头语言，Vidu也能精准表达，用户只需细化提示词，即可提升视频可控性。

澎湃科技实测。提示词：一辆红色小轿车行驶在高速公路上，距离限速120公里的指示牌越来越近。高速路周边是郁郁葱葱的树，风格为动漫。

不过画面中并未出现限速120公里的指示牌，而是出现了“200kh”。

生数科技成立于2023年3月，核心团队成员来自清华大学人工智能研究院，首席科学家朱军为清华大学教授。朱军曾表示，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。