- 支持文生视频(T2V)、图生视频(I2V)、多模态参考(Omni)三种模式,由传参自动路由
- 支持 480p / 720p / 1080p 分辨率,3 ~ 15 秒时长
- 支持首帧/尾帧/关键帧、参考图、参考视频、拼贴图、视频扩展、声纹同步等高阶能力
- 异步处理模式,返回任务 ID 用于后续查询
认证
生成模式
SkyReels V4 通过请求字段自动路由到对应模式,无需指定mode 字段:
| 模式 | 触发条件 | 能力 |
|---|---|---|
| T2V(文生视频) | 只传 prompt 及通用字段 | 纯文本驱动生成 |
| I2V(图生视频) | 传入 first_frame_image / end_frame_image / mid_frame_images 任一 | 首帧、尾帧、关键帧控制 |
| Omni(多模态参考) | 传入 ref_images / ref_videos 任一 | 主体参考、拼贴图、动作参考、视频扩展、声纹同步 |
@tag 机制:当使用 mid_frame_images / ref_images / ref_videos 时,每个元素需声明一个以 @ 开头的 tag(如 @image1、@Actor-1、@video1),并且 tag 必须出现在 prompt 中。可以把 prompt 理解为”剧本”,tag 则是指向具体素材(图片 / 视频)的”角色指针”—— 例如 prompt 写 "@Actor-1 走进 @video1 的场景",系统据此将 @Actor-1 对应的参考图主体和 @video1 对应的动作参考注入到生成过程。请求参数
通用字段
支持以下两个档位:
| 模型 | 定位 | 适用场景 |
|---|---|---|
skyreels-v4-fast | 速度优先 | 快速预览、批量生成、日常内容 |
skyreels-v4-std | 质量优先(价格较 Fast 高 25~30%) | 关键画面、细节要求高、正式交付 |
文本提示词,最长 1280 tokens建议详细描述场景、主体、动作、风格等,以获得更好的生成效果。使用
ref_images / ref_videos / mid_frame_images 时,prompt 中必须包含 对应的 @tag(如 @Actor-1、@video1、@image1)。示例:"@Actor-1 walks through a neon-lit street at night."输出视频时长(秒)
- 取值范围:
[3, 15] - 默认值:
5
视频分辨率可选值:
480p720p1080p(默认)
宽高比可选值:
16:9(默认)4:31:19:163:4
是否自动优化 prompt启用后,系统会自动优化您的提示词以获得更好的生成效果。
I2V 专用字段
视频起始帧图片 URL(jpg / jpeg / png / gif / bmp)传入后将以该图片作为视频的起始画面。
视频结束帧图片 URL(jpg / jpeg / png / gif / bmp)传入后将以该图片作为视频的结束画面,可与
first_frame_image 组合实现首尾帧控制。中间关键帧列表,最多 6 个。每个元素结构如下:
Omni 专用字段
参考图列表(所有元素
type 必须一致)。每个元素结构如下:参考视频列表,最多 1 个。每个元素结构如下:
支持的生成场景
以下场景skyreels-v4-fast 和 skyreels-v4-std 均支持:
| 场景 | 模式 | 必填参数 | 典型用例 |
|---|---|---|---|
| 文生视频 | T2V | prompt | 纯文本描述驱动,快速生成概念镜头 |
| 图生视频 - 首帧 | I2V | first_frame_image | 静图转视频,指定起始画面 |
| 图生视频 - 尾帧 | I2V | end_frame_image | 指定视频收束画面 |
| 图生视频 - 关键帧 | I2V | mid_frame_images(1 ~ 6) | 首 + 尾 + 中间关键帧,精准控制分镜节奏 |
| Omni 单/多主体参考 | Omni | ref_images(type=image) | 角色一致性、多主体同框 |
| Omni 拼贴图 | Omni | ref_images(type=grid,1 张) | 分步流程视频(教程、菜谱、操作示范) |
| Omni 动作参考 | Omni | ref_videos(type=reference) | 复刻参考视频的动作、主体或风格 |
| Omni 视频扩展 | Omni | ref_videos(type=extend) | 从已有视频续写后续剧情 |
| Omni 声纹同步 | Omni | ref_images(type=image)+ audio_url | 数字人口播、音频驱动对口型 |
参数约束
以下约束违反时请求将被拒绝并返回 422,且 不产生计费:| 参数 | 约束 |
|---|---|
prompt | 最长 1280 tokens |
duration | [3, 15] 秒;带 ref_videos.type=reference 时被参考视频长度覆盖(上限 10 秒) |
resolution | 仅 480p / 720p / 1080p |
aspect_ratio | 16:9 / 4:3 / 1:1 / 9:16 / 3:4;I2V 忽略;Omni 带 ref_videos 时忽略 |
mid_frame_images | 最多 6 个;time_stamp 必须为 -1 或落在 (0, duration) 区间 |
ref_images 整体 | 列表内 type 必须一致;不能与 I2V 字段同时出现 |
ref_images.type=grid | 列表长度必须 = 1;image_urls 必须为 1 张 |
ref_images.type=image | 列表长度 1 ~ 3;每项 image_urls 长度 1 ~ 5 |
ref_images.audio_url | 仅 type=image 支持,音频 ≤ 15 秒 |
ref_videos | 最多 1 个;video_url MP4 / MOV,≤ 15 秒 |
ref_videos.type=reference | 覆盖请求 duration(最长 10 秒),可与 ref_images.type=image 组合,默认带入输入视频音频 |
ref_videos.type=extend | 按请求 duration 计费;不能与 ref_images 组合 |
tag 字段 | 必须以 @ 开头且出现在 prompt 中 |
| I2V / Omni 互斥 | I2V 字段与 Omni 字段不能同时出现 |
响应
响应状态码,成功时为 200
返回数据数组
请求示例
场景 1:文生视频(最简)
场景 2:文生视频(完整参数)
场景 3:图生视频 - 首帧
场景 4:图生视频 - 首尾帧 + 中间关键帧
场景 5:Omni - 单主体参考
场景 6:Omni - 多主体 + 视频动作参考
场景 7:Omni - 拼贴图(grid)
场景 8:Omni - 视频扩展(extend)
场景 9:Omni - 带声纹(语音同步)
查询任务结果视频生成为异步任务,提交后会返回
task_id。使用 获取任务状态 接口查询生成进度和结果。
