Wan2.7-R2V 参考生视频

基于一张或多张参考图片/视频，生成与其风格、人物、场景一致的新视频
支持角色一致性、风格迁移、多素材组合
支持参考音色（reference_voice）控制角色声音

curl --request POST \
  --url https://claw.dualseason.com/v1/videos/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.7-r2v",
    "prompt": "这个人走在街上，四周车水马龙",
    "image_with_roles": [{"url": "https://cdn.example.com/character.jpg", "role": "reference_image"}],
    "resolution": "1080P",
    "duration": 8
  }'

{
  "code": 200,
  "data": [
    {
      "status": "submitted",
      "task_id": "task_01J9HA7JPQ9A0Z6JZ3V8M9W6PZ"
    }
  ]
}

认证

Authorization

string

required

所有接口均需要使用 Bearer Token 进行认证获取 API Key：访问 API Key 管理页面获取您的 API Key使用时在请求头中添加：

Authorization: Bearer YOUR_API_KEY

请求参数

model

string

required

视频生成模型名称，固定为 wan2.7-r2v

prompt

string

required

视频内容描述，最多 5000 字符多图/多视频时用”图1”、“图2”、“视频1”等序号指代对应参考素材（按传入顺序）示例："图1中的人物来到图2的场景中，环顾四周"

image_with_roles

array<object>

带角色的图片数组，与 video_urls 至少传其一每个对象字段：

url (string)：图片 URL
role (string)：图片角色
- reference_image - 参考图（默认）
- first_frame - 指定首帧（传入后 size 参数无效，宽高比以首帧图片为准）
reference_voice (string，可选)：该参考角色的音色样本音频 URL，用于控制生成视频中角色的声音

示例：

[
  {
    "url": "https://cdn.example.com/character.jpg",
    "role": "reference_image",
    "reference_voice": "https://cdn.example.com/voice_sample.mp3"
  },
  { "url": "https://cdn.example.com/start.jpg", "role": "first_frame" }
]

video_urls

array<string>

参考视频 URL 数组，最多 5 条（图片 + 视频总数 ≤ 5）与 image_with_roles 至少传其一

视频限制：

格式：mp4、mov
时长：1～30s
分辨率：宽度和高度范围为 [240, 4096] 像素
宽高比：1:8 ~ 8:1
文件大小：不超过 100MB

negative_prompt

string

反向提示词，描述不希望出现的内容，最多 500 字符

resolution

string

default:"1080P"

视频分辨率可选值：

720P - 标清
1080P - 高清（默认）

duration

integer

default:"5"

视频时长（秒）支持范围：2 ~ 15 秒默认值：5

当参考素材中包含视频时：取值为 [2, 10] 之间的整数。当参考素材中不包含视频时：取值为 [2, 15] 之间的整数。

size

string

default:"16:9"

画面宽高比支持的格式：

16:9 - 横版宽屏（默认）
9:16 - 竖版长屏
1:1 - 正方形
4:3 - 横版
3:4 - 竖版

当通过 image_with_roles 传入 first_frame 时，此参数将被忽略，宽高比以首帧图片为准

prompt_extend

boolean

default:"true"

是否开启 prompt 智能改写对较短提示词效果提升明显，但会增加耗时默认值：true

watermark

boolean

default:"false"

是否在生成的视频上添加 “AI生成” 水印

true：添加水印
false：不添加水印（默认）

seed

integer

种子整数，用于控制生成内容的随机性取值范围：≥0 的整数

相同的请求下，模型收到不同的 seed 值（如：不指定 seed 值），将生成不同的结果
相同的请求下，模型收到相同的 seed 值，会生成类似的结果，但不保证完全一致

响应

code

integer

响应状态码，成功时为 200

data

array

返回数据数组

Show 数组元素

status

string

任务状态，初始提交时为 submitted

task_id

string

任务唯一标识符

使用场景

场景 1：单参考图生成（最简）

{
  "model": "wan2.7-r2v",
  "prompt": "这个人走在街上，四周车水马龙",
  "image_with_roles": [
    { "url": "https://cdn.example.com/character.jpg", "role": "reference_image" }
  ]
}

场景 2：多参考图生成

{
  "model": "wan2.7-r2v",
  "prompt": "图1中的人物来到图2的场景中，学习图3的动作",
  "image_with_roles": [
    { "url": "https://cdn.example.com/person.jpg", "role": "reference_image" },
    { "url": "https://cdn.example.com/background.jpg", "role": "reference_image" },
    { "url": "https://cdn.example.com/pose.jpg", "role": "reference_image" }
  ],
  "resolution": "1080P",
  "duration": 8,
  "size": "16:9"
}

场景 3：基于参考视频生成

{
  "model": "wan2.7-r2v",
  "prompt": "以参考视频的风格，生成一段海边日落场景",
  "video_urls": ["https://cdn.example.com/style_reference.mp4"],
  "resolution": "720P",
  "duration": 8
}

场景 4：指定首帧 + 参考图

{
  "model": "wan2.7-r2v",
  "prompt": "参考人物从这个位置出发，向前走",
  "image_with_roles": [
    { "url": "https://cdn.example.com/character.jpg", "role": "reference_image" },
    { "url": "https://cdn.example.com/start.jpg", "role": "first_frame" }
  ],
  "resolution": "1080P",
  "duration": 8
}

场景 5：参考图 + 参考音色（精确方式）

{
  "model": "wan2.7-r2v",
  "prompt": "这个人走在街上，边走边说话",
  "image_with_roles": [
    {
      "url": "https://cdn.example.com/character.jpg",
      "role": "reference_image",
      "reference_voice": "https://cdn.example.com/voice_sample.mp3"
    }
  ],
  "resolution": "1080P",
  "duration": 10
}

图片指代规则

多张参考图时，在 prompt 中用数字序号指代：

第 1 张图 → “图1” 或 “第一张图”
第 1 个视频 → “视频1” 或 “第一个视频”

查询任务结果视频生成为异步任务，提交后会返回 task_id。使用获取任务状态接口查询生成进度和结果。

概览

文本

图像

视频

音频

账户与工具

Wan2.7-R2V 参考生视频

认证

请求参数

响应

使用场景

场景 1：单参考图生成（最简）

场景 2：多参考图生成

场景 3：基于参考视频生成

场景 4：指定首帧 + 参考图

场景 5：参考图 + 参考音色（精确方式）

图片指代规则

概览

文本

图像

视频

音频

账户与工具

​认证

​请求参数

​响应

​使用场景

​场景 1：单参考图生成（最简）

​场景 2：多参考图生成

​场景 3：基于参考视频生成

​场景 4：指定首帧 + 参考图

​场景 5：参考图 + 参考音色（精确方式）

​图片指代规则

认证

请求参数

响应

使用场景

场景 1：单参考图生成（最简）

场景 2：多参考图生成

场景 3：基于参考视频生成

场景 4：指定首帧 + 参考图

场景 5：参考图 + 参考音色（精确方式）

图片指代规则