Kling v3 Omni 视频生成

统一文生视频/图生视频接口，支持图片引用语法
支持标准模式（720P）和专业模式（1080P）
通过 image_N 图片引用语法在提示词中引用图片
支持生成有声视频（与 video_list 互斥）

curl --request POST \
  --url https://claw.dualseason.com/v1/videos/generations \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "kling-v3-omni",
    "prompt": "让<<<image_1>>>中的人物向镜头挥手",
    "image_urls": ["https://upload.apimart.ai/f/models/9998230426123070-e9d6af04-cb5e-4731-8ae7-abf144cb0d29-9998230586368386-29641169-f698-4ab9-9b6d-380899e6521e-9998230593110693-c1741a3a-.webp"],
    "mode": "std",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

{
  "code": 200,
  "data": [
    {
      "status": "submitted",
      "task_id": "task_xxxxxxxxxx"
    }
  ]
}

认证

Authorization

string

required

所有接口均需要使用 Bearer Token 进行认证获取 API Key：访问 API Key 管理页面获取您的 API Key使用时在请求头中添加：

Authorization: Bearer YOUR_API_KEY

请求参数

model

string

required

视频生成模型名称支持的模型：

kling-v3-omni - 可灵 v3 Omni（统一接口）

prompt

string

required

正向文本提示词支持通过 <<<image_N>>> 语法引用 image_urls 中的图片，N 从 1 开始。示例："让<<<image_1>>>中的人物向镜头挥手"

如果传了图片但 prompt 中没有 <<<image_N>>> 引用，系统会自动在 prompt 前添加 <<<image_1>>>。

mode

string

default:"std"

生成模式可选值：

std - 标准模式（720P）
pro - 专业模式（1080P）

默认值：std

duration

integer

default:"5"

默认值：5 视频时长（秒）取值范围：3-15（最短 3 秒，最长 15 秒）⚠️ 注意： 必须输入纯数字（如 6），不要加引号，否则会报错

aspect_ratio

string

default:"16:9"

视频宽高比可选值：

16:9 - 横屏
9:16 - 竖屏
1:1 - 方形

默认值：16:9

image_urls

array<url>

图片 URL 数组，用于图片引用在 prompt 中通过 <<<image_N>>> 引用对应位置的图片（N 从 1 开始）示例：["https://example.com/photo.jpg"]

图片 URL 必须公开可访问，不能有防盗链
图生视频时，aspect_ratio 可能被图片实际比例覆盖

参考视频列表（URL 方式），最多 1 段。通过 refer_type 区分类型：

base：待编辑视频（默认）
feature：特征参考视频

通过 keep_original_sound 控制是否保留原声：

no：不保留（默认）
yes：保留原声

请求体格式：

"video_list":[
  { "video_url": "video_url", "refer_type": "base", "keep_original_sound": "no" }
]

video_url 不能为空，且视频 URL 需可访问
当 refer_type=base 时:
- 不能定义视频首尾帧
- 参考视频需 3–10 秒
- 生成视频时长以上传视频为准
当 refer_type=feature 且 video_url 不为空时：
- image_urls只可上传首帧图片
视频要求：仅支持 MP4/MOV；时长不少于 3 秒；分辨率 720px-2160px；帧率 24-60fps（输出为 24fps）；大小不超过 200MB

watermark

boolean

是否添加水印

audio

boolean

default:"false"

是否生成有声视频

此参数与 video_list 互相排斥。当 video_list 有值时，不需要参数 audio。

图片引用语法

Omni 模型使用 <<<image_N>>> 语法在提示词中引用图片，实现统一的文生视频/图生视频体验：

语法	说明
`<<<image_1>>>`	引用 `image_urls` 数组中第 1 张图片
`<<<image_2>>>`	引用 `image_urls` 数组中第 2 张图片

自动引用：如果传了 image_urls 但 prompt 中没有 <<<image_N>>> 引用，系统会自动在 prompt 前添加 <<<image_1>>>。

响应

code

integer

响应状态码，成功时为 200

data

array

返回数据数组

Show 数组元素

status

string

任务状态，初始提交时为 submitted

task_id

string

任务唯一标识符，用于查询任务状态和结果

使用场景

场景 1：文生视频（标准模式）

{
  "model": "kling-v3-omni",
  "prompt": "一只金毛犬在沙滩上奔跑，日落，电影质感",
  "mode": "std",
  "duration": 5,
  "aspect_ratio": "16:9"
}

场景 2：图片引用（单张图片）

{
  "model": "kling-v3-omni",
  "prompt": "让<<<image_1>>>中的人物向镜头挥手",
  "image_urls": ["https://upload.apimart.ai/f/models/9998230426123070-e9d6af04-cb5e-4731-8ae7-abf144cb0d29-9998230586368386-29641169-f698-4ab9-9b6d-380899e6521e-9998230593110693-c1741a3a-.webp"],
  "mode": "pro",
  "duration": 5
}

场景 3：多图片引用

{
  "model": "kling-v3-omni",
  "prompt": "<<<image_1>>>中的角色走向<<<image_2>>>中的场景",
  "image_urls": [
    "https://example.com/character.jpg",
    "https://example.com/scene.jpg"
  ],
  "mode": "pro",
  "duration": 5
}

场景 4：传图片但不显式引用（自动添加）

{
  "model": "kling-v3-omni",
  "prompt": "人物缓缓转头微笑",
  "image_urls": ["https://upload.apimart.ai/f/models/9998230426123070-e9d6af04-cb5e-4731-8ae7-abf144cb0d29-9998230586368386-29641169-f698-4ab9-9b6d-380899e6521e-9998230593110693-c1741a3a-.webp"],
  "mode": "std",
  "duration": 5
}

系统会自动在 prompt 前添加 <<<image_1>>>，等效于 "<<<image_1>>>人物缓缓转头微笑"。

场景 5：生成有声视频

{
  "model": "kling-v3-omni",
  "prompt": "一只黄色的金丝雀在树枝上鸣叫",
  "audio": true,
  "mode": "std",
  "duration": 5
}

注意：audio 与 video_list 互相排斥。当 video_list 有值时，不需要参数 audio。

查询任务结果视频生成为异步任务，提交后会返回 task_id。使用获取任务状态接口查询生成进度和结果。

概览

文本

图像

视频

音频

账户与工具

Kling v3 Omni 视频生成

认证

请求参数

图片引用语法

响应

使用场景

场景 1：文生视频（标准模式）

场景 2：图片引用（单张图片）

场景 3：多图片引用

场景 4：传图片但不显式引用（自动添加）

场景 5：生成有声视频

概览

文本

图像

视频

音频

账户与工具

​认证

​请求参数

​图片引用语法

​响应

​使用场景

​场景 1：文生视频（标准模式）

​场景 2：图片引用（单张图片）

​场景 3：多图片引用

​场景 4：传图片但不显式引用（自动添加）

​场景 5：生成有声视频

认证

请求参数

图片引用语法

响应

使用场景

场景 1：文生视频（标准模式）

场景 2：图片引用（单张图片）

场景 3：多图片引用

场景 4：传图片但不显式引用（自动添加）

场景 5：生成有声视频