Whisper-1 音频转录

curl --request POST \
  --url https://claw.dualseason.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=zh' \
  --form 'response_format=json'

{
  "text": "这是一段测试音频的转录文本内容。"
}

多种输出格式：json、text、srt、vtt 等
最大文件大小 25 MB

curl --request POST \
  --url https://claw.dualseason.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form 'file=@/path/to/audio.mp3' \
  --form 'model=whisper-1' \
  --form 'language=zh' \
  --form 'response_format=json'

{
  "text": "这是一段测试音频的转录文本内容。"
}

Authorizations

Authorization

string

required

所有接口均需要使用Bearer Token进行认证获取 API Key：访问 API Key 管理页面获取您的 API Key使用时在请求头中添加：

Authorization: Bearer YOUR_API_KEY

Body

⚠️ 此接口不支持在线调用（Try it）由于文件上传的限制，请使用以下方式测试：

Apifox / Postman - 导入后手动将 file 参数改为文件类型
cURL - 参考右侧代码示例
SDK - 使用各语言的 SDK 示例代码

file

string

required

要转录的音频文件（文件类型）⚠️ 注意：如果使用 Apifox 等工具测试：

导入后需要手动将此参数类型改为 file
确保请求 Content-Type 为 multipart/form-data

支持的格式：mp3, mp4, mpeg, mpga, m4a, wav, webm最大文件大小：25 MB

model

string

default:"whisper-1"

required

语音识别模型名称Example: "whisper-1"

language

string

音频的语言代码（ISO-639-1 格式）指定语言可以提高准确率和速度支持的语言包括：zh（中文）、en（英文）、ja（日文）、ko（韩文）等 99 种语言Example: "zh"

prompt

string

可选的文本提示，用于指导模型的转录风格或延续前一段音频最长 224 个 tokens

response_format

string

default:"json"

输出格式支持的格式：

json - JSON 格式（仅包含文本）
text - 纯文本
srt - SRT 字幕格式
verbose_json - 详细的 JSON 格式（包含时间戳和其他元数据）
vtt - WebVTT 字幕格式

temperature

number

default:"0"

采样温度，范围 0 到 1较高的值（如 0.8）会使输出更随机，较低的值（如 0.2）会使其更加确定和一致

Response

text

string

转录后的文本内容

task

string

任务类型，固定为 transcribe仅在 verbose_json 格式时返回

language

string

检测到的或指定的语言代码仅在 verbose_json 格式时返回

duration

number

音频时长（秒）仅在 verbose_json 格式时返回

segments

array

文本片段数组仅在 verbose_json 格式时返回

Show 属性

integer

片段ID

start

number

片段开始时间（秒）

end

number

片段结束时间（秒）

text

string

片段文本内容

temperature

number

使用的采样温度

avg_logprob

number

平均对数概率

compression_ratio

number

压缩比

no_speech_prob

number

无语音概率

TTS 文字转语音查询令牌余额

⌘I

概览

文本

图像

视频

音频

账户与工具

Authorizations

Body

Response

概览

文本

图像

视频

音频

账户与工具

​Authorizations

​Body

​Response

Authorizations

Body

Response