- 多种输出格式:json、text、srt、vtt 等
- 最大文件大小 25 MB
Authorizations
Body
⚠️ 此接口不支持在线调用(Try it)由于文件上传的限制,请使用以下方式测试:
- Apifox / Postman - 导入后手动将
file参数改为文件类型 - cURL - 参考右侧代码示例
- SDK - 使用各语言的 SDK 示例代码
要转录的音频文件(文件类型)⚠️ 注意:如果使用 Apifox 等工具测试:
- 导入后需要手动将此参数类型改为
file - 确保请求 Content-Type 为
multipart/form-data
语音识别模型名称Example:
"whisper-1"音频的语言代码(ISO-639-1 格式)指定语言可以提高准确率和速度支持的语言包括:zh(中文)、en(英文)、ja(日文)、ko(韩文)等 99 种语言Example:
"zh"可选的文本提示,用于指导模型的转录风格或延续前一段音频最长 224 个 tokens
输出格式支持的格式:
json- JSON 格式(仅包含文本)text- 纯文本srt- SRT 字幕格式verbose_json- 详细的 JSON 格式(包含时间戳和其他元数据)vtt- WebVTT 字幕格式
采样温度,范围 0 到 1较高的值(如 0.8)会使输出更随机,较低的值(如 0.2)会使其更加确定和一致
Response
转录后的文本内容
任务类型,固定为
transcribe仅在 verbose_json 格式时返回检测到的或指定的语言代码仅在 verbose_json 格式时返回
音频时长(秒)仅在 verbose_json 格式时返回
文本片段数组仅在 verbose_json 格式时返回

