介绍
文本转语音(TTS)API 基于先进的生成 AI 模型,可以将输入的文本转换为逼真的语音音频。支持多种用途:- 为书面博客文章配音
- 生成多种语言的语音音频
- 提供实时音频输出流
- gpt-4o-audio-preview —— OpenAI 最新的音频生成模型,支持对话式音频生成
- gpt-4o-mini-tts —— 智能实时应用的首选模型,支持高级语音控制,可以通过提示词控制多种语音特性:
- 口音 (Accent)
- 情感范围 (Emotional range)
- 语调 (Intonation)
- 印象/风格 (Impressions)
- 语速 (Speed of speech)
- 语调 (Tone)
- 轻声说话 (Whispering)
- tts-1-hd —— 高清音质的上一代 TTS 模型
- tts-1 —— 标准 TTS 模型,平衡质量和速度
模型调用方式
标准 TTS 模型(tts-1, tts-1-hd)
使用/v1/audio/speech 端点,通过 client.audio.speech.create() 方法调用。
gpt-4o-mini-tts 模型
使用/v1/audio/speech 端点,支持 instructions 参数进行高级语音控制。
gpt-4o-audio-preview 模型
使用/v1/chat/completions 端点,需要设置 modalities: ["text", "audio"] 和 audio 配置。
请求参数
标准 TTS 参数(适用于 tts-1, tts-1-hd, gpt-4o-mini-tts)
要使用的模型 ID。可选值:
tts-1、tts-1-hd、gpt-4o-mini-tts要生成音频的文本,最大长度为 4096 个字符
用于合成的语音。可选值:
alloy、echo、fable、onyx、nova、shimmer音频输出格式。支持格式:
mp3、opus、aac、flac、wav、pcm。默认为 mp3生成音频的语速。取值范围 0.25 到 4.0。默认为 1.0。
注意:gpt-4o-mini-tts 不支持此参数,但你可以通过自然语言描述来控制语速语音生成指令(仅适用于
gpt-4o-mini-tts 模型),可以详细指定语音风格、语调、情感等特性gpt-4o-audio-preview 参数
设置为
gpt-4o-audio-preview设置为
["text", "audio"] 启用音频输出音频配置对象,包含
voice 和 format 字段聊天消息数组,与标准聊天格式相同