步骤2：音频合成

📺 音频合成操作演示

功能位置

音频合成位于工作台 左侧第一栏下方，紧接在文案提取区域下方。面板顶部会显示当前 TTS 模式（本地版或在线版）的标识。

音频来源有两种模式，通过单选按钮切换：

模式	说明	适用场景
文字转语音（默认）	使用 TTS 技术将文案内容自动转为语音	大多数场景，推荐使用
直接上传音频	上传已有的 WAV / MP3 音频文件，跳过语音合成步骤	已有专业录音或特殊音源

音频来源选择 — 文字转语音 / 直接上传音频

织梦AI 的语音合成有两种底层模式，登录时由管理员配置决定，面板顶部会显示当前模式：

模式	标识	说明
💻 本地版	「💻 本地版（本机 GPU）」	使用本地 GPU 运行 TTS 引擎（IndexTTS2 或 CosyVoice3），速度快、无需联网，但需要 NVIDIA 独显
☁️ 在线版	「☁️ 在线版（云端服务器）」	使用云端 TTS 服务（LipVoice），对电脑配置无要求，需要网络连接

💡 两种模式的操作方式完全一致，只是情感类型的选项略有不同（见下方情感设置说明）。您无需手动切换，系统会自动使用当前配置的模式。

1 在 「从音色库选择」 下拉框中选择一个音色（列表会根据当前 TTS 模式自动过滤）

2 如果列表中看不到需要的音色，点击右侧 「⟳」刷新按钮 更新列表

3 选择音色后，下方会出现 「🔊 试听所选音色」 播放器，点击播放试听音色效果

音色选择下拉框和试听区域

💡 如果音色库中没有满意的音色，可以前往音色管理页面上传自定义音色（上传一段 5~15 秒的清晰人声音频即可创建新音色）。

拖动语速滑块调节朗读速度：

情感设置可以让语音带有特定的情绪色彩。本地版和在线版支持的情感类型略有不同：

拖动情感强度滑块调节情感的明显程度：

语速调节滑块 + 情感类型和强度设置

1 确认文案内容、音色、语速、情感都已设置好

2 点击 「🎵 开始语音合成」 按钮

3 等待合成完成（本地版通常 3~10 秒，在线版取决于文案长度，通常 5~30 秒）

4 合成完成后，下方出现 「合成结果」音频播放器，可以试听效果

5 合成的音频会自动填入步骤 3 的 「用于视频合成的音频」 框，同时文案自动填入步骤 5 的字幕文本框

语音合成完成后的音频播放器

如果您已经有录制好的音频文件，可以切换到「直接上传音频」模式：

1 将音频来源切换为 「直接上传音频」

2 点击上传区域，选择 WAV 或 MP3 格式的音频文件

3 上传后音频会自动填入步骤 3 的音频框

⚠️ 使用上传音频模式时，字幕文本需要手动输入（系统不会自动生成字幕内容）。