📺 音频合成操作演示
功能位置
音频合成位于工作台 左侧第一栏下方,紧接在文案提取区域下方。面板顶部会显示当前 TTS 模式(本地版或在线版)的标识。
选择音频来源
音频来源有两种模式,通过单选按钮切换:
| 模式 | 说明 | 适用场景 |
|---|---|---|
| 文字转语音(默认) | 使用 TTS 技术将文案内容自动转为语音 | 大多数场景,推荐使用 |
| 直接上传音频 | 上传已有的 WAV / MP3 音频文件,跳过语音合成步骤 | 已有专业录音或特殊音源 |

音频来源选择 — 文字转语音 / 直接上传音频
TTS 模式说明
织梦AI 的语音合成有两种底层模式,登录时由管理员配置决定,面板顶部会显示当前模式:
| 模式 | 标识 | 说明 |
|---|---|---|
| 💻 本地版 | 「💻 本地版(本机 GPU)」 | 使用本地 GPU 运行 TTS 引擎(IndexTTS2 或 CosyVoice3),速度快、无需联网,但需要 NVIDIA 独显 |
| ☁️ 在线版 | 「☁️ 在线版(云端服务器)」 | 使用云端 TTS 服务(LipVoice),对电脑配置无要求,需要网络连接 |
💡 两种模式的操作方式完全一致,只是情感类型的选项略有不同(见下方情感设置说明)。您无需手动切换,系统会自动使用当前配置的模式。
文字转语音模式
1. 选择音色
1 在 「从音色库选择」 下拉框中选择一个音色(列表会根据当前 TTS 模式自动过滤)
2 如果列表中看不到需要的音色,点击右侧 「⟳」刷新按钮 更新列表
3 选择音色后,下方会出现 「🔊 试听所选音色」 播放器,点击播放试听音色效果

音色选择下拉框和试听区域
💡 如果音色库中没有满意的音色,可以前往 音色管理 页面上传自定义音色(上传一段 5~15 秒的清晰人声音频即可创建新音色)。
2. 语速调节
拖动语速滑块调节朗读速度:
| 语速值 | 效果 | 建议 |
|---|---|---|
| 0.5 | 非常慢,适合教学类内容 | 需要听众仔细听清每个字时 |
| 0.8 | 稍慢,节奏从容 | 知识类、讲解类视频 |
| 1.0(默认) | 正常语速 | 大多数场景推荐 |
| 1.3 | 稍快,紧凑有力 | 快节奏口播 |
| 2.0 | 非常快 | 仅用于预览测试 |
3. 情感设置
情感设置可以让语音带有特定的情绪色彩。本地版和在线版支持的情感类型略有不同:
本地版情感类型(11 种)
| 情感 | 说明 | 适用场景 |
|---|---|---|
| 无(与参考音频相同) | 不添加情感,保持音色原始风格 | 默认选择 |
| 😄 开心 | 愉悦、欢快的语调 | 产品推荐、好消息 |
| 😢 悲伤 | 低沉、感伤的语调 | 情感故事类内容 |
| 😠 愤怒 | 激动、愤怒的语调 | 辟谣、批评类内容 |
| 😨 恐惧 | 紧张、害怕的语调 | 悬疑、揭秘类内容 |
| 😲 惊讶 | 惊讶、意外的语调 | 揭晓真相、意想不到的结果 |
| 😌 平静 | 平和、宁静的语调 | 知识科普、冥想类 |
| 🤗 温柔 | 柔和、亲切的语调 | 护肤美妆、母婴类 |
| 😍 激动 | 兴奋、热情的语调 | 促销活动、体育赛事 |
| 😤 严肃 | 正式、严肃的语调 | 新闻播报、商务汇报 |
| 🤔 深思 | 沉思、思考的语调 | 哲学、人生感悟类 |
| 😏 调皮 | 俎皮、活泼的语调 | 幽默内容、娱乐视频 |
在线版情感类型(8 种)
| 情感 | 说明 |
|---|---|
| 无(默认) | 不添加情感 |
| 😄 开心 / 😠 愤怒 / 😢 悲伤 / 😨 恐惧 | 基本情绪 |
| 🤢 双恶 / 😔 忧郁 / 😲 惊讶 / 😌 平静 | 辅助情绪 |
情感强度
拖动情感强度滑块调节情感的明显程度:
- 0.0 — 几乎无情感色彩
- 0.3~0.5 — 轻微情感,自然不夸张
- 0.6(本地版默认)/ 0.5(在线版默认) — 适中,推荐
- 0.8~1.0 — 情感非常明显,适合演绎性内容

语速调节滑块 + 情感类型和强度设置
4. 开始合成
1 确认文案内容、音色、语速、情感都已设置好
2 点击 「🎵 开始语音合成」 按钮
3 等待合成完成(本地版通常 3~10 秒,在线版取决于文案长度,通常 5~30 秒)
4 合成完成后,下方出现 「合成结果」音频播放器,可以试听效果
5 合成的音频会自动填入步骤 3 的 「用于视频合成的音频」 框,同时文案自动填入步骤 5 的字幕文本框

语音合成完成后的音频播放器
直接上传音频模式
如果您已经有录制好的音频文件,可以切换到「直接上传音频」模式:
1 将音频来源切换为 「直接上传音频」
2 点击上传区域,选择 WAV 或 MP3 格式的音频文件
3 上传后音频会自动填入步骤 3 的音频框
⚠️ 使用上传音频模式时,字幕文本需要手动输入(系统不会自动生成字幕内容)。