🎵 步骤2:音频合成

将文案转为语音,选择音色、调节语速与情感

📺 音频合成操作演示

功能位置

音频合成位于工作台 左侧第一栏下方,紧接在文案提取区域下方。面板顶部会显示当前 TTS 模式(本地版或在线版)的标识。

选择音频来源

音频来源有两种模式,通过单选按钮切换:

模式说明适用场景
文字转语音(默认)使用 TTS 技术将文案内容自动转为语音大多数场景,推荐使用
直接上传音频上传已有的 WAV / MP3 音频文件,跳过语音合成步骤已有专业录音或特殊音源
音频来源选择

音频来源选择 — 文字转语音 / 直接上传音频

TTS 模式说明

织梦AI 的语音合成有两种底层模式,登录时由管理员配置决定,面板顶部会显示当前模式:

模式标识说明
💻 本地版「💻 本地版(本机 GPU)」使用本地 GPU 运行 TTS 引擎(IndexTTS2 或 CosyVoice3),速度快、无需联网,但需要 NVIDIA 独显
☁️ 在线版「☁️ 在线版(云端服务器)」使用云端 TTS 服务(LipVoice),对电脑配置无要求,需要网络连接
💡 两种模式的操作方式完全一致,只是情感类型的选项略有不同(见下方情感设置说明)。您无需手动切换,系统会自动使用当前配置的模式。

文字转语音模式

1. 选择音色

1「从音色库选择」 下拉框中选择一个音色(列表会根据当前 TTS 模式自动过滤)

2 如果列表中看不到需要的音色,点击右侧 「⟳」刷新按钮 更新列表

3 选择音色后,下方会出现 「🔊 试听所选音色」 播放器,点击播放试听音色效果

音色选择试听

音色选择下拉框和试听区域

💡 如果音色库中没有满意的音色,可以前往 音色管理 页面上传自定义音色(上传一段 5~15 秒的清晰人声音频即可创建新音色)。

2. 语速调节

拖动语速滑块调节朗读速度:

语速值效果建议
0.5非常慢,适合教学类内容需要听众仔细听清每个字时
0.8稍慢,节奏从容知识类、讲解类视频
1.0(默认)正常语速大多数场景推荐
1.3稍快,紧凑有力快节奏口播
2.0非常快仅用于预览测试

3. 情感设置

情感设置可以让语音带有特定的情绪色彩。本地版和在线版支持的情感类型略有不同:

本地版情感类型(11 种)

情感说明适用场景
无(与参考音频相同)不添加情感,保持音色原始风格默认选择
😄 开心愉悦、欢快的语调产品推荐、好消息
😢 悲伤低沉、感伤的语调情感故事类内容
😠 愤怒激动、愤怒的语调辟谣、批评类内容
😨 恐惧紧张、害怕的语调悬疑、揭秘类内容
😲 惊讶惊讶、意外的语调揭晓真相、意想不到的结果
😌 平静平和、宁静的语调知识科普、冥想类
🤗 温柔柔和、亲切的语调护肤美妆、母婴类
😍 激动兴奋、热情的语调促销活动、体育赛事
😤 严肃正式、严肃的语调新闻播报、商务汇报
🤔 深思沉思、思考的语调哲学、人生感悟类
😏 调皮俎皮、活泼的语调幽默内容、娱乐视频

在线版情感类型(8 种)

情感说明
无(默认)不添加情感
😄 开心 / 😠 愤怒 / 😢 悲伤 / 😨 恐惧基本情绪
🤢 双恶 / 😔 忧郁 / 😲 惊讶 / 😌 平静辅助情绪

情感强度

拖动情感强度滑块调节情感的明显程度:

语速情感设置

语速调节滑块 + 情感类型和强度设置

4. 开始合成

1 确认文案内容、音色、语速、情感都已设置好

2 点击 「🎵 开始语音合成」 按钮

3 等待合成完成(本地版通常 3~10 秒,在线版取决于文案长度,通常 5~30 秒)

4 合成完成后,下方出现 「合成结果」音频播放器,可以试听效果

5 合成的音频会自动填入步骤 3 的 「用于视频合成的音频」 框,同时文案自动填入步骤 5 的字幕文本框

合成后播放器

语音合成完成后的音频播放器

直接上传音频模式

如果您已经有录制好的音频文件,可以切换到「直接上传音频」模式:

1 将音频来源切换为 「直接上传音频」

2 点击上传区域,选择 WAV 或 MP3 格式的音频文件

3 上传后音频会自动填入步骤 3 的音频框

⚠️ 使用上传音频模式时,字幕文本需要手动输入(系统不会自动生成字幕内容)。