这是一个使用腾讯云 TTS(文本转语音)服务的应用程序,可以将文本转换为多种格式的音频文件。项目提供了图形用户界面(GUI)和命令行工具两种使用方式。
- 使用腾讯云 TTS API 进行高质量语音合成
- 支持多种音色选择(通过图形界面直观选择或通过音色ID指定)
- 自动将长文本分段处理,保持语句完整性
- 支持多种输出格式(WAV, MP3, AAC, M4A, OGG, FLAC等)
- 可指定输出路径和文件名
- 图形界面支持音色试听和播放合成后的语音
- 提供语速、音量等参数调整
- Python 3.6 或更高版本
- FFmpeg(用于音频处理)
- 腾讯云账号及 TTS 服务的访问凭证
-
克隆或下载本项目到本地
-
安装所需的Python依赖:
pip install -r requirements.txt -
确保FFmpeg已安装并可在系统路径中找到,或将其放置在项目的
Softwares/ffmpeg/目录下 -
在
Config目录下创建腾讯云凭证文件:- 创建
tencent_cloud_secret_key.csv文件,包含您的SecretId和SecretKey - 创建
tencent_cloud_voice_type.csv文件,包含音色ID和对应的名称(可选)
CSV文件格式示例:
SecretId,SecretKey your_secret_id,your_secret_key - 创建
-
启动图形界面:
python tts_gui.py界面如下:
-
界面功能:
- 音色选择:左侧分类显示所有可用音色,点击选择需要的音色
- 搜索过滤:通过搜索框、场景、性别和类型过滤器快速找到所需音色
- 试听功能:鼠标悬停在音色头像上可显示播放按钮,点击试听该音色的示例音频
- 文本输入:在右侧文本框输入需要合成的文本
- 参数调整:调节语速和音量滑块设置合成参数
- 合成控制:点击"合成语音"按钮开始合成,合成完成后会自动播放
- 播放控制:使用进度条和播放/暂停按钮控制音频播放
- 文件管理:点击文件夹图标可打开音频保存目录
- 声音克隆:声音克隆功能正在开发中(Beta)
-
合成的音频文件将自动保存在项目根目录的
Audios文件夹中,文件名格式为"音色名称_时间戳.wav"
python audio_generator.py -f <文本文件路径> [-o <输出文件路径>] [-v <音色ID>]
-f, --file: 必需参数,指定要转换为语音的文本文件路径-o, --output: 可选参数,指定输出文件的完整路径和格式(通过文件后缀决定格式,如:output.mp3)。如果不指定,将在输入文件的同一目录下生成同名但后缀为.wav的音频文件-v, --voice: 可选参数,指定腾讯云的音色ID,默认为101011,音色ID和对应的角色可查看config/tencent_cloud_voice_type.csv,也可以在线试听
- WAV (默认格式)
- MP3
- AAC/M4A
- OGG
- FLAC
- 其他FFmpeg支持的格式
-
基本使用(默认在输入文件同目录下输出同名.wav文件):
python audio_generator.py -f Text/my_text.txt这将生成
Text/my_text.wav文件 -
指定输出为MP3格式:
python audio_generator.py -f Text/my_text.txt -o myaudio.mp3 -
指定完整输出路径和格式:
python audio_generator.py -f Text/my_text.txt -o C:/Users/MyName/Desktop/output.aac -
指定不同的音色:
python audio_generator.py -f Text/my_text.txt -v 101016
TecentCloud_Audio_generator\
├── audio_generator.py # 命令行工具主程序
├── tts_gui.py # 图形界面主程序
├── Config\ # 配置文件目录
│ ├── tencent_cloud_secret_key.csv # API密钥配置
│ └── tencent_cloud_voice_type.csv # 音色信息配置
├── Resources\ # GUI资源文件(图标等)
├── AudioResources\ # 音色示例音频目录
│ ├── 标准音色\
│ ├── 大模型音色\
│ └── 精品音色\
├── Audios\ # 合成音频输出目录
└── Softwares\ # 第三方软件目录
└── ffmpeg\
├── ffmpeg.exe
- 本项目不包含腾讯云密钥,请自行配置!
- 文本文件请使用UTF-8编码
- 确保有足够的磁盘空间用于临时文件和最终输出
- 长文本会被自动分段处理,每段不超过150字符
- 使用腾讯云服务可能产生费用,请参考腾讯云的计费规则
- GUI界面要求PyQt5和QFluentWidgets库支持
- 命令行工具基础功能
- 图形界面基础功能
- 音色选择和分类功能
- 音色试听功能
- 音频播放控制
- 声音克隆功能
- 合成批量处理
- 更多音频格式支持
- 云端音色库更新
如果遇到"语音合成失败: [WinError 2] 系统找不到指定的文件"错误,请检查以下几点:
-
配置文件名称:
- 确保在
Config目录下创建了正确名称的配置文件:tencent_cloud_secret_key.csvtencent_cloud_voice_type.csv
- 确保在
-
目录结构:
- 确保项目目录结构正确,参考上述"项目结构"部分
-
权限问题:
- 确保程序有权限访问所有必要的文件和目录
- 尝试以管理员身份运行命令提示符或PowerShell
-
其他问题


