Skip to content

paceaitian/v2s

Repository files navigation

一、 系统功能清单
1. 核心转写引擎
本地 GPU 加速:基于 RTX 3060 级别的本地显卡加速,采用 int8 量化计算,实现远超实时速度的语音处理。

三段式处理工作流:

WhisperX (Large-v3):使用目前开源最强的模型进行初步转写。

强制对齐 (Wav2Vec2):通过本地模型进行像素级的时间轴对齐,确保每一段文字与音频分秒不差。

说话人识别 (Pyannote):支持多人对话识别,自动区分“说话人 01”、“说话人 02”等。

2. 数据分析与看板
智能词频看板:自动提取高频核心词,并以“大词小次”的卡片形式展示。

交互式排除名单:点击看板上的“排除”勾选框,可一键同步至黑名单并刷新分析结果。

品牌水印云图:生成带 PACE 官方 Logo 的可视化词云图,展示密度可调。

3. 深度调研辅助工具
定位播放系统:通过关键词筛选片段,点击“播放此片段”即可精准跳转至该句音频,支持倍速播放。

监控词汇高亮:在转写结果中,调研重点词汇将以 PACE 品牌橘色 加粗显示。

说话人映射:支持在界面上手动修改说话人姓名(如将“SPEAKER_00”改为“主持人”),导出时自动生效。

4. 报告导出功能
多格式支持:一键导出纯文本 (TXT) 或专业级 PDF 报告。

PDF 深度汇总:导出的 PDF 不仅包含完整对话,还会在最后一页自动生成“核心高频词统计汇总”页。

二、 使用说明手册
1. 启动程序
双击 run.bat:系统会自动清理旧的临时文件和缓存,配置网络代理,并启动网页界面。

环境诊断:启动后,观察左侧侧边栏底部的“PACE 系统诊断”面板,确认 GPU 加速 为“✅ 已开启”且 Token 状态 正常。

2. 配置参数
识别语种:默认为中文 (zh)。

监控词汇:在输入框输入本次调研最关注的词汇(如:品牌、价格、痛点),多个词用逗号分隔。

识别说话人身份:

开启后,若系统中未配置 Token,请按照提示在侧边栏输入您的 Hugging Face Token。

可根据实际情况勾选“指定说话人数”以提高识别准确率。

3. 执行分析
上传文件:支持 mp3, m4a, wav, flac 格式。

点击“开始转写语音”:观察进度条,系统会依次完成转写、对齐和聚类识别。

4. 结果交互与优化
清理词频:观察“高频词语看板”,对于一些没有意义的虚词(如“咱们”、“那个”),点击下方“排除”并刷新。

定位回听:在“定位播放”标签下,选择感兴趣的关键词,系统会列出所有提及该词的句子,点击按钮即可重听确认。

修改姓名:在“全文预览”标签下,输入说话人的真实姓名。

5. 导出报告
在“报告导出”标签下,确认文件名后点击下载按钮。

三、 技术保障与维护
代理设置:若遇到模型下载超时,请检查 run.bat 中的代理端口(默认 7890)是否与您的代理软件一致。

清理缓存:若系统运行缓慢或分词不准,重启 run.bat 会自动清理 jieba 缓存和 Python 编译缓存。

Token 安全:您的 Token 存储在本地环境变量中,界面输入框支持遮蔽显示,保障隐私安全。

PACE AI 调研辅助系统 现已准备就绪,助力您的调研工作进入“全自动加速”时代!

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors