GitHub - paceaitian/v2s

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.streamlit		.streamlit
.vscode		.vscode
final2		final2
resources		resources
app.py		app.py
app11.py		app11.py
app3.py		app3.py
app4.py		app4.py
app5.py		app5.py
app6.py		app6.py
app7.py		app7.py
app8.py		app8.py
app9.py		app9.py
code_review.md		code_review.md
convert.py		convert.py
final1.py		final1.py
pace-logo-01.png		pace-logo-01.png
readme.txt		readme.txt
run - 副本 (2).bat		run - 副本 (2).bat
run.bat		run.bat
test.py		test.py
todo.txt		todo.txt
新建文本文档.txt		新建文本文档.txt

Repository files navigation

一、 系统功能清单
1. 核心转写引擎
本地 GPU 加速：基于 RTX 3060 级别的本地显卡加速，采用 int8 量化计算，实现远超实时速度的语音处理。

三段式处理工作流：

WhisperX (Large-v3)：使用目前开源最强的模型进行初步转写。

强制对齐 (Wav2Vec2)：通过本地模型进行像素级的时间轴对齐，确保每一段文字与音频分秒不差。

说话人识别 (Pyannote)：支持多人对话识别，自动区分“说话人 01”、“说话人 02”等。

2. 数据分析与看板
智能词频看板：自动提取高频核心词，并以“大词小次”的卡片形式展示。

交互式排除名单：点击看板上的“排除”勾选框，可一键同步至黑名单并刷新分析结果。

品牌水印云图：生成带 PACE 官方 Logo 的可视化词云图，展示密度可调。

3. 深度调研辅助工具
定位播放系统：通过关键词筛选片段，点击“播放此片段”即可精准跳转至该句音频，支持倍速播放。

监控词汇高亮：在转写结果中，调研重点词汇将以 PACE 品牌橘色 加粗显示。

说话人映射：支持在界面上手动修改说话人姓名（如将“SPEAKER_00”改为“主持人”），导出时自动生效。

4. 报告导出功能
多格式支持：一键导出纯文本 (TXT) 或专业级 PDF 报告。

PDF 深度汇总：导出的 PDF 不仅包含完整对话，还会在最后一页自动生成“核心高频词统计汇总”页。

二、 使用说明手册
1. 启动程序
双击 run.bat：系统会自动清理旧的临时文件和缓存，配置网络代理，并启动网页界面。

环境诊断：启动后，观察左侧侧边栏底部的“PACE 系统诊断”面板，确认 GPU 加速 为“✅ 已开启”且 Token 状态 正常。

2. 配置参数
识别语种：默认为中文 (zh)。

监控词汇：在输入框输入本次调研最关注的词汇（如：品牌、价格、痛点），多个词用逗号分隔。

识别说话人身份：

开启后，若系统中未配置 Token，请按照提示在侧边栏输入您的 Hugging Face Token。

可根据实际情况勾选“指定说话人数”以提高识别准确率。

3. 执行分析
上传文件：支持 mp3, m4a, wav, flac 格式。

点击“开始转写语音”：观察进度条，系统会依次完成转写、对齐和聚类识别。

4. 结果交互与优化
清理词频：观察“高频词语看板”，对于一些没有意义的虚词（如“咱们”、“那个”），点击下方“排除”并刷新。

定位回听：在“定位播放”标签下，选择感兴趣的关键词，系统会列出所有提及该词的句子，点击按钮即可重听确认。

修改姓名：在“全文预览”标签下，输入说话人的真实姓名。

5. 导出报告
在“报告导出”标签下，确认文件名后点击下载按钮。

三、 技术保障与维护
代理设置：若遇到模型下载超时，请检查 run.bat 中的代理端口（默认 7890）是否与您的代理软件一致。

清理缓存：若系统运行缓慢或分词不准，重启 run.bat 会自动清理 jieba 缓存和 Python 编译缓存。

Token 安全：您的 Token 存储在本地环境变量中，界面输入框支持遮蔽显示，保障隐私安全。

PACE AI 调研辅助系统 现已准备就绪，助力您的调研工作进入“全自动加速”时代！