paceaitian/v2s
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
Repository files navigation
一、 系统功能清单 1. 核心转写引擎 本地 GPU 加速:基于 RTX 3060 级别的本地显卡加速,采用 int8 量化计算,实现远超实时速度的语音处理。 三段式处理工作流: WhisperX (Large-v3):使用目前开源最强的模型进行初步转写。 强制对齐 (Wav2Vec2):通过本地模型进行像素级的时间轴对齐,确保每一段文字与音频分秒不差。 说话人识别 (Pyannote):支持多人对话识别,自动区分“说话人 01”、“说话人 02”等。 2. 数据分析与看板 智能词频看板:自动提取高频核心词,并以“大词小次”的卡片形式展示。 交互式排除名单:点击看板上的“排除”勾选框,可一键同步至黑名单并刷新分析结果。 品牌水印云图:生成带 PACE 官方 Logo 的可视化词云图,展示密度可调。 3. 深度调研辅助工具 定位播放系统:通过关键词筛选片段,点击“播放此片段”即可精准跳转至该句音频,支持倍速播放。 监控词汇高亮:在转写结果中,调研重点词汇将以 PACE 品牌橘色 加粗显示。 说话人映射:支持在界面上手动修改说话人姓名(如将“SPEAKER_00”改为“主持人”),导出时自动生效。 4. 报告导出功能 多格式支持:一键导出纯文本 (TXT) 或专业级 PDF 报告。 PDF 深度汇总:导出的 PDF 不仅包含完整对话,还会在最后一页自动生成“核心高频词统计汇总”页。 二、 使用说明手册 1. 启动程序 双击 run.bat:系统会自动清理旧的临时文件和缓存,配置网络代理,并启动网页界面。 环境诊断:启动后,观察左侧侧边栏底部的“PACE 系统诊断”面板,确认 GPU 加速 为“✅ 已开启”且 Token 状态 正常。 2. 配置参数 识别语种:默认为中文 (zh)。 监控词汇:在输入框输入本次调研最关注的词汇(如:品牌、价格、痛点),多个词用逗号分隔。 识别说话人身份: 开启后,若系统中未配置 Token,请按照提示在侧边栏输入您的 Hugging Face Token。 可根据实际情况勾选“指定说话人数”以提高识别准确率。 3. 执行分析 上传文件:支持 mp3, m4a, wav, flac 格式。 点击“开始转写语音”:观察进度条,系统会依次完成转写、对齐和聚类识别。 4. 结果交互与优化 清理词频:观察“高频词语看板”,对于一些没有意义的虚词(如“咱们”、“那个”),点击下方“排除”并刷新。 定位回听:在“定位播放”标签下,选择感兴趣的关键词,系统会列出所有提及该词的句子,点击按钮即可重听确认。 修改姓名:在“全文预览”标签下,输入说话人的真实姓名。 5. 导出报告 在“报告导出”标签下,确认文件名后点击下载按钮。 三、 技术保障与维护 代理设置:若遇到模型下载超时,请检查 run.bat 中的代理端口(默认 7890)是否与您的代理软件一致。 清理缓存:若系统运行缓慢或分词不准,重启 run.bat 会自动清理 jieba 缓存和 Python 编译缓存。 Token 安全:您的 Token 存储在本地环境变量中,界面输入框支持遮蔽显示,保障隐私安全。 PACE AI 调研辅助系统 现已准备就绪,助力您的调研工作进入“全自动加速”时代!