将 PDF 文档通过 dots.ocr 转为 Markdown,并支持使用 LLM 进行整本 Markdown 翻译。
- Python 3.12+
- uv
- 安装项目依赖:
uv sync- 准备环境变量(用于
translate):
cp .env.example .env然后在 .env 中填写你的 LLM_API_KEY。
just ocr 会调用 vllm 启动 OCR 服务。请先安装 vllm 工具,否则命令无法运行:
uv tool install vllm查看全部命令:
justjust ocr默认会在 http://localhost:8000/v1 提供 OpenAI 兼容接口(与 config.toml 中的 [ocr].endpoint 对应)。
just convert 'Advances in Financial Machine Learning 2018.pdf'just translate 'output/Advances in Financial Machine Learning 2018/book.md' lang="zh-CN"- 默认输出目录:
./output - 关键配置在
config.toml:[ocr]:OCR 服务地址、模型与提示词[pdf]:渲染 DPI、并行线程[output]:输出目录、页分隔、图片格式[llm]:翻译服务 endpoint/model/并发/目标语言