ava/docker-compose.yml at main · protoLabsAI/ava · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
# protoVoice — one-command deploy
#
#   docker compose up -d
#
# Mount HuggingFace cache to avoid re-downloading models (~12GB total).
# First run downloads: Whisper turbo (~2GB), Qwen 4B (~8GB), Kokoro (~200MB).

services:
  protovoice:
    build: .
    container_name: protovoice
    restart: unless-stopped
    runtime: nvidia
    ports:
      - "${PORT:-7866}:7866"
      - "${VOICES_PORT:-7867}:7867"
    volumes:
      - ${HF_HOME:-/mnt/models/huggingface}:/models
    environment:
      - NVIDIA_VISIBLE_DEVICES=${NVIDIA_VISIBLE_DEVICES:-0}
      - HF_HOME=/models
      - PORT=7866
      - VLLM_PORT=8100
      - LLM_MODEL=${LLM_MODEL:-Qwen/Qwen3.5-4B}
      - WHISPER_MODEL=${WHISPER_MODEL:-openai/whisper-large-v3-turbo}
      - KOKORO_VOICE=${KOKORO_VOICE:-af_heart}
      - SYSTEM_PROMPT=${SYSTEM_PROMPT:-}
      - GRADIO_AUTH=${GRADIO_AUTH:-}
      # Set START_VLLM=0 and LLM_URL to use external LLM
      - START_VLLM=${START_VLLM:-1}
      - LLM_URL=${LLM_URL:-}
      - GRADIO_ROOT_PATH=${GRADIO_ROOT_PATH:-}
      - LLM_SERVED_NAME=${LLM_SERVED_NAME:-local}
      - LLM_API_KEY=${LLM_API_KEY:-}
      - VOICES_PORT=${VOICES_PORT:-7867}
    networks:
      - default
      - gateway
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["${NVIDIA_VISIBLE_DEVICES:-0}"]
              capabilities: [gpu]

networks:
  gateway:
    external: true
    name: ai_default