Skip to content

sapinfo/speechmatics-caption-obs

Repository files navigation

Speechmatics Captions for OBS

English | 한국어

Speechmatics RT API를 사용한 OBS Studio 실시간 자막 + 번역 플러그인입니다. 한국어로 말하면 자막이 표시되고, 동시에 영어(또는 다른 언어)로 번역된 자막도 함께 표시됩니다.


Speechmatics란?

Speechmatics는 업계를 대표하는 실시간 음성 인식(STT) API입니다.

  • 50개 이상 언어 지원: 한국어, 영어, 일본어, 중국어, 스페인어, 프랑스어, 독일어 등
  • 높은 정확도: Enhanced 모델로 최고 수준의 인식률 제공
  • 실시간 번역: 다국어 동시 번역 지원
  • 유연한 설정: 지연시간 vs 정확도 트레이드오프 조절 가능 (max_delay)

주요 기능

  • 실시간 음성→텍스트 (Speechmatics RT Enhanced 모델)
  • 실시간 번역 — 말하는 즉시 번역된 자막이 함께 표시 (한↔영, 한↔일, 한↔중 등 7개 언어)
  • 레이턴시/사일런스 세분화 제어 — Max Delay, Max Delay Mode, End-of-Utterance Silence Trigger
  • 텍스트 스타일 커스터마이징 — 폰트, 색상, 외곽선, 그림자, 너비, 줄바꿈
  • 모든 속성에 상세 툴팁 제공 — 마우스 호버 시 사용 시나리오별 권장값 표시
  • 단축키 지원 (Properties 열지 않고 시작/중지)
  • 네트워크 끊김 시 자동 재연결
  • 한중일(CJK) 폰트 지원

무료 플랜

Speechmatics는 신용카드 등록 없이 무료로 시작할 수 있습니다.

항목 무료 제공량
실시간 음성 인식 (STT) 매월 8시간 (480분)
동시 세션 최대 2개
지원 언어 55개 이상
실시간 번역 지원

개인 방송이나 소규모 스트리밍에는 무료 플랜으로 충분합니다.

빠른 시작

1. Speechmatics API 키 발급

speechmatics.com에서 가입 후 API 키를 발급받으세요. (신용카드 불필요)

2. 다운로드

최신 Release 다운로드

플랫폼 파일
macOS (Apple Silicon) speechmatics-caption-obs-0.1.0-macos-arm64.tar.xz
macOS (Intel) 소스에서 빌드 (아래 참조)
Windows speechmatics-caption-obs-0.1.0-windows-x64.zip
Linux (Ubuntu) speechmatics-caption-obs-0.1.0-x86_64-linux-gnu.deb

Intel Mac 사용자: Apple Silicon용 바이너리는 Rosetta 2로 실행 가능합니다. 네이티브 빌드가 필요한 경우 아래 소스 빌드 섹션을 참조하세요.

3. 설치

macOS
  1. speechmatics-caption-obs-x.x.x-macos-arm64.zip 다운로드 후 압축 해제
  2. OBS 메뉴 → FileShow Settings Folder 클릭
  3. 열린 폴더에서 plugins 폴더로 이동
  4. speechmatics-caption-obs.pluginplugins 폴더에 복사
  5. OBS Studio 재시작

제거: OBS 메뉴 → FileShow Settings Folderplugins 폴더에서 speechmatics-caption-obs.plugin 삭제

Windows
  1. speechmatics-caption-obs-x.x.x-windows-x64.zip 다운로드 후 압축 해제
  2. 내용물을 아래 경로로 복사:
    %APPDATA%\obs-studio\plugins\speechmatics-caption-obs\
    
  3. OBS Studio 재시작
Linux (Ubuntu)
sudo dpkg -i speechmatics-caption-obs-x.x.x-x86_64-linux-gnu.deb

또는 수동으로 ~/.config/obs-studio/plugins/speechmatics-caption-obs/ 에 복사

4. 사용법

  1. OBS에서 소스 + 클릭 → Speechmatics Captions 선택
  2. 소스 우클릭 → 속성:
    • Speechmatics API Key 입력
    • Audio Source 에서 마이크 선택 (예: Mic/Aux)
    • Language 선택
    • (선택) Enable Translation 체크 후 번역 대상 언어 선택
  3. Start Caption 클릭
  4. 마이크에 말하면 실시간 자막이 화면에 표시됩니다!

모든 속성에 마우스를 올리면 상세 툴팁이 표시됩니다. 권장값과 사용 시나리오를 참고하세요.

자막 타이밍 튜닝 (v0.2.0+)

자막의 출력 속도와 분할 방식을 세밀하게 조절할 수 있습니다.

속성 범위 기본값 설명
Max Delay 0.7 ~ 20.0초 2.0 최종 자막 출력까지의 최대 대기 시간 (낮을수록 빠름)
Max Delay Mode flexible / fixed flexible 단어 경계 보호 여부 (flexible: 단어 보호 / fixed: 칼같이 자름)
End-of-Utterance Silence 0.0 ~ 2.0초 0.0 (off) 이 시간만큼 무음 시 발화 단위로 마감. 0이면 비활성

시나리오별 권장값:

  • 🎮 게임 스트리밍 / 라이브: Max Delay 1.0~1.5s, EoU 0.0s
  • 🎤 강의 / 설교: Max Delay 3.0~5.0s, EoU 1.5~2.0s
  • 💬 대화 / Q&A: Max Delay 2.0s, EoU 0.5~0.8s
  • 📝 받아쓰기 / 받아적기: Max Delay 2.0s, EoU 0.4~0.6s

단축키

OBS 설정 → 단축키 → Toggle Speechmatics Captions 에서 단축키를 지정하면 Properties를 열지 않고도 시작/중지할 수 있습니다.


소스 빌드

펼치기

사전 요구사항

  • CMake 3.28+
  • Xcode 16+ (macOS) / Visual Studio 2022 (Windows) / GCC 12+ (Linux)
  • OpenSSL (macOS: brew install openssl)

macOS

cmake --preset macos
cmake --build --preset macos
# 결과물: build_macos/RelWithDebInfo/speechmatics-caption-obs.plugin

Windows

cmake --preset windows-x64
cmake --build --preset windows-x64

Linux

cmake --preset ubuntu-x86_64
cmake --build --preset ubuntu-x86_64

모든 의존성(IXWebSocket, nlohmann/json, OBS SDK)은 CMake FetchContent를 통해 자동 다운로드됩니다.

후원

이 프로젝트가 도움이 되셨다면 커피 한 잔 사주세요!

Buy Me A Coffee

라이선스

GPL-2.0 - LICENSE 참조

About

Speechmatics RT API를 사용한 OBS Studio 실시간 자막 + 번역 플러그인 | Real-time speech-to-text captions + translation plugin for OBS Studio using Speechmatics RT API

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors