English | 한국어
Speechmatics RT API를 사용한 OBS Studio 실시간 자막 + 번역 플러그인입니다. 한국어로 말하면 자막이 표시되고, 동시에 영어(또는 다른 언어)로 번역된 자막도 함께 표시됩니다.
Speechmatics는 업계를 대표하는 실시간 음성 인식(STT) API입니다.
- 50개 이상 언어 지원: 한국어, 영어, 일본어, 중국어, 스페인어, 프랑스어, 독일어 등
- 높은 정확도: Enhanced 모델로 최고 수준의 인식률 제공
- 실시간 번역: 다국어 동시 번역 지원
- 유연한 설정: 지연시간 vs 정확도 트레이드오프 조절 가능 (
max_delay)
- 실시간 음성→텍스트 (Speechmatics RT Enhanced 모델)
- 실시간 번역 — 말하는 즉시 번역된 자막이 함께 표시 (한↔영, 한↔일, 한↔중 등 7개 언어)
- 레이턴시/사일런스 세분화 제어 — Max Delay, Max Delay Mode, End-of-Utterance Silence Trigger
- 텍스트 스타일 커스터마이징 — 폰트, 색상, 외곽선, 그림자, 너비, 줄바꿈
- 모든 속성에 상세 툴팁 제공 — 마우스 호버 시 사용 시나리오별 권장값 표시
- 단축키 지원 (Properties 열지 않고 시작/중지)
- 네트워크 끊김 시 자동 재연결
- 한중일(CJK) 폰트 지원
Speechmatics는 신용카드 등록 없이 무료로 시작할 수 있습니다.
| 항목 | 무료 제공량 |
|---|---|
| 실시간 음성 인식 (STT) | 매월 8시간 (480분) |
| 동시 세션 | 최대 2개 |
| 지원 언어 | 55개 이상 |
| 실시간 번역 | 지원 |
개인 방송이나 소규모 스트리밍에는 무료 플랜으로 충분합니다.
speechmatics.com에서 가입 후 API 키를 발급받으세요. (신용카드 불필요)
| 플랫폼 | 파일 |
|---|---|
| macOS (Apple Silicon) | speechmatics-caption-obs-0.1.0-macos-arm64.tar.xz |
| macOS (Intel) | 소스에서 빌드 (아래 참조) |
| Windows | speechmatics-caption-obs-0.1.0-windows-x64.zip |
| Linux (Ubuntu) | speechmatics-caption-obs-0.1.0-x86_64-linux-gnu.deb |
Intel Mac 사용자: Apple Silicon용 바이너리는 Rosetta 2로 실행 가능합니다. 네이티브 빌드가 필요한 경우 아래 소스 빌드 섹션을 참조하세요.
macOS
speechmatics-caption-obs-x.x.x-macos-arm64.zip다운로드 후 압축 해제- OBS 메뉴 → File → Show Settings Folder 클릭
- 열린 폴더에서 plugins 폴더로 이동
speechmatics-caption-obs.plugin을 plugins 폴더에 복사- OBS Studio 재시작
제거: OBS 메뉴 → File → Show Settings Folder → plugins 폴더에서 speechmatics-caption-obs.plugin 삭제
Windows
speechmatics-caption-obs-x.x.x-windows-x64.zip다운로드 후 압축 해제- 내용물을 아래 경로로 복사:
%APPDATA%\obs-studio\plugins\speechmatics-caption-obs\ - OBS Studio 재시작
Linux (Ubuntu)
sudo dpkg -i speechmatics-caption-obs-x.x.x-x86_64-linux-gnu.deb또는 수동으로 ~/.config/obs-studio/plugins/speechmatics-caption-obs/ 에 복사
- OBS에서 소스 + 클릭 → Speechmatics Captions 선택
- 소스 우클릭 → 속성:
- Speechmatics API Key 입력
- Audio Source 에서 마이크 선택 (예: Mic/Aux)
- Language 선택
- (선택) Enable Translation 체크 후 번역 대상 언어 선택
- Start Caption 클릭
- 마이크에 말하면 실시간 자막이 화면에 표시됩니다!
모든 속성에 마우스를 올리면 상세 툴팁이 표시됩니다. 권장값과 사용 시나리오를 참고하세요.
자막의 출력 속도와 분할 방식을 세밀하게 조절할 수 있습니다.
| 속성 | 범위 | 기본값 | 설명 |
|---|---|---|---|
| Max Delay | 0.7 ~ 20.0초 | 2.0 | 최종 자막 출력까지의 최대 대기 시간 (낮을수록 빠름) |
| Max Delay Mode | flexible / fixed | flexible | 단어 경계 보호 여부 (flexible: 단어 보호 / fixed: 칼같이 자름) |
| End-of-Utterance Silence | 0.0 ~ 2.0초 | 0.0 (off) | 이 시간만큼 무음 시 발화 단위로 마감. 0이면 비활성 |
시나리오별 권장값:
- 🎮 게임 스트리밍 / 라이브: Max Delay
1.0~1.5s, EoU0.0s - 🎤 강의 / 설교: Max Delay
3.0~5.0s, EoU1.5~2.0s - 💬 대화 / Q&A: Max Delay
2.0s, EoU0.5~0.8s - 📝 받아쓰기 / 받아적기: Max Delay
2.0s, EoU0.4~0.6s
OBS 설정 → 단축키 → Toggle Speechmatics Captions 에서 단축키를 지정하면 Properties를 열지 않고도 시작/중지할 수 있습니다.
펼치기
- CMake 3.28+
- Xcode 16+ (macOS) / Visual Studio 2022 (Windows) / GCC 12+ (Linux)
- OpenSSL (macOS:
brew install openssl)
cmake --preset macos
cmake --build --preset macos
# 결과물: build_macos/RelWithDebInfo/speechmatics-caption-obs.plugincmake --preset windows-x64
cmake --build --preset windows-x64cmake --preset ubuntu-x86_64
cmake --build --preset ubuntu-x86_64모든 의존성(IXWebSocket, nlohmann/json, OBS SDK)은 CMake FetchContent를 통해 자동 다운로드됩니다.
이 프로젝트가 도움이 되셨다면 커피 한 잔 사주세요!
GPL-2.0 - LICENSE 참조