Z videa do slovenčiny automaticky za pár minút.

Automatický video-dubbing pipeline. Whisper STT → Gemma preklad → OmniVoice TTS → finálna A/V montáž. Všetko lokálne, bez cloudu.

EN summary: Local-first AI video dubbing pipeline — Whisper speech-to-text → fine-tuned Gemma 4 26B (EN→SK) → OmniVoice TTS with voice cloning. Runs fully on a single RTX 4090, no cloud APIs.

Live demo

40-sekundová ukážka EN→SK

TED Talk od Tima Urbana preložený a nadabovaný plne lokálne — Whisper STT → Gemma 4 26B → OmniVoice TTS. Vľavo hore vidíš pôvodný EN klip, hlavné video je AI dabing v slovenčine.

Link na video: https://youtu.be/OYzaQf7kO3M · pôvodný materiál: Tim Urban / TED · CC-BY-NC-ND

Audio ukážky SK TTS

Ako znie OmniVoice / Chatterbox v slovenčine

3 krátke vzorky vygenerované lokálnym TTS modelom. Žiadny cloud, žiadne API — všetko bežalo na RTX 4090.

Pozdrav (~7s)

„Vitajte vo VideoTranslator Studiu. Lokálny AI dabing pre slovenčinu — bez cloudu, bez poplatkov.“

Vysvetlenie pipeline (~11s)

„Pipeline kombinuje tri modely. Whisper transkribuje pôvodný zvuk, Gemma štyri prekladá do slovenčiny a OmniVoice generuje hlasový výstup. Všetko beží lokálne.“

Naratívny štýl (~14s)

„Predstavte si, že vezmete anglické video, kliknete jedenkrát, a o pár minút máte plnohodnotný slovenský dabing s klonovaným hlasom rečníka. Žiadne predplatné, žiadne API kľúče — iba vaša grafická karta.“

Pre koho je nástroj určený

Pre tvorcov obsahu

Stiahneš YouTube/Vimeo/TikTok video, klikneš Spustiť preklad — o pár minút máš slovenský dabing pripravený na publikovanie.

Pre štúdiá a lokalizáciu

Batch režim, checkpoint manager, vlastný hlas cez referenčnú .wav vzorku, multi-speaker podpora. Plne lokálne na RTX 4090.

Štyri hlavné moduly

Všetko v jednom Qt6 GUI

Lokálny súbor

Preklad MP4 / MKV / AVI

4-krokový wizard: STT → Preklad → TTS → Finalizácia. Batch režim, checkpoint manager, výber engineu a kvality.

Stiahnutie videa

YouTube, Vimeo, TikTok…

1000+ podporovaných služieb cez yt-dlp. Výber kvality, formátu, celý playlist, podpora prihlásených stránok cez cookies.

Narrátor

Text-to-speech s vlastným hlasom

Vlož text, vyber referenčný hlas (.wav), nastav tempo a štýl-instruct (gender, vek, pitch, accent). Získaš prirodzenú narráciu.

🔍 Auto-detection

Jeden klik a všetko nastavené

Tlačidlo Detekuj hovoriaceho spustí pitch analýzu (librosa) + Whisper sample 90 s + keyword regex. Predvyplní hlas, voice design, typ obsahu, diffusion steps a guidance scale podľa zdroja videa.

Smart Auto-detection

GUI sa nastaví podľa videa, nie naopak

Pohlavie + multispeaker

Pitch analýza F0

librosa pyin na demucs vokáloch — median F0, std, bimodalita. Auto-nastaví voice design preset (🇸🇰 muž / 🇸🇰 žena / multi-voice).

Typ obsahu

Whisper + keyword regex

90 s sample, multilingual auto-lang. EN + SK keywords (C++, SQL, GitHub, databáza, tabuľka…) → general / programming / technical / sql / educational / podcast / review / news.

OmniVoice params

Decision tree

tech content → 96 steps + 2.8 guidance, multispeaker → 96+3.0, low confidence → 96+3.0. Nemusíš tipovať — auto-detect nastaví na základe zdroja.

Konzistentný rod

Speaker gender propagation

Zistený rod sa propaguje do prekladového promptu aj refine pass-u (G3-12B). Plus deterministický regex post-fix („som dokončil" → „som dokončila") pre stopercentnú konzistenciu cez celé video.

Voice cloning architecture v2 (2026-05-08)

SK akcent + identita pôvodného speakera

Krok 1 · Demucs

Extrakcia hlasu z videa

htdemucs htdemucs vyseparuje vokály z input videa. Cleanup + European EQ shaping → cca 5.5 s referenčného audia s timbre pôvodného speakera.

Krok 2 · Chatterbox SK 2.2

SK-flavored ref

Chatterbox (SK fine-tune) s PRO config CONFIG_ANTICUT vyrobí ~6 s SK ref audio: SK akcent zapečený v modeli + timbre z video clone-u (audio prompt). Bez halucinácií vďaka safe_mode fallback retry logike.

Krok 3 · OmniVoice

Final TTS s SK akcentom

OmniVoice (zero-shot, 600+ jazykov) klonuje z SK-flavored referencie. Output: SK akcent + identita pôvodného video speakera + OmniVoice quality. Žiadny zero-shot accent leak.

Krok 4 · PRO Master

Open clarity EQ

Bass body (70Hz/120Hz +2dB) + de-nasal cut (1.5kHz) + presence (3.5kHz) + sparkle highs (8/12/15kHz). EBU R128 -20 LUFS, kompresor 3:1, lowpass 16 kHz. Background music -15 dB.

Ako to celé funguje
1. STT Faster-Whisper large-v3-turbo s context-aware transcription a hallucination guards.
2. Preklad Gemma 4 26B fine-tuned EN→SK, sliding-window batching, glossary memory.
3. TTS OmniVoice (zero-shot, primary) a Chatterbox SK 2.2 (backup). Žiadny SK fine-tune potrebný.
4. Finalizácia Preserve gaps default, sync-safe timeline, optional gap compression, ffmpeg mux.
TTS engines

Slovenský benchmark (Whisper QA)

Primary · 408

OmniVoice (zero-shot)

k2-fsa, 600+ jazykov, žiadny SK fine-tune potrebný. Voice clone z 3-sekundovej referencie. Rýchla inferencia, vysoká kvalita.

Backup · 355

Chatterbox SK 2.2

Slovenský fine-tune s prosody vrstvami: pause map, pitch contour, energy contour per-chunk, per-chunk style embedding.

Technology stack

Plne lokálne, žiadny cloud

Inference

LM Studio + Ollama + llama.cpp

Gemma 4 26B A4B Q6_K (default), MADLAD, NLLB, MultiSlav, voliteľné API: GPT-5, Grok, Gemini.

Hardware

RTX 4090 · 24 GB VRAM

Optimalizované pre RTX 4090. Adaptívne unloading modelov medzi STT/translate/TTS fázami.

Software

PyQt6 · Python 3.10/3.11

Linux, miniforge3 conda envs. Faster-Whisper, ffmpeg, librosa, transformers, unsloth.