Preklad MP4 / MKV / AVI
4-krokový wizard: STT → Preklad → TTS → Finalizácia. Batch režim, checkpoint manager, výber engineu a kvality.
Automatický video-dubbing pipeline. Whisper STT → Gemma preklad → OmniVoice TTS → finálna A/V montáž. Všetko lokálne, bez cloudu.
EN summary: Local-first AI video dubbing pipeline — Whisper speech-to-text → fine-tuned Gemma 4 26B (EN→SK) → OmniVoice TTS with voice cloning. Runs fully on a single RTX 4090, no cloud APIs.
TED Talk od Tima Urbana preložený a nadabovaný plne lokálne — Whisper STT → Gemma 4 26B → OmniVoice TTS. Vľavo hore vidíš pôvodný EN klip, hlavné video je AI dabing v slovenčine.
Link na video: https://youtu.be/OYzaQf7kO3M · pôvodný materiál: Tim Urban / TED · CC-BY-NC-ND
3 krátke vzorky vygenerované lokálnym TTS modelom. Žiadny cloud, žiadne API — všetko bežalo na RTX 4090.
„Vitajte vo VideoTranslator Studiu. Lokálny AI dabing pre slovenčinu — bez cloudu, bez poplatkov.“
„Pipeline kombinuje tri modely. Whisper transkribuje pôvodný zvuk, Gemma štyri prekladá do slovenčiny a OmniVoice generuje hlasový výstup. Všetko beží lokálne.“
„Predstavte si, že vezmete anglické video, kliknete jedenkrát, a o pár minút máte plnohodnotný slovenský dabing s klonovaným hlasom rečníka. Žiadne predplatné, žiadne API kľúče — iba vaša grafická karta.“
Stiahneš YouTube/Vimeo/TikTok video, klikneš Spustiť preklad — o pár minút máš slovenský dabing pripravený na publikovanie.
Batch režim, checkpoint manager, vlastný hlas cez referenčnú .wav vzorku, multi-speaker podpora. Plne lokálne na RTX 4090.
4-krokový wizard: STT → Preklad → TTS → Finalizácia. Batch režim, checkpoint manager, výber engineu a kvality.
1000+ podporovaných služieb cez yt-dlp. Výber kvality, formátu, celý playlist, podpora prihlásených stránok cez cookies.
Vlož text, vyber referenčný hlas (.wav), nastav tempo a štýl-instruct (gender, vek, pitch, accent). Získaš prirodzenú narráciu.
Tlačidlo Detekuj hovoriaceho spustí pitch analýzu (librosa) + Whisper sample 90 s + keyword regex. Predvyplní hlas, voice design, typ obsahu, diffusion steps a guidance scale podľa zdroja videa.
librosa pyin na demucs vokáloch — median F0, std, bimodalita. Auto-nastaví voice design preset (🇸🇰 muž / 🇸🇰 žena / multi-voice).
90 s sample, multilingual auto-lang. EN + SK keywords (C++, SQL, GitHub, databáza, tabuľka…) → general / programming / technical / sql / educational / podcast / review / news.
tech content → 96 steps + 2.8 guidance, multispeaker → 96+3.0, low confidence → 96+3.0. Nemusíš tipovať — auto-detect nastaví na základe zdroja.
Zistený rod sa propaguje do prekladového promptu aj refine pass-u (G3-12B). Plus deterministický regex post-fix („som dokončil" → „som dokončila") pre stopercentnú konzistenciu cez celé video.
htdemucs htdemucs vyseparuje vokály z input videa. Cleanup + European EQ shaping → cca 5.5 s referenčného audia s timbre pôvodného speakera.
Chatterbox (SK fine-tune) s PRO config CONFIG_ANTICUT vyrobí ~6 s SK ref audio: SK akcent zapečený v modeli + timbre z video clone-u (audio prompt). Bez halucinácií vďaka safe_mode fallback retry logike.
OmniVoice (zero-shot, 600+ jazykov) klonuje z SK-flavored referencie. Output: SK akcent + identita pôvodného video speakera + OmniVoice quality. Žiadny zero-shot accent leak.
Bass body (70Hz/120Hz +2dB) + de-nasal cut (1.5kHz) + presence (3.5kHz) + sparkle highs (8/12/15kHz). EBU R128 -20 LUFS, kompresor 3:1, lowpass 16 kHz. Background music -15 dB.
k2-fsa, 600+ jazykov, žiadny SK fine-tune potrebný. Voice clone z 3-sekundovej referencie. Rýchla inferencia, vysoká kvalita.
Slovenský fine-tune s prosody vrstvami: pause map, pitch contour, energy contour per-chunk, per-chunk style embedding.
Gemma 4 26B A4B Q6_K (default), MADLAD, NLLB, MultiSlav, voliteľné API: GPT-5, Grok, Gemini.
Optimalizované pre RTX 4090. Adaptívne unloading modelov medzi STT/translate/TTS fázami.
Linux, miniforge3 conda envs. Faster-Whisper, ffmpeg, librosa, transformers, unsloth.