Práce se zvukem a audiem

Doba čtení: cca 4 min

Zvuk je pro nevidomé uživatele primárním zdrojem informací – ale AI v oblasti zvuku přináší hodnotu pro každého. Ať chcete vyčistit šumnou nahrávku porady, nechat si text přečíst přirozeným hlasem, vytvořit hudbu na pozadí pro video nebo automaticky přepsat hodinu záznamu, AI to dnes zvládne za zlomek času a nákladů, které by dříve vyžadovaly profesionální studio.

Přepis nahrávek do textu

Automatický přepis mluveného slova (ASR – Automatic Speech Recognition) je jednou z nejzralejších a nejspolehlivějších oblastí AI. Dnešní modely zvládají češtinu s přesností, která ještě před třemi lety byla nedosažitelná.

Whisper (OpenAI): Výkonný přepisovací model dostupný zdarma jako open-source. Zvládá češtinu, angličtinu i desítky dalších jazyků. Integrovaný přímo v macOS Sonoma a novějším přes funkci „Live Captions“.
Otter.ai: Cloudová služba zaměřená na přepis a záznamy schůzek. Automaticky rozlišuje mluvčí, vytváří přehledný zápis a umožňuje prohledávání nahrávek.
MacWhisper: Nativní macOS aplikace postavená na Whisper modelu. Přepisuje lokálně bez odesílání dat na cloud – vhodné pro citlivé nahrávky.

Praktické použití: nahrajete si hodinu přednášky, schůzky nebo interview – a za pár minut máte kompletní přepis, ze kterého AI vytvoří strukturovaný zápis s klíčovými body.

Čištění a vylepšení nahrávek

Nahráli jste si poznámku na rušné ulici, v masérně nebo na chodbě? AI nástroje dokážou ze zvukového záznamu odstranit šum a vytvořit profesionálně znějící výsledek:

Adobe Podcast Enhance: Bezplatná online služba. Nahrajete soubor, AI odstraní šum pozadí, vyrovná hlasitost a výsledek stáhnete. Funguje překvapivě dobře i na nahrávkách z levných mikrofonů.
Auphonic: Profesionálnější varianta pro podcastery a tvůrce obsahu. Kromě čištění zvládá normalizaci hlasitosti dle standardů rozhlasového vysílání a přidávání metadat.
Krisp: Aplikace, která funguje v reálném čase při hovorech – odstraňuje zvuky z pozadí při videokonferencích nebo nahrávání. Ideální pro home office nebo práci v hlučném prostředí.

Odstranění ozvěny: I z nahrávky v koupelně nebo prázdné místnosti udělá zvuk jako ze studia.
Potlačení hluku na pozadí: Vymaže projíždějící auta, hučení klimatizace nebo rozhovor v sousední místnosti.
Vyrovnání hlasitosti: Pokud je jeden mluvčí potichu a druhý nahlas, AI to automaticky srovná na příjemnou úroveň.

Syntéza hlasu a čtení textu (TTS)

Dnešní syntetické hlasy už nezní jako roboti z osmdesátých let. Moderní TTS (Text-to-Speech) systémy jsou k nerozeznání od skutečného člověka – přirozeně dýchají, mění tempo, intonují otázky a dokonce vyjadřují emoce.

ElevenLabs: Špičkový TTS nástroj s nejpřirozenějšími hlasy. Bezplatná verze nabízí omezený počet znaků měsíčně. Nabízí desítky hlasů, možnost klonování vlastního hlasu nebo přizpůsobení tempa a emocí.
VoiceOver (macOS/iOS): Systémový odečítač obrazovky od Apple s velmi kvalitními hlasy pro češtinu. Pro nevidomé uživatele základ práce s jakýmkoliv textem na Macu nebo iPhonu.
Přirozené čtení v prohlížeči: Safari nabízí funkci „Poslech článku“, která přečte text webové stránky přirozeným hlasem. Dostupné přímo z adresního řádku.

Klonování hlasu je fascinující, ale i citlivá oblast – viz stránka o etice. Vytvářet hlas jiné osoby bez jejího souhlasu je neetické a v řadě zemí i protizákonné.

Tvorba hudby a zvukového prostředí

Potřebujete hudbu na pozadí pro video, podcast, prezentaci nebo pohádku? Dříve to znamenalo buď drahou licenci, nebo investici do hudebníka. Dnes stačí popsat, co chcete:

Suno: Bezplatná a velmi schopná služba pro generování hudby. Zadáte textový popis (žánr, nálada, tempo, nástroje) a za minutu máte originální skladbu. „Klidná akustická kytara pro meditaci, bez bicích, tempo adagio.“
Udio: Alternativa k Sunu s důrazem na hudební přesnost a detailnější ovládání výsledku. Vhodné pro pokročilejší uživatele.
Mubert: Generuje nekonečné hudební smyčky přizpůsobené vaší aktivitě nebo náladě. Výborné pro práci nebo masážní salon.

„Vytvoř relaxační meditační hudbu s klavírem a zvuky tekoucí vody pro masážní salon. Teplá, klidná atmosféra, žádné výrazné rytmické prvky.“

Automatický střih a editace nahrávek

Pokud tvoříte podcasty, videa nebo audionahrávky, AI vám ušetří hodiny manuální editace:

Automatické mazání ticha: AI rozpozná a odstraní pauzy delší než nastavenou mez – výsledek zní kompaktněji bez zdlouhavého ručního střihu.
Odstranění parazitních slov: Nástroje jako Descript nebo Podcastle dokážou automaticky vyhledat a odstranit výplňová slova jako „ehm“, „vlastně“ nebo „takže“.
Editace textem: Descript zobrazí přepis nahrávky jako textový dokument. Smažete slovo v textu – a z nahrávky zmizí odpovídající zvukový úsek. Intuitivní i pro nevidomé uživatele pracující s odečítačem.

Tip od Zdeňka

Zdeněk radí: Zvuk je pro mě klíčový – a AI mi v této oblasti změnila práci nejvíc. Automatický přepis poznámek z procházky, čistý hlas ve videu bez drahého mikrofonu, hudba do pohádek na objednávku. Začněte s Adobe Podcast Enhance – je zdarma, funguje okamžitě a výsledek vás překvapí. Je to jeden z těch nástrojů, kde AI skutečně dělá věci, které by jinak vyžadovaly profesionála.

Práce se zvukem a audiem 🎙️