Online nástroje pro přepis rozhovorů: přehled

Jolanta Svobodova
Nov 20 · 5 min read
Image for post
Image for post
V dnešní době již není potřeba rozhovory přepisovat ručně, pomohou různé platformy (zdroj:rev.com (8))

Nejen novináři, ale i například psychologové, sociologové nebo historici potřebují při své práci převádět rozhovory do textové podoby. Protože jsou rozhovory někdy i několikahodinové nebo s velkým množstvím respondentů, vznikla potřeba zjednodušit jejich zpracování — nejlépe tedy převést zvukový záznam rozhovoru do textové podoby.

S rozvojem umělé inteligence, hlasových asistentů a možnosti téměř jakoukoliv techniku v chytré domácnosti ovládat hlasem, může být zpracování rozhovoru jednodušší a méně časově náročné. Který z online nástrojů je ale nejspolehlivější? A zvládají všechny český jazyk? I na to se zaměřuje následující přehled.

Sonix

Sonix umožňuje převádět na text audio a video soubory a po převodu s nimi dále pracovat. Kromě nahrávání souboru z počítače můžete Sonix propojit i s Dropboxem, Google Drive nebo Zoomem, což je obzvláště v době online výuky a schůzek velká výhoda. Převod nabízí z celkem sedmatřiceti jazyků, v nichž je zahrnutá i čeština.

Sonix nabízí prvních 30 minut převáděného zvuku na text zdarma, poté je potřeba si další převody předplatit. Po vyčerpání první půlhodiny je možné si zakoupit buď další hodiny za cenu 10 USD za každou započatou hodinu, nebo prémiové členství za 22 USD ročně, se kterým je hodinová cena poloviční.

Co se kvality týká, hodně se odráží kvalita řeči mluvčího. Pokud má Sonix udělat transkripci zvuku, kde řečník mluví pomalu a nahlas, zvládá ji téměř bez chyby jak v češtině, tak v angličtině, u běžného rozhovoru ale v obou jazycích poměrně pokulhává. Výsledný text je spíše nesmyslný a převedená slova se výrazně liší od těch použitých v záznamu. Zpracování textu by tak ve finále mohlo trvat ještě déle, než kdyby jej autor přepsal rovnou. Výhodou ale je, že autor může případné chyby opravovat přímo v přepsané verzi. (1)

IBM Watson Transcribe Audio Demo

Demo verze převodníku od IBM je dostupná bez omezení a nabízí kromě nahrání zvukového souboru i přímý převod řeči na text, a to s poměrně velkou přesností. Jazykově je například oproti Sonixu omezenější — rozpoznává řeč v angličtině, španělštině, francouzštině, portugalštině, němčině, japonštině, korejštině, arabštině a mandarínské čínštině.

Než začnete s vlastní konverzí, nabízí IBM i možnost přehrání dvou zvukových souborů, které Vám umožní si program vyzkoušet, zkusit si jeho funkce a teprve poté se rozhodnou na základě vlastní zkušenosti.

Zajímavou funkcí, kterou v demu najdeme je zvýrazňování klíčových slov. Po jejich zadání uvidí autor nejen která ze slov byla ve zvukové projevu použita, ale i v jakém čase a na kolik procent odpovídají formulaci klíčového slova. (2)

Trint Audio to Text

Trint je první z transkriptorů, který kromě webového rozhraní nabízí i vlastní aplikaci, avšak pouze pro iOS. Převod nabízí z jednatřiceti jazyků a využívají jej i novinoví velikáni jako Der Spiegel nebo The Washtington Post.

Zakladatelem Trintu je Jeff Kofman, který sám působil jako válečný a zahraniční zpravodaj ve více než čtyřiceti zemích. S nápadem na nástroj sloužící k transkripci řeči online kontaktovat tým vývojářů na základě své vlastní zkušenosti, neboť si kladl otázku: „Proč musím rozhovory, projevy a tiskové konference ručně přepisovat jako v sedmdesátých letech i v novém století?“

Po pouhých dvou letech fungování, v roce 2016, získal Trint grant pro Digitální inovace ve výši padesáti tisíc euro, za další dva roky ve stejném programu získali developeři pětkrát větší sumu a uzavřeli smlouvu s mezinárodní tiskovou agenturou The Associated Press.

Od roku 2019 umožňuje Trind kromě převodu zvukového záznamu i přímý převod řeči na text.

Stejně jako Sonix, i Trind umožňuje propojení s virtuálními úložišti, a hlavně následnou editaci, která je ze zmiňovaných transkriptorů asi nejpropracovanější. V textu je možné zvýrazňovat, přeškrtávat, používat záložky a komentáře nebo nahrazovat slova synonymy.

Po sedmidenní zkušební lhůtě zaplatí uživatelé od 55 EUR za měsíc.(3)

Go Transcribe Cloud-based Transcriptions

Londýnský převodník nabízí převod řeči z více než sedmnácti jazyků a nabízí širokou škálu výstupných formátů textu. Kromě klasických wordových dokumentů a PDF dokáže vygenerovat text ve formátu SRT, tedy jako titulky k videu, kde jsou u textu uvedeny i konkrétní časy pro synchronizaci s obrazem.

Go Transcribe podporuje i češtinu a přijímá většinu používaných typů souboru. Před nahráním souboru je možné přidat do slovníku i vlastní slova, například odborné nebo převzaté výrazy, aby program dokázal zvuk lépe zpracovat a snížilo se tak množství dodatečných úprav po konverzi. Oproti ostatním transkriptorům z českého jazyka je tento výsledný text poměrně obstojné kvality, není potřeba v něm dělat takové množství úprav a poznává i nespisovná nebo cizí slova. Zároveň umožňuje barevně oddělovat mluvící osoby a na jednom textu může souběžně pracovat více osob.

Platforma využívaná i zpravodaji jako The Guardian nebo BBC ale neumožňuje přímý převod řeči do textu, pouze skrz nahrání souboru. Záznam o délce jedné hodiny ale dokáže převést za méně než patnáct minut.

Pro jednorázové využívání nabízí Go Transcribe minutovou taxu 22 centů USD, pro častější používání měsíční členství za 48 USD, ve kterém jsou zahrnuty čtyři hodiny pro záznam. (4)

SpokenData od ReplayWell / Přepisovatel

Přepisovatel neboli Spokendata je produktem brněnské firmy ReplayWell. Ta vznikla v rámci výzkumné skupiny na FIT VUT v Brně a zprvu se zabývala přepsáním a otitulkováním přednášek a konferencí a vyhledáváním v nich. (5)

Podporuje celkem šest jazyků, kromě češtiny a angličtiny také třeba ruštinu nebo slovenštinu. Při nahrávání videa k přepisu je možné si také vybrat, jestli je zvuk zpravodajstvím nebo medicínsky zaměřený, jestli má být výsledný text oddělen podle mluvčích nebo jestli má být text souvislý.

Výhodou také je možnost přidání zdroje formou URL odkazu. Po dokončení procesu přepsání zasílá Přepisovatel informační email a uživatel si tak může výsledný text rovnou stáhnout, a to i jako excelovou tabulku nebo také ve formě titulků SRT.

Prvních šedesát minut používání Přepisovatele je bezplatných, další využívání začíná na deseti euro centech za minutu nebo šesti eurech za hodinu.(6)

Happy Scribe

Stejně jako u Trintu, i za vznikem Happy Scribe stojí uvědomění si, kolik času zabírá přepis rozhovorů. Dva irští podnikatelé přepisovali několik výzkumných rozhovorů, při kterých si uvědomili, jak jsou přepisy zdlouhavé. Během několika dní přišli s myšlenkou na řešení a vzniknul Happy Scribe.

Nabízí přepisy z neuvěřitelného množství 119 jazyků a množství výstupních formátů, včetně titulkového SRT. Zároveň se jedná o jeden z nejpřesnějších transkriptorů, protože vykazuje téměř 100% přesnost přepisu, a to i v případě audia v češtině. Samozřejmě je potřeba výsledný text upravit, ale rozhodně ušetří spoustu času.

Po zkušební půlhodině mohou uživatelé využívat Happy Scribu za 12 EUR za hodinu nebo měsíčního odběru za 30 EUR a tří hodin převodů. Oproti ostatním platformám nabízí také volné hodiny za doporučení webu známým. (7)

Závěr

Po otestování sedmi různých transkriptorů je jasné, že naplno nahradit člověka umělá inteligence v přepisu rozhovoru ještě nemůže. Vypadá to ale, že směr, kterým se tato oblast posouvá, je ten správný, a už teď existují platformy, které pro přepis rozhovorů ušetří spoustu času.

(1) Sonix.ai — převod textu na řeč. Sonix [online]. [cit. 2020–11–12]. Dostupné z: https://sonix.ai/faq

(2) Speech to text od IBM. Speech to text — demo [online]. [cit. 2020–11–12]. Dostupné z: https://speech-to-text-demo.ng.bluemix.net

(3) Trint Audio to Text. Trint [online]. [cit. 2020–11–12]. Dostupné z: https://trint.com/about-us

(4) Go Transcribe Cloud — based Transcriptions. Go Transcribe [online]. [cit. 2020–11–14]. Dostupné z: https://go-transcribe.com

(5) ReplayWell — basic information. IT Innovate [online]. [cit. 2020–11–14]. Dostupné z: http://www.lt-innovate.org/directory/organisation/replaywell-s-r-o

(6) Přepisovatel. Přepisovatel [online]. [cit. 2020–11–14]. Dostupné z: https://www.prepisovatel.cz/o-nas

(7) Happy Scribe. Happy Scribe [online]. [cit. 2020–11–14]. Dostupné z: https://www.happyscribe.com

(8) Speech to text: process. In: Rev.com [online]. [cit. 2020–11–20]. Dostupné z: https://www.rev.com/blog/rev-speech-recognition-revspeech-api

DESIGN KISK

Články nejen o designu informačních služeb

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store