Popis korpusu

Korpus Monolog obsahuje nahrávky a ortografické přepisy monologických veřejných projevů profesionálních mluvčích veřejnoprávního Českého rozhlasu. Verze Monolog 1.0 byla zprovozněna v roce 2012, zveřejněna byla počátkem roku 2013. Jeho celková velikost se blíží 300 minutám, v nichž zaznělo skoro 40 tisíc textových slov. V roce 2016 byl korpus rozšířen o další data. Verze Monolog 1.1 čítá téměř 340 minut, respektive přes 45 tisíc slov. Předpokládáme, že data do korpusu budou doplňována i v budoucnosti.

Materiál do korpusu Monolog byl získáván ze zvukového archivu Českého rozhlasu (http://www.rozhlas.cz/radionaprani/archiv), z něhož lze volně stahovat záznamy mnoha rozhlasových pořadů ve vysoké kvalitě (vzorkovací frekvence 44 100 Hz). Nahrávky z pořadů, které byly do korpusu zařazeny, byly odvysílány v letech 2007–2011 na stanicích ČRo 1 – Radiožurnál, ČRo 2 – Praha, ČRo Rádio Česko a ČRo České Budějovice. Při výběru mluvčích byl kladen důraz na vyváženost pohlaví, sledován byl rovněž regionální původ mluvčích (pokud bylo možné tyto informace získat). Do korpusu byli zařazeni pouze ti mluvčí, od nichž je k dispozici větší množství delších monologických nahrávek. V korpusu Monolog jsou tak celkem soustředěny nahrávky 16 profesionálních mluvčích (8 žen a 8 mužů); od každého z nich jde přibližně o 20 minut monologického projevu.

Pro detailní fonetické analýzy je nezbytné, aby nebyla řeč zkoumaných mluvčích podkreslena hudbou či jinými doprovodnými zvuky. Kvůli této podmínce (a kvůli požadavku monologického projevu) se repertoár vhodných pořadů značně zúžil a korpus je tvořen především částmi zpravodajských relací. Dostupné jsou pouze ty části nahrávek, v nichž mluvčí delší dobu souvisle sami hovoří, korpus Monolog tedy neobsahuje celé rozhlasové pořady.

Vybrány byly projevy z následujících relací (v závorce za názvem programu je uvedena zkratka, díky níž lze jednotlivé pořady v popisu nahrávky identifikovat): 21. století (21), Glosa Rádia Česko (glosa), Kalendárium (kalend), Kronika Rádia Česko (kronika), Po Česku (pocesku), Sportžurnál (sport), Týden v Česku (tyden), Týden v kultuře (kultur), Úžasný svět (uzsvet), Zprávy (zpr). Datum vysílání pořadu lze odvodit z popisu nahrávky, např. číslo 100608 znamená, že relace byla vysílána 8. června 2010.

Vztah korpusu Monolog ke korpusu DIALOG

V oddělení stylistiky a lingvistiky textu Ústavu pro jazyk český vznikl rozsáhlý korpus DIALOG, k němuž má korpus Monolog velmi blízko (a to nejen svým názvem). Korpus DIALOG je speciální multimediální korpus mluvené češtiny, který slouží především k výzkumu mediální komunikace jako celku. Shromažďuje nahrávky a přepisy diskusních pořadů českých televizí, tedy veřejných jazykových projevů dialogického typu.

Korpusy DIALOG i Monolog vznikly jakožto nástroje k výzkumu mluvené češtiny v médiích. Liší se od sebe zejména ve dvou zásadní aspektech: DIALOG zachycuje komunikaci televizní (kde může sehrát důležitou roli i vizuální informace), Monolog nahrávky rozhlasové. V korpusu DIALOG je hlavní důraz kladen na zkoumání řeči dialogické, v korpusu Monolog naopak monologická řeč analyzovaného mluvčího není ovlivňována např. komunikačním stylem ostatních mluvčích ve studiu.

Korpusy DIALOG i Monolog používají stejný vyhledávací systém Dialogy.Org, který vytvořil Mgr. Nino Peterek, Ph.D. (ÚFAL MFF UK). Oba korpusy jsou si blízké i v dalších ohledech, např. autorka korpusu Monolog PhDr. Veronika Štěpánová, Ph.D., působí v Ústavu pro jazyk český AV ČR, v. v. i.

Přihlášení

Popis korpusu

Vyhledávání

Kdo je online