[:hu]
A BEA (BEszélt nyelvi Adatbázis) lejegyzése, részben automatikus, részben kézi szegmentálása és címkézése elkezdődött az NKFIH által támogatott Prozódiai szerkezet és mondattípusok vizsgálata nagy beszédadatbázisokon mély tanulási támogatással című projekt (NKFI-135038) keretében. Eredetileg a BEA létrehozása 2007-ben indult el, az MTA Nyelvtudományi Intézet Fonetikai Osztályán; az új projektben az évek alatt összegyűjtött hanganyagok címkéit egészítjük ki, és tesszük elérhetővé kutatók számára.
Három, összesen kb. 500 órányi, nagy beszédadatbázist fogunk előállítani, amelyek spontán monológusokat és dialógusokat tartalmaznak. Az adatok lejegyzése, szegmentálása és címkézése részben automatikusan, részben kézi javítással történik. Elérhetővé válik a hang- és szószintű szegmentálás, valamint az adatok prozódiai címkézése.)
A mai tudásszintnek megfelelő, mély tanulási modelleket fejlesztünk a magyar beszédfelismerésre és graféma-fonéma megfeleltetésekre. Ezek eredményei, valamint az automatikus prozódiai lejegyzések ingyenesen hozzáférhetővé válnak kutatók számára.
A nagy mennyiségű spontán beszédet tartalmazó adatbázison a nyelvtan-diskurzus interfész modelljeit teszteljük, finomítjuk és átdolgozzuk. Létrehozzuk a prozódiai frázisok fonetikai alapú rendszerét. Végül vizsgáljuk, hogy az előre tervezett és a spontán beszédre jellemző paramétereket hogyan lehet megbízhatóan elkülöníteni egymástól.
Egyrészt a projektben most először nyílik mód nagy méretű spontánbeszéd-adatbázisok tanulmányozására nyelvészeti és fonetikai szempontok alapján. Másrészt emellett gyarapítjuk ismereteinket nagy mennyiségű adat hatékony automatikus szegmentálásáról, amellyel, harmadrészt, lehetőséget biztosítunk más kutatóknak, hogy a beszédadatbázisokra támaszkodva saját kutatásokat végezhessenek más témákon is.
Az adatbázisról bővebb információk itt találhatók. A regisztrációs oldal kutatók számára a BEA-Base és BEAST eléréséhez ezen a linken található. Az adatközlőknek ezúton is hálásan köszönjük a kutatásban való részvételt, ezen a linken érik el az adatkezelési tájékoztatótankat.
[:en]Three large corpora with a total size of more than 500 hours of spontaneous spoken Hungarian monologue and dialogue will be — partly manually, partly automatically — segmented, annotated and made publicly available for research. Segmentations and annotations will cover the phoneme, word, and prosodic phrase level.
The state of the art machine learning models developed for this purpose, namely an ASR and a text-speech alignment system for Hungarian based on deep learning, and models for automatic prosodic annotation will be made publicly available for research. For details, please, visit https://phon.nytud.hu/bea/ !
Backed by the large spontaneous speech data, grammar-discourse interface models will be tested, refined, and revised. We will provide a phonetically based prosodic phrasing system for Hungarian and its annotation scheme. Finally, light will be shed on how to disentangle system and spontaneous speech influences on the speech acoustics of prosodic phrasing.
In sum, this project first provides linguistic and phonetic insights based on analyses of large spontaneous speech databases. Second, it provides insights and the technology, how to automatically segment and annotate large speech data, in order to, third, enable other researchers to work with the introduced corpora, or to process their own data in the future. [:]