BEA – Beszélt nyelvi adatbázis fejlesztése

A BEA (BEszélt nyelvi Adatbázis) lejegyzése, részben automatikus, részben kézi szegmentálása és címkézése elkezdődött az NKFIH által támogatott Prozódiai szerkezet és mondattípusok vizsgálata nagy beszédadatbázisokon mély tanulási támogatással című projekt (NKFI-135038) keretében. Eredetileg a BEA  létrehozása 2007-ben indult el, az MTA Nyelvtudományi Intézet Fonetikai Osztályán; az új projektben az évek alatt összegyűjtött hanganyagok címkéit egészítjük ki, és tesszük elérhetővé kutatók számára.

Három, összesen kb.500 órányi, nagy beszédadatbázist fogunk előállítani, amelyek spontán monológusokat és dialógusokat tartalmaznak. Az adatok lejegyzése, szegmentálása és címkézése részben automatikusan, részben kézi javítással történik. Elérhetővé válik a hang- és szószintű szegmentálás, valamint az adatok prozódiai címkézése.)

A mai tudásszintnek megfelelő, mély tanulási modelleket fejlesztünk a magyar beszédfelismerésre és graféma-fonéma megfeleltetésekre. Ezek eredményei, valamint az automatikus prozódiai lejegyzések ingyenesen hozzáférhetővé válnak kutatók számára.

A nagy mennyiségű spontán beszédet tartalmazó adatbázison a nyelvtan-diskurzus interfész modelljeit teszteljük, finomítjuk és átdolgozzuk. Létrehozzuk a prozódiai frázisok fonetikai alapú rendszerét. Végül vizsgáljuk, hogy az előre tervezett és a spontán beszédre jellemző paramétereket hogyan lehet megbízhatóan elkülöníteni egymástól.

Egyrészt a projektben most először nyílik mód nagy méretű spontánbeszéd-adatbázisok tanulmányozására nyelvészeti és fonetikai szempontok alapján. Másrészt emellett gyarapítjuk ismereteinket nagy mennyiségű adat hatékony automatikus szegmentálásáról, amellyel, harmadrészt, lehetőséget biztosítunk más kutatóknak, hogy a beszédadatbázisokra támaszkodva saját kutatásokat végezhessenek más témákon is.

Az adatbázisról bővebb információk itt találhatók.