BEA – Beszélt nyelvi adatbázis

A BEA elnevezésű (BEszélt nyelvi Adatbázis) fonetikailag megalapozott többfunkciós spontán beszéd adatbázis fejlesztésének célja a mai budapesti beszélők beszédének rögzítése, továbbá anyag biztosítása különféle kutatásokhoz és gyakorlati alkalmazásokhoz.
A BEA fejlesztését egy három- és egy négyéves OTKA-pályázat segítette, illetve segíti (783150 és 108762 számúak). A második projekt 2013-ban indult. A kutatások elsődleges célja a spontán beszédre fókuszáló, de egyéb beszédtípusokat is tartalmazó nagy beszédadatbázis létrehozása volt (először kilencven, majd százhúsz adatközlő beszédanyagának rögzítésével). A második ciklusban folynak az annotálások, a cél 120 felvétel átírása a Praat programban. A fejlesztő kutatók mindkét pályázat keretében különböző aspektusú kutatásokat végeztek az adatbázis felhasználásával. A BEA adatbázishoz egy nyílt hozzáférésű (open access), ingyenes rendszer tervezése van folyamatban a kutatók számára (a második OTKA-projekt keretében).

Az adatbázis kutatási célra kiadható. A részletekről a fonetika[kukac]nytud.hu címen érdeklődhetnek.

Adatok

Ez a beszédadatbázis nem csupán a nyelvészet, a beszédkutatás számára rendkívüli. A BEA nemzeti kincs, fontossága a szótárakéhoz hasonlítható. Fejlesztése kötelességünk és felelősségünk. Mostanra vált technikailag lehetővé egy ilyen nagyszabású munkálat elindítása, amelyet a lehető legmagasabb szakmai színvonalon kell elvégeznünk.

A számítógépes technológia segítségével létrehozható nagyméretű beszédadatbázisokat a fonetika harmadik forradalmának nevezték a hangszínképelemzés és a számítógépes beszédanalizáló szoftverek után egy 2011-es fonetikai workshop nyitó gondolataként a Pennsylvaniai Egyetemen (New tools and methods for very-large-scale phonetics research: http://www.ling.upenn.edu.phonetics /workshop/). Napjainkban már nagy mennyiségű beszédadatbázisok állnak rendelkezésre különböző nyelveken, és ez azt jelenti, hogy a kutatók olyan kérdésekre is választ kaphatnak, amelyekre korábban nem volt mód. A korszerű beszédadatbázisok rögzített felvételei különféle szempontok szerint strukturáltak és lekérdezhetők. A nyelvészet számos területén fokozódik az igény a valós nyelvhasználat tanulmányozására.

A szoros értelemben vett fonetikai, a tágabb értelemben vett nyelvészeti elemzések, azaz a spontán beszéd több aspektusú vizsgálata, továbbá a beszédtechnológiai feladatok igénye olyan magyar nyelvű multifunkcionális adatbázis fejlesztését tette szükségessé, amely elméleti és alkalmazott kutatások anyagául egyaránt szolgálhat. Az MTA Nyelvtudományi Intézet Fonetikai Osztályán 2007-ben indult meg a BEA (BEszélt nyelvi Adatbázis) fejlesztése. A cél 500 személy beszédének rögzítése, adatközlőnként 50-60 percnyi hanganyag felvétele, tekintetbe véve a nők és a férfiak arányát, az életkor szerinti megoszlást, valamint az iskolázottságot. A kezdetektől szigorúan figyelembe vettük a Nyelvtudományi Intézetben érvényes Humán vizsgálatokon alapuló nyelvészeti kutatások etikai szabályozásában foglaltakat (2007. április 16) a felvételek készítése során (az adatközlők kódokkal szerepelnek az adatbázisban, személyük azonosíthatatlan). A fejlesztés tervezésével egy időben megkezdődött a hangzó anyag lejegyzési stratégiáinak, valamint a lekérdezhetőség módozatainak a kidolgozása. Jelenleg a tervezett adatbázis mintegy 80%-a készült el; a kezdetektől kutatásra alkalmas.

A felvételek mindig azonos helyen és technikai körülmények között készülnek, a Fonetikai Osztály saját tervezésű, zajszigetelt szobájában. A hangcsillapítás mértéke a külső környezethez képest 50 Hz-en 35 dB, 250 Hz fölött pedig 65 dB. A szobában felvett hanganyagok jel/zaj viszonyának értékei szerint ez a zajszigetelt szoba alkalmas jó minőségű hangfelvételek készítésére. A rögzítés digitális, közvetlenül a számítógépre történik 44,1 kHz-es mintavételezéssel. Tárolás: 16 bit, 86 kbyte/s, monó. Az interjúkészítő a felvételek 95%-ában ugyanaz a személy volt (fiatal nő). A társalgások harmadik személye fiatal nő vagy férfi (kollégák).

A BEA felvételei közül számosnak az átírása megtörtént: a) központozás nélküli, ún. elsődleges átírás helyesírásban (a Microsoft Office Word programban), b) annotálás a Transcriber programban (a hanganyag és az írott szöveg itt is egyszerre láthatóvá és hallhatóvá tehető; elsősorban beszédtechnológiai alkalmazásban jelent nagy segítséget, c) annotálás a Praat programban (ez többféle annotálás megjelenítését teszi lehetővé, tartalmazza a rezgésképet, a hangszínképet, valamint a különböző szintű beszédrészeket).

Az elmúlt évek alatt a kutatók használhatták az adatbázist. Így a fejlesztőkén kívül is számos kutatás folyt a BEA felhasználásával. A megjelent tanulmányok száma meghaladja a nyolcvanat (magyar és angol nyelven), két szerkesztett kötetet is publikáltak (Beszéd, adatbázis, kutatások. Szerk.: Gósy Mária. Akadémiai Kiadó, Budapest, 2012 és Diszharmóniás jelenségek a beszédben. Szerk.: Gósy Mária. MTA Nyelvtudományi Intézet, Budapest, 2015). Néhány a kutatott témák közül: beszédhangok és szavak akusztikai-fonetikai vizsgálata, a beszéddallam elemzése, a beszédalkalmazkodás kutatása, temporális variabilitás, a beszédsebesség vizsgálata, a bizonytalanságot jelző és a hiba típusú megakadásjelenségek kutatása, gyakorisági mutatók, pragmatikai sajátosságok.

A BEA adatbázist – a beszélők számát, a felvételeinek időtartamát, a protokollt, az annotálást tekintve, valamint azt, hogy minden felvételt azonos körülmények között rögzítenek – nemzetközi tekintetben is a legjelentősebbek között tartják számon.