Ugrás a tartalomra

A beszélőgéptől a vokális fordítóig

HELYSZÍNI


Ha Kempelen Farkas jelen lehetett volna az MTA nyelvtechnológiai konferenciáján, talán sokkolta volna, beszélőgépe óta mekkorát változott a világ. Saját hangunkon fordító programok, intelligens keresők, elektronikus szótárak – néhány technikai újdonság, melyek már részei az életnek. Híradás a konferenciáról – egyelőre írásban, magyar nyelven.

 

 

 

 

 

A beszélőgéptől

a vokális fordítóig

 

Konferenciát rendezett a Magyar Tudományos Akadémia Nyelvtudományi Intézete: "A magyar nyelv helyzete a digitális korban" című előadássorozat a jövő lehetőségeit firtatta a jelen helyzet fényében. Kívülállóként átböngészve az előadások címeit, azt is mondhatnánk: – ha témába vágóan akarnánk szellemeskedni – mintha „hottentottául” írták volna. Hiszen a köznapi embernek vajmi keveset mond a nyelv- illetve beszédtechnológia fogalma is, nem beszélve a META-NET, a CESAR- vagy a HUCOMTECH projektről, szintaktikai elemzőrendszerekről, beszédbányászatról. Ezek a kifejezések azonban csak első hallásra meghökkentően idegenek, a prezentációkat hallgatva világossá vált, hogy digitalizált korunkban szinte valamennyien használtuk már, vagy folyamatosan használjuk ezeknek a tudományos kutatásoknak az eredményeit.

Váradi Tamás kezében a META-NET kiadványa: A magyar nyelv a digitális korban

Mint a szekciók közötti szünetben megrendezett sajtótájékoztatón Váradi Tamás projektkoordinátor össze is foglalta, a konferencia az Európai Bizottság által létrehozott META-NET elnevezésű hálózat tevékenységéről ad számot. A META-NET egy összeurópai, helyi kormányzatokkal együttműködő vállalkozás, amely a többnyelvűség problémáját hivatott kiküszöbölni a technika, az informatika, a tudományok segítségével az együttműködő európai államok életében. A kezdeményezés négy regionális partnert tömörít, ezek közül a negyedik régió a Magyarországot is magába foglaló Közép-Európai – innen az ötletes elnevezésű és logójú CESAR program: Central and South-East European Resources. A Cesar hat nyelvet és kilenc kutatóközpontot ölel át, melyből az egyik az MTA Számítástechnikai és Automatizálási Kutatóintézete, amelyet legtöbben egyszerűen SZTAKI-ként ismerünk. És már kezdünk is közeledni a tűzhöz, hiszen a SZTAKI neve elsősorban internetes szótára miatt cseng ismerősen, mely jó eséllyel első találatként ugrik fel, ha például angol–magyar szótárt keresünk a neten.

 

Nyelvészeket vagy algoritmusokat?

Nem véletlen, hogy a többnyelvűségből adódó problémák áthidalásának a szótár- és a fordítóprogramok a főszereplői, és ez állt Prószéky Gábor (A PPKE Informatikai Intézetének kutatója, a Morphologic Kft. munkatársa) előadásának középpontjában is. Prószéky az üzleti szemlélet felől közelítette meg a kérdést: megéri-e nyelvészek bevonásával, nagy tudományos alapossággal készülő, papíralapú szótárakat kiadni, szemben a statisztikai módszerekkel (vagyis a szavak, szintagmák gyakorisági előfordulásával) dolgozó, rengeteg adatra és kevés informatikusra épülő internetes szótárakkal, melyek használata ingyenes? Nyilvánvalóan nem, különösen, ha például egy albán–magyar vagy szerb–magyar szótárra gondolunk. Csakhogy Prószéky „megvédte” a nyelvészeket azokkal szemben, akik úgy gondolják, hogy a szótár- és a fordítóprogramok előállítása csupán megfelelő adatmennyiség kérdése, és ezt egy egyszerű példával illusztrálta is. Ha „a postás megharapta a kutyát” mondatot próbálnánk színtisztán statisztikai módszerre épülő gépi úton lefordítani, nem sikerülne, mert egyre csak „a kutya megharapta a postást” eredményt kapnánk, hiszen a helyes fordításhoz tisztázni kell az alany, az állítmány és a tárgy helyzetét is.

Prószéky Gábor az üzleti szempontokat elemezte

De ha már üzletről beszélünk, van-e egyáltalán értelme egy ennyire „kis” nyelv fordítóprogramjaival bajlódni, egyáltalán megoldható-e? Egyrészt minden relatív: anyanyelv-létszámban a több ezer nyelvből a magyar a 73. a rangsorban, tehát nem is olyan „kicsi”, tudhattuk meg Németh Gézától, a Budapesti Műszaki Egyetem Távközlési- és Médiainformatikai Tanszékének oktatójától. Vagyis a multik látnak fantáziát abban, hogy befektessenek magyar fordítóprogramokba, és ezek világszínvonalú fejlesztések, így a MorphoLogic is, melyet egyébként a Google tarolása kényszerített az ingyenessé válás útjára. Csakhogy az ingyenes programok fejlesztése és színvonalon tartása nem képzelhető el állami támogatás nélkül. A külföldi sémák átvételével az a baj, hogy az olyan „egyencipő” lesz, amely nem biztos, hogy jó az egyedi lábra. Mi jellemzi leginkább a mi „saját lábunkat”? Elsősorban, hogy a magyar nem indoeurópai nyelv, bonyolult ragozási rendszere van, és kötetlen szórenddel szerkeszt mondatot. Ez pedig nem kis probléma az angol beszédtechnológiai modellek lemásolásánál, mint azt Kornai András nyelvész-matematikus, az MTA doktora elmondta. A beszédtechnológia gyűjtőfogalma alá tartoznak egyébként a fordítóprogramok, a beszédfelismerő rendszerek, illetve az írásos nyelvi információt élőszóvá alakító technológia. (A ’90-es években kezdtek elterjedni, majd el is tűntek a „beszélő autók”, amelyek figyelmeztették utasukat, hogy kapcsolják be a biztonsági övet – hozta fel példának Kornai András. Lám, az emberek nem szerették, ha az autójuk beszél hozzájuk.)

Kornai András a társadalmi elfogadottság fontosságáról is beszélt

 

Okos keresők, beszélő csodák

Miközben az Apple Spotlight nevű program képes arra, hogy az angol „go” ige kapcsán megtalálja a múlt idejű „went” alakot is, addig ugyanezt a programot magyar nyelven legfeljebb főnévi szinten lehetne alkalmazni. A „beszélő technikai csodák” egy szép példája a Microsoft beszédfordító, amely a tartalmi tolmácsoláson túl a beszélő hangját is adaptálja, vagyis a szöveg vokális tulajdonságait is szépen reprodukálja. (Magyarul: egyszer csak hallhatjuk magunkat angolul beszélni. Ötven év múlva talán már lappul is.) Ebben a fejlesztésben már ott dolgozik az a felismerés, hogy a nyelv által megfogalmazott üzenet nem pusztán szöveg, hanem rengeteg egyéb komponense működik, míg a csatorna másik végén a fogadó észleli és értelmezi, sőt visszacsatolást is ad. Közben a csatornát számos külső „zaj” is befolyásolja: a nyelvtechnológia valójában az előadásokban is bemutatott különféle kommunikációelméleti modellek, folyamatábrák valamely elemének gépi helyettesítése, amely lassan-lassan halad afelé, hogy még e zajtényezőkre is reagáljon.

Németh Géza elmondta, mindez mennyi mindenre jó

Németh Gézától rácsodálkozásra méltó példákat kaphattunk arra, hányféle területen használható – és részben már használják is – a nyelvtechnológiát. Az úgynevezett kognitív robotika a beszélő robotok világa: egy nagyon helyes kis példányával meg is ismerkedtünk a szünetben a bemutatóteremben. „Őket” például nagyobb műtéteken áteső gyerekek mellé alkalmazzák a hatékonyabb felépülés érdekében. Az információs rendszerek – mint a MÁV, BKV, gyógyszervonal.hu stb. – kulcsfontosságú területek, de használható a nyelvtechnológia az afáziás vagy autisztikus betegek kezelésére is. Nemkülönben fontos lehet a tanulásban, a kisebbségi nyelvi közegből jövők motiválására és segítésére a magyar nyelv használatában. A beszédtechnológia legismertebb alkalmazási területe a gyengénlátókat segítő szöveg- és oldalfelismerő szisztémák csoportja, de meg kell még említeni a diktálást és a hangdetektálást is – ez utóbbi az orvostudománynak is segédeszköze.

 

Ügyfélelégedettséget elemző program diszpécserközpontoknak. A hangunk mindent el fog árulni, ne is próbáljunk hamisan lelkesedeni...

 

Merre tovább?

Az előadásokat hallgatva óhatatlanul felmerült a kérdés: „hová tegyük” hétköznapi életünkben ezeket – az úgynevezett Gartner-modell (2012) szerint „emerging technology”, vagyis felfutó technológia kategóriába sorolt – fejlesztéseket? A két nyitóelőadásban – Márta Nagy-Rothengass (EB, Tartalmak, Technológiák és Kommunikációs Hálózatok Főigazgatósága) és Georg Rehm (META-NET) – 2020-ig felvázolt program alapján a nyelvtechnológiai fejlesztéseknek kulcsfontosságú szerepe lesz a nyelvelsajátításban, a közvetítésben, a tudományos információcserében, a publikációk megkönnyítésében, az „egyszerű” emberek számára pedig a webes keresésben és a fordítóprogramok használatában. Igen jellemző azonban a közvélemény részéről az a túlzott várakozás, amelyre Váradi Tamás (CESAR) hívta fel a figyelmet: a fordítóprogramoktól sokszor csodát várunk. Hogy mennyire így van, azt bizonyították a közönség-hozzászólások is, melyek egytől-egyig számon kértek vagy hiányoltak bizonyos színvonalat, képességeket a gépi fordításoktól.

Georg Rehm (középen) hagyományos kommunikációs technológiával összesúg emberi tolmácsával

Így például azt a – bár érdekes – felvetést, hogy szépirodalmi szövegeket, népdalokat mikor leszünk képesek átültetni azonosan magas színvonalon idegen nyelvre, hogy ezáltal is elősegítsük a magyar kultúra megismertetését. Váradi Tamás kiemelte, hogy a fordítóprogramok a megértést hivatottak elősegíteni, a stilisztikai finomságokhoz emberi érzékenység szükségeltetik. A technikától más területeken várjunk eredményeket; így például a konferencián jelentették be, hogy „pillanatokon belül” elindul a helyesiras.hu oldal, mely egy egészen új helyesírás-ellenőrző programot is magában foglal majd.

 

Szöveg és fotók: Laik Eszter

 

További képek az eseményről:

Ő Robot Robi, azaz hivatalosan magyar NAO-robot

Kunsztokat is tud. Itt épp a reggeli torna mozdulatait diktálja hangosan, és be is mutatja

Guggolás!

A mérete pedig igazán nem félelmetes

A tábla szerint "Robot MÁV-pénztáros". De ez a szoftverre vonatkozik.

Nem ördögtől való dolgok

A múlt már hátramaradt

 

Irodalmi Jelen

Irodalmi Jelen

Az Irodalmi Jelen független online művészeti portál és folyóirat. Alapítva 2001-ben.

.