Korpusz

Korpusz

Kapott egy üzenetet az ELTE-BGGYK egyik szakmai angol nyelvet oktatója.“Kérem szíveskedjék a részemre küldeni lektorált angol forrásnyelvű magyar nyelvre lefordított gyógypedagógiai szakmai szöveget tanulás céljából. Anyag témája lehetőleg vegyesen legyen mindenféle szakterületről. Küldött anyag annál jobb, ha minél több, sok millió db nagyságrendű mondatpár a hatékony módszer tanulás céljából.”

Válasz még nem érkezett, de ha nem fog küldeni semmit, akkor elég nagy baj van a hiteles szöveg forrása hiánya miatt. Az informatikai rész rendelkezésre áll több formában, de a különféle gépi fordítás támogatáshoz egyszerre kell a jó nyelvészeti forrás és az informatikai alkalmazás. 

ELTE-BGGYK oldalán ott virít, hogy kiket várnak … “Olyan leendő hallgatók jelentkezését várjuk, akik érdeklődnek a sérült, fogyatékos, akadályozott emberek és a számukra biztosítandó segítségnyújtás lehetőségei iránt ….”

A jövőben öt legfontosabb készségre: értő olvasás, írás készségszinten, elemi számolás, komputer-kezelés felhasználói szinten és angol nyelv van szükség ahhoz, hogy boldogulni lehessen. Ha tanulási akadályozottság miatt bármelyik készség nem kellően hatékony vagy vannak egyes részekben leküzdhetetlen akadályok, akkor nem felmentéssel kell válaszolni, hanem megfelelő technológiai segítség nyújtással. A felmentésekkel történő erőltetett integráció eredménye a magas %-ban megjelenő különféle “diszes” tanulók tömege (kb. 30%), akik kisebb-nagyobb mértékben funkcionális analfabéták lesznek, különösen ha a felmentés matematikára vagy irodalomra vonatkozik.

Korpusz - nyelvek szavak száma a mondatban

Korpusz – nyelvek szavak száma a mondatban

Az elektronika, informatika, gépészet szakmai angol – magyar korpusz rendelkezésre áll, ehhez van rendelve több féle informatikai megoldás amivel a szakmai nyelvet kifejezetten jól képes lefordítani a gép, alig kell utána kézzel módosítani a szöveget.

Minden nyelvi korpuszt úgy kell feldolgozni, hogy az informatikai alkalmazás képes legyen kezelni legalább fél automata módon történő fordítás támogatáshoz. Nagyon egyszerű kétnyelvű prediktív szövegbevitelt kezelő Javascript alkalmazást sikerült összeállítani, ami lazán kezel 15-20 ezer rekordot egy HTML táblázattal az átlagos gépelési sebesség mellett. Használható szavakhoz (külön szófaji megjelöléssel) és komplett kifejezésekhez, fordítómemória modul készítéshez, illetve mondat szegmentáláshoz.

Korpusz - javascript

Korpusz – javascript

Amit eddig sikerült beszerezni a http://szotar.barczi.elte.hu/szotar.html oldalról, az nagyon kevés – kb. 3 ezer angol szó és kifejezés -, ami gyakorlatilag használhatatlan, még a www.webforditas.hu magas nyelvi elemzést alkalmazó program használatával is aminek a létrehozásában a 2004 – 2006 között részt vettem. A webforditas.hu program a szóról szóra (szófaj címkézéssel) fordít, majd a végén megfelelő nyelvtani sorrendbe pakolja a szavakat és aránylag elfogadható eredményt ad.

Korpusz - háromszög

Korpusz – háromszög

A webforditas.hu mögött alkalmazott algoritmus minden mondatot külön-külön kezel, nem nézi a szövegkörnyezetet, nagyon érzékeny a beadott adatbázis minőségére. Ezzel szembe a statisztikai alapú fordító – ilyen volt korábban a Google fordítója – a nagy mondat párokból következtetett az eredményre és nézte a szövegkörnyezetet is, egyik fordításból próbált következtetni a másik fordításra több-kevesebb sikerrel. Statisztikai fordítót sokkal könnyebb és olcsóbb informatikailag összehozni, mint a nyelvi elemzéssel működő algoritmust. A kettő ötvözete lett volna a jó megoldás, de ilyen soha nem készült angol – magyar nyelvpárhoz, pláne szakmai anyagokhoz amit megadott korpusszal lehetett okosítani egyéni felhasználó igények szerint, ezért a mondat szegmentálós félig kézi, félig gépi megoldások adják a mai napig a legjobb eredményeket a neurális hálózatot alkalmazó legújabb gépi fordítók mellett.

Korpusz - mondat szegmentálások szakmai szövegben

Korpusz – mondat szegmentálások szakmai szövegben


Üzenetküldés: ITT

Címke , , , , , , , , .Könyvjelzőkhöz Közvetlen link.

A hozzászólások jelenleg ezen a részen nincs engedélyezve.