Tartu Ülikooli arvutiteaduse instituudi keeletehnoloogia rühmas valmis bakalaureusetöö “Soome-ugri väikeste keelte neuromasintõlke edendamine” raames vabalt kasutatav mitmekeelne masintõlkesüsteem väiksematele soome-ugri keeltele nagu eesti, soome, võru, põhjasaami ja lõunasaami. Töö autor on Maali Tars ja teda juhendas Andre Tättar.
Lõputöö põhjal avaldati teaduslik artikkel äsja toimunud NoDaLiDa keeletehnoloogia konverentsil pealkirja all “Extremely low-resource machine translation for closely related languages”, mille kaasautoriks oli ka keeletehnoloogia rühma juht professor Mark Fišel.
Töö autori ja TÜ arvutiteaduse instituudi teadusliku programmeerija Maali Tarsi sõnul oli tegemist masinõppe seisukohalt keerulise ülesandega, kuna väiksemate keelte puhul on olemas väga vähe andmeid, mille pealt tehisintellekt saaks õppida. „Niisiis mudeli arendamisega kaasnes erinevatest allikatest tekstide korje, millel oli olemas tõlge vähemalt kahes keeles, mis olid projekti osa. Andmete kogumisele olid abiks näiteks Kielipankki, Võru Instituut ning saami keelte paralleeltekstide allikaid jagasid meiega Tromsø ülikooli inimesed.“ ütles Tars.
Tema sõnade kohaselt kasutati tõlkesüsteemi arendamisel erinevaid võtteid, millega on võimalik aidata teha tasa andmete vähesusega kaasnevaid puudusi. “Näiteks selle asemel, et treenida mudelit ainult kahe keele peal, treeniti üks mitmekeelne mudel, kuhu pandi kokku kõik projektis olevad keeled. Kuna valitud keeled on omavahel suguluses, kuuludes soome-ugri keelkonda, siis omavad need sarnaseid mustreid. Niimoodi saavad väiksemad keeled (millest on vähem andmeid) suuremate keelte (millest on rohkem andmeid) andmestikust kätte kasulikku teavet. Näiteks eesti-põhjasaami keelepaari tõlkimisel saab olulist abi eesti-soome keelepaari andmetest,” märkis Tars.
Lisaks kasutati otsest andmepuuduse lahendamise meetodit, nimelt sünteetiliste paralleelandmete loomist. “Siin võetakse lauseid igast valitud soome-ugri keelest, millel pole tõlget. Need laused tõlgitakse eelnevalt treenitud mudeliga, mis treeniti ainult enne saadaolevate päris paralleelandmetega. Tulemuseks on uus, masintõlkega toodetud sünteetiline paralleelandmestik, mida saab nüüd omakorda kasutada selleks, et treenida uus mudel. Kuigi sünteetiline parallelandmestik võib sisaldada päris valesid tõlkeid, kuna algne mudel ei olnud veel nii tark, siis on eelnevate uurimuste tulemusena leitud, et isegi sellised andmed võivad aidata mudelil areneda,” selgitas Tars.
“Mitmete eksperimentide ja katsetuste tulemusena valmis lahendus, mis suudab tõlkida teksti 20 eri suunas, viie keele vahel. Parim sobiv mudel treeniti originaal paralleelandmetega ja kahe iteratsiooni järel toodetud sünteetiliste paralleelandmete kooslusega,” põhjendas Tars. Ta lisas, et uurimise käigus leiti, et mitmekeelse mudeli edasi treenimine üksiku keelepaari andmetega toob antud keelepaarile veel parema tõlkekvaliteedi, kuid selle tulemusena võib kannatada teiste keeltepaaride kvaliteet.
Väikestele keeltele tõlkemasinate arendamise tähtsust selgitab Võru Instituudi teadur Sulev Iva: “Omakeelse masintõlke valmimine on iga keele, nii suurema kui väiksema, ka võro, saami ja teiste põliskeelte jaoks, äärmiselt oluline etapp omakeelse keeletehnoloogia arengus. Nagu on palju rõhutatud eesti keele kohta, sõltub sellest juba lähitulevikus otseselt keele säilimine. Täpselt sama käib ka võro ja teiste väiksemate keelte kohta – ka nende säilimine elava keelena sõltub nende omakeelse keeletehnoloogia arenguastmest. Omakeelse tõlkemasina valmimine annab seega võro, saami ja tulevikus loodetavasti teistegi põliskeelte säilimisse ja arengusse väga olulise panuse.”
Tõlkemootor on vabalt kõigile kättesaadav Tartu NLP neurotõlke veebilehel, millega on teadaolevalt ainuke võimalus automaatselt tõlkida teksti eesti/võru keele ja saamikeelte vahel. Detailsema ülevaate tööst annab avaldatud artikkel, mis on kättesaadav siit.
Vaata ka Maali Tarsi ettekannet NoDaLiDa keeletehnoloogia konverentsilt.