Kaip automatiniai internetiniai teksto vertėjai veikia iš tikrųjų: algoritmai, klaidos ir kada jais negalima pasitikėti

Mašina, kuri „supranta” kalbą – ar tikrai?

Kiekvieną kartą, kai įkeli tekstą į „Google Translate” ar „DeepL” ir spaudžiai mygtuką, kažkas nutinka. Per kelias sekundes ekrane atsiranda kitos kalbos žodžiai, sakiniai, pastraipos. Viskas atrodo taip paprasta, beveik magiška – tarsi kažkas kambaryje sėdintis vertėjas akimirksniu perskaitė, suprato ir atsakė. Tačiau tai, kas vyksta po tuo mygtuku, yra toli gražu ne supratimas. Tai – statistika, tikimybės ir milžiniški duomenų masyvai, kurie kartu sukuria labai įtikinamą supratimo iliuziją.

Automatinis vertimas – viena iš tų technologijų, kurią žmonės naudoja kasdien, beveik negalvodami apie jos veikimo principus. O tai yra problema. Ne todėl, kad technologija bloga – ji iš tiesų nuostabi ir per pastaruosius dešimtmečius padarė milžinišką pažangą. Problema ta, kad mes jai suteikiame pasitikėjimą, kurio ji dar neužsitarnavo. Arba, tiksliau, pasitikėjimą, kuris turėtų turėti aiškias ribas.

Nuo žodynų iki neuroninių tinklų: trumpa kelio istorija

Automatinio vertimo idėja nėra nauja. Pirmieji rimti bandymai siekia XX amžiaus vidurį – šaltojo karo laikus, kai amerikiečiai svajojo apie mašinas, galinčias akimirksniu versti rusų mokslinius tekstus. 1954 metais IBM ir Džordžtauno universiteto bendras eksperimentas pademonstruojo sistemą, kuri išvertė apie šešiasdešimt rusų kalbos sakinių į anglų. Entuziazmas buvo milžiniškas, prognozės – drąsios. Tikėtasi, kad per penkerius metus mašininis vertimas bus išspręsta problema.

Praėjo ne penkeri, o daugiau nei šešiasdešimt metų, kol technologija iš tiesų tapo naudinga plačiajai visuomenei. Tarp šių taškų – ilgas, vingiuotas kelias per kelias skirtingas paradigmas.

Pirmoji era – žodžių lygio vertimas. Paprasčiausia idėja: kiekvienam žodžiui viena kalboje atitinka žodis kitoje. Žodynas. Šis metodas žlugo greitai ir skaudžiai, nes kalba nėra žodynų rinkinys. „Širdis” lietuviškai gali reikšti organą, jausmą, drąsą arba centrinę dalį – ir kiekvienu atveju vertimas į anglų kalbą bus skirtingas.

Antroji era – taisyklėmis grįstas vertimas. Lingvistai rankomis kūrė gramatines taisykles, išimtis, struktūras. Sistemos tapo sudėtingesnės, bet ir trapesnės – kiekviena nauja išimtis reikalavo naujos taisyklės, o kalbos pilnos išimčių.

Trečioji era – statistinis vertimas. Čia jau kalbame apie tikimybes. Sistema analizuoja milijonus jau išverstų tekstų ir mokosi: jei angliškai parašyta „in the morning”, tai prancūziškai dažniausiai būna „le matin”. Ne todėl, kad sistema supranta ryto sąvoką – tiesiog statistiškai taip dažniausiai atsitinka. Šis metodas buvo didelis žingsnis į priekį, bet vis tiek turėjo akivaizdžių ribų.

Ketvirtoji ir dabartinė era – neuroniniai tinklai ir transformeriai. Tai tas modelis, kuriuo veikia šiuolaikiniai vertėjai. Ir čia viskas tampa tikrai įdomu.

Kaip iš tikrųjų veikia šiuolaikinis neuroninis vertėjas

Kai šiuolaikinis automatinis vertėjas gauna sakinį, jis jo neskaito taip, kaip skaito žmogus. Jis paverčia kiekvieną žodį (arba žodžio dalį) skaičių vektoriumi – daugiamate erdve, kurioje panašios reikšmės žodžiai atsiduria arti vienas kito. „Šuo” ir „katė” bus arčiau vienas kito nei „šuo” ir „stalas”. „Karalius” ir „karalienė” bus panašioje pozicijoje, kaip „vyras” ir „moteris”.

Tada atsiranda mechanizmas, vadinamas attention – dėmesio mechanizmas. Sistema mokosi, kurie sakinio žodžiai yra svarbūs vienas kitam. Verčiant sakinį „Mergaitė, kuri vakar atėjo, buvo labai linksma”, sistema turi suprasti, kad „buvo linksma” siejasi su „mergaitė”, o ne su „vakar”. Žmogui tai akivaizdu. Mašinai – tai buvo vienas iš sunkiausių uždavinių, kurį transformerių architektūra pagaliau išsprendė pakankamai gerai.

Visa tai vyksta dviem etapais: kodavimas (encoder) ir dekodavimas (decoder). Encoder paverčia įvesties tekstą turtingu matematiniu atvaizdu – tarsi sukuria gilų kontekstinį supratimą. Decoder, remdamasis šiuo atvaizdu, generuoja vertimą žodis po žodžio, kiekvieną kartą klausdamas: „Koks žodis čia labiausiai tikėtinas, atsižvelgiant į viską, ką jau parašiau?”

Svarbu suprasti: sistema niekada nesirenka „teisingo” žodžio. Ji visada renkasi labiausiai tikėtiną žodį. Tai subtilus, bet esminis skirtumas. Tikimybė ir tiesa nėra tas pats dalykas.

Kur ir kodėl mašinos klysta

Automatiniai vertėjai daro klaidas. Tai žinome visi – matėme juokingų vertimų, nesuprantamų sakinių, keistų frazių. Bet klaidos nėra atsitiktinės. Jos turi struktūrą, logiką, ir supratus šią logiką galima daug geriau numatyti, kada vertėju galima pasitikėti, o kada – ne.

Konteksto praradimas ilguose tekstuose. Neuroniniai vertėjai puikiai dirba su sakiniais ir trumpomis pastraipomis. Bet kai tekstas ilgesnis, jie pradeda „pamiršti” ankstesnį kontekstą. Personažas, kuris pirmame skyriuje buvo „jis”, trečiame gali tapti „ji” – ne todėl, kad sistema suklydo dėl gramatikos, o todėl, kad ji nebeprisimena, kas buvo nustatyta anksčiau. Tai vadinama konteksto langu – ribotu kiekiu informacijos, kurią sistema gali vienu metu „matyti”.

Idiomų ir frazeologizmų problema. „Kišti nosį į svetimus reikalus” – tiesioginis šios frazės vertimas į anglų kalbą duos kažką apie nosį ir svetimus reikalus, bet ne „to poke one’s nose into other people’s business”. Geriausi šiuolaikiniai vertėjai jau žino daugybę idiomų – bet tik tas, kurios dažnai pasitaikė mokymo duomenyse. Retos, regioninės, šnekamosios idiomų formos vis dar sukelia problemų.

Kultūriniai niuansai ir implikacijos. Japonų kalboje yra kelios skirtingos formos, kuriomis kreipiamasi į žmones – priklausomai nuo socialinio statuso, artimumo, situacijos. Anglų kalba šito neturi. Kai sistema verčia iš japonų į anglų, ji praranda šią informaciją. Ir atvirkščiai – kai verčia iš anglų į japonų, ji turi spėti, kokia forma naudoti. Dažnai spėja neteisingai.

Daugiaprasmiai žodžiai. Lietuviškas žodis „šviesa” gali reikšti fizinį reiškinį, metaforišką nušvitimą, šviesą kaip spalvą arba šviesą kaip lengvumą. Sistema renkasi labiausiai tikėtiną reikšmę – ir dažnai klysta, kai kontekstas yra neįprastas arba poetinis.

Negyvos kalbos ir retos kalbų poros. Jei verčiate iš lietuvių į suahilių, sistema greičiausiai pirmiau išvers į anglų, o tada iš anglų į suahilių. Tai vadinama pivot vertimu. Kiekvienas žingsnis prideda galimų klaidų, o galutinis rezultatas gali būti toli nuo originalo.

Specialioji kalba ir terminija: minų laukas

Viena iš sričių, kurioje automatiniai vertėjai ypač dažnai suklysta ir kur klaidos gali turėti rimtų pasekmių – tai specializuota terminija. Medicinos, teisės, finansų, inžinerijos tekstai naudoja žodžius, kurie kasdienėje kalboje reiškia viena, o profesiniame kontekste – visai kita.

Paimkime medicinos pavyzdį. Angliškas žodis „depression” gali reikšti depresiją kaip psichikos sutrikimą, bet taip pat – įdubimą, sumažėjimą, ekonominę krizę. Medicinos tekste apie širdies darbą „depression” gali reikšti tam tikrą EKG pokyčio tipą. Sistema, neturinti pakankamai medicinos tekstų mokymo duomenyse, gali pasirinkti neteisingą reikšmę – ir niekas iš pirmo žvilgsnio nepastebės klaidos, nes sakinys atrodys gramatiškai teisingas.

Teisės tekstai yra dar sudėtingesni. Teisinė kalba yra itin tiksli, o ta tikslumas yra sąmoninga – kiekvienas žodis pasirinktas dėl konkrečios priežasties. „Shall” ir „may” anglų teisiniuose tekstuose reiškia skirtingus įpareigojimo lygius. Jei sistema šiuos žodžius sumaišo, sutarties reikšmė gali pasikeisti iš esmės.

Praktinė rekomendacija čia yra paprasta: niekada nenaudokite automatinio vertimo kaip galutinio produkto juridiniuose, medicinos ar finansiniuose dokumentuose. Automatinis vertimas gali būti naudingas kaip pirmas juodraštis, kaip orientacinis supratimas – bet ne kaip galutinis sprendimas. Šiose srityse klaida gali kainuoti sveikatą, pinigus arba laisvę.

Kada automatinis vertimas veikia gerai – ir kaip padėti jam veikti geriau

Visa tai, kas pasakyta, neturėtų sukelti įspūdžio, kad automatiniai vertėjai yra beverčiai. Jie yra nuostabiai naudingi – reikia tik žinoti, kada ir kaip juos naudoti.

Automatinis vertimas veikia geriausiai, kai:

Tekstas yra trumpas ir aiškus, be sudėtingų sintaksinių konstrukcijų
Kalbų pora yra populiari (anglų–prancūzų, anglų–vokiečių, anglų–ispanų)
Tekstas yra faktinis, o ne poetinis ar metaforinis
Jums reikia greito supratimo, o ne tikslaus vertimo
Tekstas yra iš srities, kurioje yra daug mokymo duomenų (pvz., technologijų, verslo)

Bet yra ir dalykų, kuriuos galite padaryti, kad automatinis vertimas duotų geresnius rezultatus. Pirmiausia – supaprastinkite įvestį. Ilgi, sudėtingi sakiniai su daug šalutinių sakinių verčiami blogiau nei trumpi, aiškūs. Jei galite, prieš versdami pertvarkykite tekstą – padalinkite ilgus sakinius, pašalinkite nereikalingus įterptinius.

Antra – venkite idiomų ir metaforų, jei jums rūpi tikslumas. Jei rašote tekstą, kurį vėliau ketinate automatiškai versti, rašykite aiškiai ir tiesiai. Tai vadinama controlled language principu – kai kurios didelės korporacijos netgi turi oficialias taisykles, kaip rašyti dokumentus, skirtus automatiniam vertimui.

Trečia – patikrinkite vertimą. Net ir greitam supratimui skirtas vertimas turėtų būti peržvelgtas. Ieškokite vietų, kur sakinys atrodo keistas arba nelogiškas – tai dažniausiai yra klaidos ženklas.

Ketvirta – naudokite skirtingus įrankius ir palyginkite. „DeepL” ir „Google Translate” naudoja skirtingus modelius ir daro skirtingas klaidas. Jei abu vertimai sutampa – tikimybė, kad vertimas teisingas, yra didesnė. Jei skiriasi – tai signalas atidžiau pažiūrėti.

Lietuvių kalba automatinio vertimo pasaulyje: mažosios kalbos dilema

Lietuvių kalbos vertėjai susiduria su papildoma problema, apie kurią retai kalbama. Automatinio vertimo kokybė tiesiogiai priklauso nuo to, kiek mokymo duomenų sistema turėjo. O mokymo duomenys – tai išversti tekstai, knygos, straipsniai, tinklalapiai. Anglų kalba turi šimtus milijardų tokių tekstų. Lietuvių – nepalyginamai mažiau.

Tai reiškia, kad vertimas iš lietuvių kalbos ir į ją yra sistemiškai prastesnis nei vertimas tarp didžiųjų Europos kalbų. Sistema tiesiog turėjo mažiau pavyzdžių, iš kurių mokytis. Ir tai nėra technologinė problema, kurią galima išspręsti geresniais algoritmais – tai duomenų problema, kurią galima spręsti tik sukuriant daugiau kokybiškų dvikalbių tekstų.

Yra ir kita dimensija. Lietuvių kalba yra morfologiškai turtinga – žodžiai kinta pagal linksnius, laikus, asmenis, giminę. Vienas žodis gali turėti daugybę formų. Tai reiškia, kad kiekviena forma yra atskiras mokymo duomenų vienetas, ir jei kuri nors forma pasitaikė retai, sistema ją verčia blogiau. Anglų kalba, kuri yra morfologiškai gana skurdi, šios problemos neturi.

Praktiškai tai reiškia: jei verčiate iš lietuvių į anglų arba iš anglų į lietuvių, tikėkitės daugiau klaidų nei verčiant tarp anglų ir prancūzų. Ypač atidžiai tikrinkite gramatines formas, linksnių vartojimą, veiksmažodžių laikus. Automatinis vertėjas dažnai teisingai supranta reikšmę, bet suklysta su forma – ir tai gali padaryti tekstą nenatūraliu arba net nesuprantamu.

Ten, kur mašina negali eiti: vertimo ribos ir žmogaus vieta

Yra tekstų, kurie iš principo negali būti gerai išversti automatiškai – ne dėl technologijos trūkumų, o dėl pačios vertimo prigimties. Poezija yra akivaizdžiausias pavyzdys. Eilėraštis egzistuoja ne tik kaip reikšmė, bet kaip garsas, ritmas, asociacijos, kultūrinė atmintis. Išversti eilėraštį reiškia sukurti naują eilėraštį, kuris sukeltų panašų efektą kitoje kalboje. Tai kūrybinis aktas, reikalaujantis ne tik kalbų žinojimo, bet ir poetinio jautrumo.

Humoras – dar vienas minų laukas. Anekdotas, kuris juokina lietuviškai, dažnai remiasi kalbos žaismu, kultūrinėmis nuorodomis arba socialiniu kontekstu, kuris tiesiog neegzistuoja kitoje kalboje. Automatinis vertėjas gali išversti žodžius, bet ne juoką.

Reklamos tekstai, politinės kalbos, diplomatiniai dokumentai – visos šios kategorijos reikalauja ne tik kalbinių, bet ir kultūrinių, politinių, psichologinių žinių. Žodis, kuris vienoje kultūroje skamba neutraliai, kitoje gali būti įžeidžiantis arba juokingas. Mašina šito nežino, nes ji niekada negyveno kultūroje – ji tik matė tekstus apie ją.

Ir čia slypi esminis dalykas: automatinis vertimas yra puikus įrankis informacijos perdavimui. Bet vertimas – tai ne tik informacijos perdavimas. Tai ir emocijų perdavimas, ir kultūros perdavimas, ir autoriaus balso perdavimas. Šioje plotmėje mašina vis dar yra tik pagalbininkas, o ne pagrindinis veikėjas.

Praktinė išvada: naudokite automatinį vertimą drąsiai, kai jums reikia suprasti, kas parašyta. Naudokite jį kaip darbo įrankį, kai reikia greito juodraščio. Bet kai tekstas turi reikšmę – kai jis atstovauja jūsų verslui, kai jis perteikia jūsų mintis, kai jis yra skirtas žmonėms, kuriems rūpi ne tik informacija, bet ir kaip ji perteikiama – tada mašinos vertimas yra tik pradžia, o ne pabaiga. Tada reikia žmogaus, kuris ne tik žino kalbą, bet ir supranta, ką reiškia kalbėti.

Technologija tobulėja. Kiekvienais metais automatiniai vertėjai tampa geresni, tiksliau, natūraliau. Galbūt ateis diena, kai riba tarp mašinos ir žmogaus vertimo taps nematoma. Bet ta diena dar neatėjo. O tol, kol ji neatėjo, svarbiausia yra ne aklai pasitikėti ar aklai nepasitikėti – svarbu suprasti, kaip ši technologija veikia, kur ji stipri ir kur silpna. Tik tada galima priimti protingus sprendimus apie tai, kada spausti tą mygtuką – ir kada jo nespausti.