fbpx

Ljudsko vs. mašinsko prevođenje – zašto da upoređujete dokumenta, a ne rečenice

Kako je mašinsko prevođenje sve bolje, prevodi će postati teži za diskriminisanje u smislu kvaliteta, te će se procenjivati na nivou dokumenata.

0

Hoće li prevod mašine ikada nadmašiti prevod čoveka, odnosno, da li će mašinsko prevođenje zameniti prevodioce, pitamo se još od1950. godine. Brzo napredovanje neuralnog mašinskog prevođenja (NMP) u protekle dve godine izazvalo je nove trendove poput prevodilaca kentaura i diskusije, navodeći čak i velike kompanije kao što je Microsoft da objave istraživačke radove sa smelim naslovima, kao što je “Postizanje ljudskog pariteta na automatskim prevodima vesti sa kineskog na engleski jezik”.

Doduše, Microsoftovi autori su ublažili svoje tvrdnje.

Prema njihovom radu, ljudski paritet je postignut ako ne postoji statistički značajna razlika između ocene ljudskog kvaliteta i sistema mašinskog prevođenja i rezultata.

Drugim rečima, ako dvojezični ljudski procenjivač oceni kvalitet ljudskih i mašinskih prevoda kao jednak (razlika u rezultatima je statistički beznačajna), “onda je mašina postigla ljudski paritet.”

Ulazak Läublija, Sennricha i Volka

Grupa istraživača tvrdi da mnogi istraživači i stručnjaci iz industrije gledaju na to pitanje iz pogrešnog ugla.

U radu pod naslovom “Da li je mašinsko prevođenje dostiglo ljudski paritet? Slučaj za procenu na nivou dokumenta”, Samuel Läubli, doktor na Univerzitetu u Edinburgu, dr Rico Sennrich, docent na Školi za informatiku Univerziteta u Edinburgu i dr Martin Volk sa Instituta za računarsku lingvistiku Univerziteta u Cirihu, tvrde da bi se istraživanja trebala usredsrediti na kontekst na nivou dokumenta umesto što upoređuju rezultate na nivou rečenice.

Autori su koristili profesionalne prevodioce za procenu performansi NMP mašine, korišćene od strane Microsofta na kineskom i engleskom kongresu o mašinskom prevodu (WMT) 2017. Pored toga, oni su takođe koristili rangiranje u parovima (uporedno poređenje ljudskog i mašinskog prevođenja), takođe uzimajući u obzir kontekst na nivou dokumenta, pri procenjivanju adekvatnosti prevoda i tečnosti.

Microsoftova tvrdnja o ljudskom paritetu, po njihovoj definiciji, pila je vodu, ali samo zato što su koristili trenutne standarde istraživanja MP, koji su, prema Läublijevom dokumentu, postali nepogodni za efikasno vrednovanje NMP-a.

Metodologija Läublija, Sennricha, i Volka ispravila je nekoliko problema sa procenom koja se koristi u Microsoftovom istraživačkom radu.

“Poznavajući prednosti i slabosti NMP-a, teško da možemo da zamislimo da je Microsoftov sistem zaista dostigao kvalitet profesionalnih ljudskih prevodilaca“, rekao nam je Läubli putem emaila.

On je objasnio da Microsoft u svojim metodologijama prati postojeće istraživačke standarde, gde obično “ocenjivači vide pojedinačne rečenice – jednu po jednu, iz bilo kog test-dokumenta, nasumičnim redom – i ocenjuju njihovu adekvatnost i tečnost na skali od 0 do 100”.

Međutim, u ovom procesu, Läubli je rekao da bi bilo “nemoguće” za procenjivače da otkriju određene greške u prevodu, i stoga nisu bili u stanju da ih pravilno uzmu u obzir.

On je ukazao na neke od glavnih problema u Microsoftovom procesu, između ostalog:

  • Procenjivači su bili dvojezični radnici, ne nužno profesionalni prevodioci.
  • Procenjivači su procenjivali samo adekvatnost, a ne tečnost.
  • Procenjivači “nikada nisu direktno upoređivali ljudski prevod sa mašinom.” Oni su ih posmatrali odvojeno i dodeljivali ocene.

Da bi se pozabavio problemom direktnog poređenja, Läubli je rekao “koristili smo parno rangiranje u našim eksperimentima. Ocenjivači su uvek gledali ljudsko i mašinsko prevođenje određenog izvornog teksta u isto vreme, i izabrali bolje od oba. ”

“Dozvolite mi da vas uverim da zajednica mašinskog prevođenja (MP) još ne misli da je NMP dostigao nivo profesionalnih prevodilaca”, zaključio je on.

Nije krivica Microsofta

Rezultati Läublija, Sennricha, i Volka pokazuju nekoliko interesantnih stvari.

Jedan od glavnih zaključaka je bio da su profesionalni ljudski prevodioci snažno preferirali ljudske prevode u poređenju sa NMP izlazom kada im je dat kontekst čitavog dokumenta, a ne samo pojedinačne rečenice.

Štaviše, isti profesionalni procenjivači preferirali su tečnost ljudskih prevoda.

Kontekst na nivou dokumenta je trenutno prioritet za istraživanje NMP. To je jedan od sledećih velikih problema.

“To nije njihova krivica”, rekao nam je Läubli putem emaila, misleći na Microsoft, “Procedura koju su koristili je standardna praksa u zajednici MP.”

“Microsoft nije kriv za njihovu procenu sistema. Pratila je “najbolju praksu” u zajednici, zasnovanu na ocenjivanju rečenica, a ne celokupnih dokumenata, i tvrdimo da je MP sada dostiglo nivo kvaliteta tamo gde ova “najbolja praksa” treba da se promeni: treba da koristimo potpuna dokumenta da procenimo kvalitet MP”, rekao je.

Zaista, u zaključku njihovog rada, autori su napisali da “ako prihvatimo naše tumačenje da je ljudski prevod zaista kvalitetniji u skupu podataka koje smo testirali, to ukazuje na neuspeh trenutnih najboljih praksi u proceni mašinskog prevođenja”.

U svom e-mailu, Läubli je dodao, međutim, da je Microsoftov tim mogao bolje da se pozabavi naslovom. “Naslov njihovog rada bio je malo hrabar”, rekao je, “Trebalo je da glasi nešto kao: Dvojezični ne-profesionalci daju izolovanim rečenicama koje je proizveo naš sistem i profesionalnim prevodiocima slične ocene.”

Procena: neuralno mašinsko prevođenje mora da se menja

U zaključku svog rada, Läubli, Sennrich i Volk objašnjavaju:

“Kako se poboljšava kvalitet mašinskog prevođenja, prevodi će postati teži za diskriminisanje u smislu kvaliteta, i možda je vreme da se pređe na procenu na nivou dokumenata, što daje ocenjivačima više konteksta za razumevanje izvornog teksta i njegovog prevoda”.

“Tvrdimo da je mašinsko prevođenje sada dostiglo nivo kvaliteta gde ova “najbolja praksa“ mora da se promeni: treba da koristimo potpune dokumente da procenimo kvalitet MP.”

Komentari