Arnar segir að hugbúnaðurinn búi til „miðmál“ úr textanum sem á að þýða. „Með þetta abstrakt-módel má síðan þýða setninguna á hvaða mál sem er, með reglum sem taka mið af málfræði og öðrum sérkennum tungumálsins.“
Arnar segir að hugbúnaðurinn búi til „miðmál“ úr textanum sem á að þýða. „Með þetta abstrakt-módel má síðan þýða setninguna á hvaða mál sem er, með reglum sem taka mið af málfræði og öðrum sérkennum tungumálsins.“ — Morgunblaðið/Árni Sæberg
Ásgeir Ingvarsson ai@mbl.is Tæknin sem Arkvit hefur þróað skilur málið, frekar en að þýða orð fyrir orð á milli tungumála. Útkoman ætti að vera allt að 100% rétt þýðing. Stofnandinn segir hyggilegast að selja lausnina til netrisa vestur í Kísildal þegar varan er fullsmíðuð.

Þeir sem notað hafa þýðingarvélar á netinu vita að tækninni eru takmörk sett. Arnar Freyr Tafjord hjá Arkvit segir algengt að 30-60% textans séu rétt þýdd á milli tungumála, en lausnin sem Arkvit er að þróa ætti að geta þýtt texta með 90-100% nákvæmni.

Arkvit var valið í hóp tíu bestu verkefnanna í keppninni um Gulleggið og vinnur Arnar verkefnið í samstarfi við Þór Sigurðsson.

Hófst með geðlæknisprófi

Arnar byrjaði ungur að forrita og aðeins sautján ára gamall var hann farinn að taka að sér ýmis forritunarverkefni gegn greiðslu. „Það er þá sem geðlæknir hefur samband við mig og spyr hvort megi smíða hugbúnað sem gæti framkvæmt sálræn greiningarpróf þar sem spurningarnar eru samdar jafnóðum. Spyrillinn þarf að umorða spurningarnar í hvert skipti svo að sá sem þreytir prófið geti ekki undirbúið hjá sér svörin og svindlað á prófinu,“ útskýrir Arnar. „Þannig hugbúnaður myndi þurfa að skilja málið og geta orðað spurningar á ótal ólíka vegu en samt þannig að þær skiljist. Það var þessi áskorun sem beindi mér á þá braut að fara að kynna mér tungumálalausnir.“

Færir yfir á millimál

Algrímið sem Arnar hefur smíðað ætti að geta leyst verkefni geðlæknisins en er þó fyrst og fremst smíðað fyrir þýðingarvinnu. Lýsir Arnar lausninni þannig að forritið tekur orð og setningar og býr til úr þeim eins konar miðmál. „Þetta er abstrakt-módel af efni setningarinnar sem skilgreinir merkingu, stöðu og önnur einkenni orðanna. Með þetta abstrakt-módel má síðan þýða setninguna á hvaða mál sem er, með reglum sem taka mið af málfræði og öðrum sérkennum tungumálsins.“

Það er þetta miðmál sem gerir gæfumuninn. „Sú tækni sem er í boði í dag notast við beinar þýðingar. Vinsæl forrit eins og Google Translate vita að það eru tengsl á milli ákveðinna orða og jafnvel á milli ákveðinna setninga, en forritið veit ekki hvort textinn er réttur. Það sem gerir þýðingar Google Translate betri yfir tímann er að notendur geta leiðrétt þýðingarnar og þannig fækkað villunum smám saman. Þá notar Google einnig tiltekin lærdómsgögn, eins og samninga Evrópusambandsins, sem þýða þarf á mjög vandaðan hátt á öll helstu tungumál ESB. Google Translate getur lært af þessum gögnum með því að stilla orði í einni þýðingunni upp á móti orði í annarri þýðingu.“

Þetta skýrir meðal annars hvers vegna þýðingarnar eru betri þegar þýtt er á milli mjög útbreiddra tungumála eins og ensku og spænsku og hvers vegna margur „Nígeríusvindlarinn“ hefur ekki haft erindi sem erfiði þegar hann hefur sent illa þýddan blekkingarpóst á íslensk netföng.

Það sem meira er, að algrím Arkvit getur tileinkað sér ákveðna ritstíla og gert þýðingarnar „mannlegri“ eftir því hvort þær hafa t.d. að geyma slangur eða bókmenntamál. „Það væri t.d. hægt að bjóða upp á ritstíl í anda Halldórs Laxness, og bæði þýða á og úr slíkum texta þegar búið er að kenna forritinu að skilja „stafsetningarvillurnar“ í stíl nóbelsskáldsins. Að sama skapi gæti algrímið nýst til að skima eftir stafsetningar- og málfarsvillum í texta og hjálpa þeim sem fást t.d. við skýrslu- og greinaskrif að bæta hjá sér stílinn.“

Ætti best heima hjá risa

En hvaðan koma tekjurnar? Hvað græðir t.d. Google á því að bjóða netverjum upp á ókeypis þýðingarvél? Arnar segir notkunarmöguleikana óendanlega og þýðingarvélar geti komið við sögu alls staðar þar sem tungumálið er notað. En til að nýta möguleika tækninnar til fullnustu reiknar Arnar með að skynsamlegast væri að selja hugbúnað Arkvits til stærra fyrirtækis, helst til einhvers netrisans vestur í Kísildal, þar sem innleiða mætti tæknina í ótal vörur. „Þetta er eins og dísilvél; hún getur knúið áfram hvort heldur bíl eða bát. Þetta er uppfinning sem má nota alls staðar.“

Hyggur Arnar að þegar tekist hefur að sýna fram á forskot lausnar Arkvits á aðrar lausnir verði ekki erfitt að freista kaupenda. „Jafnvel þó að ekki takist að þýða með 90-100% árangri heldur aðeins bæta lítillega árangur annarra þýðingarvéla þá væri tæknin samt mjög verðmæt,“ segir Arnar og bætir við að frumgerð forritsins ætti að vera fullgerð í byrjun sumars, mögulega með aðkomu fjárfesta. Þá verður tekin ákvörðun um hvort kaupenda verður leitað strax, ellegar leitað fjárfestingar til að þróa hugbúnaðinn enn lengra.