Gervigreind Mikið magn af gögnum þarf til þess að þróa gervigreindarforrit á borð við Open AI. Svo mikið magn að allur texti á netinu dugir ekki til.
Gervigreind Mikið magn af gögnum þarf til þess að þróa gervigreindarforrit á borð við Open AI. Svo mikið magn að allur texti á netinu dugir ekki til. — AFP/Pau Barrena
[ Smellið til að sjá stærri mynd ]
Baksvið Sonja Sif Þórólfsdóttir sonja@mbl.is Síðla árs 2021 voru starfsmenn Open AI búnir að tæma öll gagnasöfn enskrar tungu á netinu við hönnun á gervigreindarforritinu Chat GPT þegar þeir ákváðu meðvitað að brjóta reglur um höfundarrétt til að nálgast meiri texta. Þetta sýnir rannsókn blaðamanna bandaríska dagblaðsins New York Times.

Baksvið

Sonja Sif Þórólfsdóttir

sonja@mbl.is

Síðla árs 2021 voru starfsmenn Open AI búnir að tæma öll gagnasöfn enskrar tungu á netinu við hönnun á gervigreindarforritinu Chat GPT þegar þeir ákváðu meðvitað að brjóta reglur um höfundarrétt til að nálgast meiri texta. Þetta sýnir rannsókn blaðamanna bandaríska dagblaðsins New York Times.

Rannsókn blaðamannanna Cades Metz, Ceciliu Kang, Sheeru Frenkel, Stuarts A. Thompsons og Nicos Grants sýnir að þegar gagnasöfnin á netinu voru tæmd ákváðu starfsmenn Open AI að smíða annað tól sem kallast Whisper og afritar hljóð í myndskeiðum. Þessu forriti beittu þeir svo á myndbandasafn YouTube og gátu þannig haldið áfram að mata gervigreindarforritið sem þeir voru með í smíðum.

YouTube er í eigu tæknirisans Google og samkvæmt skilmálum miðilsins brýtur afritun myndskeiðanna í bága við höfundarréttalög.

Afrituðu milljón klukkustunda

Aðrar lausnir komu upp á fundum að sögn átta starfsmanna Open AI, sem ekki máttu tjá sig undir nafni við New York Times. Rætt var um að rita upp hlaðvarpsþætti og hljóðbækur og jafnvel kaupa minni sprotafyrirtæki sem höfðu skrapað stór gagnasöfn á netinu.

Teymi Open AI endaði á að afrita meira en milljón klukkustundir af efni á YouTube. Í þessu teymi er meðal annars Greg Brockman forstjóri Open AI. Afritaði textinn fór inn í GPT-4 og er grunnurinn að Chat GPT.

Þegar þetta kom í ljós sagði Matt Bryant talsmaður Google að fyrirtækið liti málið alvarlegum augum og hygðist bregðast við.

Einhverjir starfsmenn innan Google voru meðvitaðir um að Open AI hefði ákveðið að fara þessa leið, og ræddi NYT við tvo undir nafnleynd. Sögðust þeir ekki hafa viljað vekja athygli á málinu innan Google, þótt skýrt væri að Open AI bryti gegn höfundarréttarlögum með þessari aðferð. Ástæðan væri sú að innan Google væri umræða um hvernig mætti nálgast nógu mikið magn af texta til að þjálfa þeirra gervigreindarforrit.

Álíka samtöl áttu sér stað innan Meta, sem á samfélagsmiðlana Facebook, Instagram og WhatsApp. Meta hefur fjárfest í þróun gervigreindar svo árum skiptir, en árið 2022, þegar Open AI gaf út Chat GPT, var ljóst að fyrirtækið hafði dregist aftur úr.

Til að bregðast við því fór Meta að safna texta og í lok síðasta árs vantaði meiri texta. Innan Meta var rætt um hvernig mætti komast hjá þessum vanda, hvort best væri að kaupa útgáfuhús sem á réttinn að stórum textasöfnum. Eftir að lögmenn og sérfræðingar höfðu grennslast fyrir um málið komust þeir að því að þeir bestu, Open AI, notuðu gögn sem væru höfundarréttarvarin. Ákvað því Meta að fylgja fordæminu og nota einnig slík gögn.

Kapphlaup tæknirisanna

Í umfjöllun New York Times segir að kapphlaup tæknirisanna, Open AI, Google og Meta, hafi leitt af sér að fyrirtækin gangi lengra en eðlilegt þykir til að tryggja sér gögn, í þessu tilviki ritaðan texta.

Fyrirtækin eiga nú yfir höfði sér fjölda lögsókna vegna brota á höfundarréttarlögum og hefur New York Times meðal annars höfðað mál gegn Open AI vegna ólöglegrar notkunar á fréttum, viðtölum, greinum og pistlum.

Lykillinn að því að smíða gervigreindarforrit sem virkar, hafa tæknirisarnir komist að, er feiknalegt magn af rituðum texta. Því forritin læra af textanum.

Lengi vel þótti netið, með vefsíður eins og Wikipediu og Reddit, búa yfir óhemjumiklu magni af texta. Í ljós hefur hins vegar komið að þessi texti er ekki nóg. Fremstu forritin hafa verið fóðruð af texta sem í orðum talið eru um þrjár billjónir (e. trillion). Það er rúmlega tvisvar sinnum meira en orðin sem finna má í bókum Bodleian-bókasafnsins í Oxford-háskóla sem hefur varðveitt ritaðan texta frá 1602.

Verðmætasti textinn er prófarkalesinn texti sem hefur verið útgefinn, eins og bækur og vísindagreinar.

Skrifar ofan í sjálfa sig

Og tæknirisarnir eru enn í þessu kapphlaupi, það er sennilega ekki hálfnað. Meira magn af texta þarf til að halda áfram þróun gervigreindarinnar.

Þannig hafa tæknifyrirtækin brugðið á það ráð, í tilraunaskyni, að láta gervigreindina skrifa texta ofan í sig sjálfa, gervigögn (e. synthetic data).

Það býður hættunni heim að mati sérfræðinga sem New York Times talaði við, því þótt gervigreindarforrit hafi lært í gegnum texta sem skrifaður er af raunverulegu fólki, þá lærir gervigreindin líka hlutdrægni sem kann að finnast í einhverjum textum. Þá á gervigreindin það líka til að einfaldlega búa til hluti sem ekki er fótur fyrir í raunveruleikanum.

Þegar gervigreindarforrit er matað á gervigögnum frá öðru gervigreindarforriti getur það því aukið á vandann. Stærstu tæknirisarnir eru þó ekki farnir að notast við gervigögn af fullri alvöru í dag, en munu mögulega gera það í framtíðinni.