Du tolkar gamle bøker for Google

Svein Olav B. Langåker
Publisert
Oppdatert 24.05.2017 15:05

info

Denne artikkelen er eldre enn 1 år gamal. Det betyr at noko av informasjonen kan vere utdatert.

Du irriterer deg kanskje at du må tolka to utydelege og forvrengte ord kvar gong du opprettar ein epost- eller twitterkonto. Dette er fordi Google eller Twitter – eller kven det no er – skal veta at det er eit menneske som fyller ut skjemaet, og ikkje ein datamaskin.

Luis von Ahn er ein av dei som fann opp denne teknologien med namn CAPTCHA.

– Det viste seg at 200 millionar menneske trykkjer inn ein CAPTCHA kvar dag. Først blei eg litt stolt. Men så blei eg litt flau. For kvar gong du trykkjer inn ein CAPTCHA så sløser du vekk 10 sekund av livet ditt. Viss du gongar med 200 millionar, så blir det 500.000 timar kvar dag som folk sløsar vekk på desse irriterande CAPTCHAene, fortel von Ahn i eit foredrag på nettstaden TED.com.

For nokre år sidan var han med på å utvida teknologien slik at du samtidig er med på å digitalisera ein liten bit av uhorvelege mengder bøker.

LES OGSÅ: Over 36 millionar har sett det dei lagar

Den nye CAPTCHAen heiter reCAPTCHA, og inneheld to ord. Det er berre det eine av orda du er med på å omsetja, det andre er kjent frå før. Og slik må det vera, for elles kan ein ikkje veta om du er eit menneske eller ein maskin.

Millionar bøker
Google, Amazon og mange andre scannar store mengder bøker kvar dag for å gjera dei tilgjengeleg på til dømes Google Books eller i den elektroniske bokhandelen sin.

Når dei scannar bøkene bruker dei program som hjelper til med å kjenna igjen teksten. Men det er ikkje alle ord dei kjenner igjen.

– Spesielt for eldre bøker, der blekket har bleikna og papiret har gulna, blir det vanskeleg. For bøker som er trykte for meir enn 50 år sidan, er det umogleg for datamaskinen å kjenna igjen kring 30 prosent av orda, forklarar von Ahn.

LES OGSÅ: Lanserer nynorsk digital-dugnad

Over 350.000 nettstader bruker reCAPTCHA i dag. Kvar dag blir omsett 100 millionar ord.

I løpet av eit år blir det kring 2,5 millionar bøker kvart år, ifølgje von Ahn.

Til saman har Google scanna 15 millionar bøker for Google Books, ifølgje nrk.no

CAPTCHA-kunst
Dei to CAPTCHA-orda som blir vist er heilt tilfeldig valt. Nokre gonger kan det bli ein del merkelege kombinasjonar. Dette har skapt ein eigen trend, kalla CAPTCHA-kunst.

LES OGSÅ: Er du avhengig av Facebook?

– Det har blitt eit verkeleg stort internettfenomen, der titusenvis deltek, fortel Luis von Ahn.