|
| |
| |
Spam hjælper bogskanning |
| Mennesker hjælper maskiner |
| |
Bogskanningssoftware kløjs ofte i fortolkningen af bogstaver på grund af problemer med at læse typografien. Det betyder, at det trækker ud med at få indekseret indskannede bøger i fuld tekst. For de ulæselige ord bliver fotograferet enkeltvis og skal så fortolkes af rigtige mennesker. Det er en proces, der tager lang tid – næsten 10 sekunder pr. ord.
Men nu har CMU research team i Pittsburgh fundet en metode til at få hjælp med at læse de svære ord.
På nettet anvendes en teknik kaldet CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart), som går ud på at brugeren bliver bedt om at fortolke et billede af et ord og skrive svaret i et felt. Denne software bruges ellers til at holde datahøstere (bots) ude fra visse websites, og lade mennesker komme ind – eller til at sikre, at mails ikke er spam, men at de kommer fra et rigtigt tænkende menneske. Det er denne software, som CMU research team, der arbejder for Internet Archive, har fundet på at kombinere med ulæselige indskannede ord. Systemet hedder reCAPTA.
Når reCAPTA kører, bliver brugeren bedt om at skrive to ord, der bliver vist som forvrængede billeder. Det ene ords transskribering er kendt, mens det andet er hentet fra de ulæselige skanninger.
De genbrugte ulæselige ord kaldes reCAPTCHAs, og systemet kører allerede på Facebook, Twitter og StumbleUpon, hvor næsten en million ord om dagen bliver knækket. Desværre er der ingen fare for, at CMU research team løber tør for ord foreløbig. Hvis det nuværende tempo holder, varer det 400 år, før dét sker. |
Spam weapon helps preserve books
http://news.bbc.co.uk/1/hi/technology/7023627.stm
|
Bidrag selv hos reCAPTA
http://recaptcha.net/
|
| KMA |
| |
| Redigeret 22-10-2007 |
|