Captcha mit gesellschaftlichem Zusatznutzen
Widgets füllen weltweit täglich 277.000 Stunden Arbeit mit Sinn.
Wer jemals vom Kunden einen langen Text mit dem Satz in die Hände bekommen hat “Fürs Firmenportrait könnense ja den Text aus der Broschüre nehmn”, der weiß, daß OCR als Allheilmittel nicht wirklich eine Option ist. Zwar haben sich die Fehlerraten in den letzten Jahren enorm verbessert, aber mancher Scanvorgang liefert so außerordentlich unterirdische Qualität, daß auch spezielle israelische Technik keinen Rat weiß.
Die Carnegie-Mellon-Universität in Pittsburgh, PA, USA, hat vor einiger Zeit ein Verfahren entwickelt, das jenes immer noch notwendige Maß manueller Erkennung nicht länger zu einer stumpfsinnigen Studententätigkeit werden lässt. Man lässt diesen Job einfach die gemeinschaftlich die Weite-Welt-Weisheit erledigen. Und damit es attraktiv wird verbindet man das Nützliche mit dem Guten: man macht daraus einen Captcha-Dienst (Completely Automated Public Turing test to tell Computers and Humans Apart), der sich als Authorisierungssystem zur Verhinderung von Spam einsetzen lässt.
reCAPTCHA liefert auf der eigenen Webseite (zum Beispiel hier im Blog) ein Widget, das grafische Scans von Wörtern ausliefert, die von Menschen gelesen und identifiziert werden sollen. Die gefundenen Begriffe tippt der User dann ein und schickt sie zurück an den Uni-Server. Wenn das Ergebnis stimmt, dann wird eine Freigabe signalisiert. Solche Freigaben kann man dann zur Zulassung von Blogkommentaren verwenden.
Im Mai 2007 schätzten die Wissenschaftler um Professor Manuel Blum, dass täglich rund 60 Millionen CAPTCHAs entschlüsselt werden. Heute schätzen sie die Anzahl bereits auf 100 Millionen täglich. Rechnet man durchschnittlich 10 Sekunden für die Handhabung, dann würden mehr als 277.000 Stunden Arbeit am Tag “verschwendet”. Weltweit. In der Science berichtet Louis von Ahn aktuell, daß der Algorithmus bereits in über 40.000 Websites eingebaut ist. Entziffert wurden über 440 Millionen Worte, die Fehlerquote ist geringer als 1%.
Als Entwickler wirft sich einem natürlich die Frage auf, wie ein einerseits noch nicht identifiziertes Wort andererseits als Entscheidungskriterium für die Aufgabenerledigung dienen kann.
Da das Widget immer zwei Worte entziffern lässt, könnte der eine Scan ein bekanntes Ergebnis haben und an seiner zutreffenden Identifikation würde man den Captcha-Effekt festmachen. Die Identifikation des zweiten Wortes würde lediglich registriert. Kommen für diesen noch unbekannten Begriff viele gleichartige Entschlüsselungen zusammen (vielleicht setzt man den Schwellwert auf 97%) dann könnte man die Identifikation als gegeben betrachten und dieser 2. Begriff würde in den Pool der bekannten Worte wandern. Wenn der Ansatz so einfach ist, ist er brilliant.
via blogaddict


