新剩餘論

從某個角度,Web2.0其實讓大家看到是,人們剩餘的時間能夠發揮出多少力量。(如果真是剩餘的……。)也就是說,如果每個人除了工作讀書之外,還有許多剩餘的空閒時間、多餘的腦力,那麼誰能拔走這個游泳池的塞子,讓一滴一滴累積出來的腦力與時間被纏進漩渦,一鼓作氣在排水口中造成強大力量、發出嚇人的聲音?

reCAPTCHA logo

reCAPTCHA應該算是一個表現不錯的「剩餘塞子」,他沒有改變人的生活,沒有阻礙人的任何行進,就憑空創造出一堆志工、一堆腦力,將一堆書籍數位化,更厲害的,也許你我都獻出了一點貢獻,卻完全不自知。

CAPTCHA其實就是在我們想要貼某個留言或者使用某個服務時,網站用來分辨機械人與真人的機制,有點像《銀翼殺手》裡面用來分辨生化人的一連串問題。在這裡,就是指一些被扭曲過的文字:

Captcha Sample

Luis von Ahn想到,文件數位化的過程中,有許多工作是電腦無法完成的。如果人們在使用CAPTCHA辨識的同時,也作文件或者書籍的數位化,不是等於一種節能減碳:將已經使用過的資源(辨識人與機器),在利用到新的功能(文件數位化)。而從站長的角度,Ben Maurer認為:「你不只可以解決你的垃圾留言問題,你還可以讓人類書寫歷史保留進入數位時代。」於是,為了證明我們自己不是騙人的機器,我們認命地過關斬將、經歷測驗,在不知不覺中,已經把一篇1850年的《紐約時報》轉成了可搜尋的電子檔。

這個神奇的機制就叫做reCAPTCHA。

reCAPTCHA的故事很多人都提過了(例如vgodMidnight blog),不過上個月創始人Luis von Ahn在九月份的Science雜誌上發表了一篇文章,詳細說明這個計畫運作的一些細節,很值得大家仔細看一下:reCAPTCHA: Human-Based Character Recognition via Web Security Measures.(PDF檔)

基本上,送到reCAPTCHA的文件都會經過兩種OCR軟體掃過,如果某個字讓兩種OCR軟體有不同的結果,或者OCR辨識出來的字並不存在於字典中,這個字就會被標定為「可疑字」。掃瞄越多的文件,會發現越來越多可疑字。這些字之所以會出問題,通常是因為過去印刷得不清楚,或者有污漬。這些問題對人類來說很容易,但對電腦就會造成困難。這時候,我們人類就可以派上用場。

reCAPTCHA sample

出現在我們眼前的reCAPTCHA會有兩組字,一組為控制組,這一組的扭曲文字,電腦其實知道正確答案,所以稱為「控制字」;另外一組則是上述產生的「可疑字」。當有人答對「控制字」的時候,「可疑字」的答案也很值得參考。一旦有三個人對同樣的「可疑字」猜了相同的文字,但與兩個OCR結果都不同,這時候「可疑字」就會升級為「控制字」。如果有兩個人跟任何一個OCR的結果相同,那就直接升級。如果每個人猜的都不一樣,那就算是進入投票過程,越多人猜的越有參考價值。

這套系統測試下來發現,經過reCAPTCHA的文件正確率為99.1%(一般OCR出來的正確率為83.5%),非常接近專業人士作出來的正確率,但卻節省了大部分的經費與時間。這個計畫目前幾乎完成了1851到1980的紐約時報(在不詳的經費贊助下),並與Internet Archive合作(無償)。

我們可以說,reCaPTCHA的確拔掉了塞子,放出來的力量沖走了數位時代的污泥,污泥底下,就是一篇篇無數人辛苦產生也認真讀過過的文字。

其他參考資料:

http://news.cnet.com/8301-1023_3-9989480-93.html

這篇文章介紹Luis von Ahn的背景跟其他例如Gwap.com的計畫。

http://www.cs.cmu.edu/~biglou/

Luis von Ahn的官方網頁

One Comment

Post a Comment

Your email is never shared.