「驗證碼」助電腦AI學習 提升Google地圖精準度
使用網路時,常會遇到要求填寫驗證碼來確認身分。從扭曲的文字到照片,各種檢驗方式越來越困難,必須嘗試兩三次才能通過。其實這種驗證方法,除了能防止有人利用電腦程式大量張貼廣告或垃圾訊息,同時也可以協助電腦展開AI學習,Google甚至把驗證碼的圖形識別,應用在Google map上,提升地圖精準度。
上網登錄,總會看到網頁要求填入驗證碼。
記者:「填寫申請健身App的個人資料要輸入驗證碼,網路預約疫苗注射也要填驗證碼,買個啞鈴又要填驗證碼,因為自制力不夠在上網訂購餅乾,還是要驗證碼。」
不論是數字或是選擇圖片,這些用來分辨使用者是真人,而非機器人的小軟體,可以協助避免收到大量垃圾郵件,或是阻擋黃牛利用軟體搶購票券。
驗證碼發明人 馮安:「這種驗證方式要讓電腦沒辦法通過,卻又得由電腦來做評比,確實是很矛盾的想法。」
驗證碼測驗,除了要讓電腦回答不出來,還得讓不同年齡、語言、教育水準的所有人類,都能普遍性的回答出來。馮安的研究團隊發現,人類特別擅長閱讀,不論文字是以什麼樣的角度呈現,在什麼樣的光線底下,或是龍飛鳳舞的文字,都能大致分辨出來,於是把這樣的特點應用在驗證碼上面。
記者:「驗證碼程式員會給電腦正確的文字,所以它會知道答案,’之後它們會把這段文字拉伸做變形,握有答案的電腦就可以評分,但沒有答案的機器人就無法了解是什麼文字。」
這個看起來要讓使用者,多花時間解驗證碼的小動作,不但能避免網頁被電腦攻擊,更是在協助電腦進行AI學習。2005年驗證碼升級成「再驗證碼」,變成兩個字,前面第一個字電腦有正確解答,後面一個來自古早紐約時報或是經典書籍的掃描片段。當使用者第一個字解答正確,電腦就會默認第二個字同樣回答正確,接著比對其他用戶的輸入結果,如果多名用戶答案一致,就完成了第二個字的數位化工作。
記者:「因為使用驗證碼的次數之多,一年份的紐約時報文章,幾乎只需要四天就能全數數位化,之後Google在2009年買下『再驗證碼』,開始使用此一技術為掃描書籍及新聞資料庫進行數位化工作。」
透過這樣的大量學習,電腦也懂得解讀這些歪七扭八的文字,2014年Google甚至發現,電腦對這類文字的解讀正確率已經達到99.8%,必須推出全新的驗證方式來因應,圖像式的驗證法因此誕生。
記者:「這次Google利用驗證碼讓人類教導電腦如何辨別現實生活中的物體你可能發現二代驗證碼的測驗通常都是選擇交通相關的照片像是消防栓、交通號誌、人行道等。」
Google藉此改善GOOGLE MAP,辨識道路上各種不同的標的。但隨著電腦越來越聰明,現在連選擇圖片也難不倒它,於是開始出現不同形式的測試。這幾年電腦甚至已經能透過,觀察網頁瀏覽的行為和習慣,就能判斷使用者是不是機器。
驗證碼發明人 馮安:「現在幾乎是只要你使用網路就會開始被追蹤,就是這樣,我們現在可以辨別機器或人類是基於我們已經知道你是誰了,你可以說這有點恐怖,但從可行性來說,這比讓你拼拼圖或其他測試好得多,因為早已知道這是人類。」
儘管看不到驗證碼,但電腦還是通過隱藏的驗證方式,繼續進行人工智慧學習。專家預測,光是透過每天上億使用者,瀏覽不同的網頁,AI模擬人類思考的橋段,就有機會不再只是科幻電影情節。
更多 TVBS 報導
檸檬車條款搶先寫入購車契約 福斯集團4品牌超前部署
Apple自動駕駛相關專利曝光! 「泰坦計畫」持續進行中
AI大廚取代真人 煮出道地西班牙海鮮飯
馬斯克再度食言 Tesla Model S Plaid延期交車