人工智慧夯詞彙──卷積神經網路、雞尾酒會效應、ImageNet、1:N

電腦視覺領域最有效的深度學習演算法

不同的任務適用不同的類神經網絡架構,目前有卷積式類神經網絡(Convolutional Neural Network,CNN)和 遞 迴 式 類 神 經 網 絡(Recurrent Neural Network,RNN)這兩種常用架構。卷積神經網絡是最具代表性的深度學習網絡架構之一,常用於從點陣圖形直接辨識出影像模式,被大量應用在自然圖像、臉和手的檢測和物體檢測中。CNN在最近幾年大放異彩,Google的GoogleNet與微軟的ResNet等圖像辨識領域的重要突破都是利用卷積神經網絡作為架構。

遞迴式類神經網絡是一種有記憶力的類神經網絡。台大電機系教授李宏毅在〈什麼是深度學習〉一文中指出,在遞迴式類神經網絡中有一組「記憶細胞」每個細胞中存有一個數值,神經元會將記憶細胞中的數值作為輸入,而神經元的輸出則被儲存到記憶細胞中,也因此RNN擅長處理成串有序的輸入資料,如語音辨識領域,傳統的語音辨識系統往往由多個模組構成,目前已可以全部用一個複雜多層的遞迴式類神經網絡來取代,而目前語言翻譯也可以直接用一個遞迴式類神經網絡來完成。

語音的選擇性關注力

雞尾酒會效應由英國心理學家柴瑞(Colin Cherry)在1953年提出,指人類聽覺上的選擇性關注能力。人類在充滿各種聲音、吵雜的雞尾酒會中,可以將注意力集中在某個音樂或與某人的談話上,把餐具碰撞等其他聲音當作背景音,但是在語音辨識領域,電腦還是無法像人類一樣,對聲音有絕佳的選擇性關注力,因此雞尾酒會問題成為語音領域的重要挑戰,吸引大量學術研究。

亞馬遜首席科學家史特羅姆(Nikko Strom)指出,Alexa系統就使用定錨語音檢測(Anchored Speech Detection)法則,挑戰雞尾酒會問題。史特羅姆指出,首先需要用戶先說出一個定錨詞彙(anchor word)例如喚醒詞Alexa,作為學習說話者語音特徵的參考,讓Alexa系統藉此學習使用者的聲音特徵,而其他聲音就當作干擾音不做處理,接者,藉由麥克風陣列技術空間濾波與特定人的辨識的時間濾波,降低大部分雞尾酒會效應的干擾。不過,包括Alexa在內的系統都還是無法突破這個問題,周圍環境若有人聲干擾,語音辨識效果就不佳。

圖像辨識測試標竿

ImageNet是由Google雲端人工智慧暨機器學習首席科學家李飛飛與與普林斯頓大學教授李凱共同於2007年所發起的一個專案,是個開放給電腦視覺研究者使用的圖像辨識測試數據庫,此數據庫含有近10萬個同義詞,其中八成為名詞,以貓作為一個例子,ImageNet中有超過6萬2千種,不同外觀與不同姿勢的貓咪, 並且橫跨不同的種類。

自2010年起,ImageNet每年舉辦全球性的電腦視覺比賽ILSVRC,針對圖像分類、物體檢測與物體辨識物體等領域進行評比,這比賽成為科技巨頭與頂尖研究者展現自我實力的場域。2012年,加拿大辛頓(Hinton)教授將深度學習應用到ImageNet,結果圖樣辨識錯誤率僅為15.4%,到2016年,大賽中冠軍團隊的圖像辨識錯誤率已經達到約2.9%,已經遠遠超過人類的5.1%。而在語音辨識研究方面,也有一個常用的巨型語料數據庫Switchboard,現在IBM Watson已經可以將錯誤率降低到5.5%,而有經驗的專業人員則可以低達4.0%。

動態人臉辨識

人臉辨識大致可分兩種,1:1和1:N,前者商業化的應用多為金融和身分驗證方向,而後者則更多應用在安防監控領域。

曠視科技首席科學家孫劍指出,1:1主要是靜態比對人臉辨識技術,使用者並不會移動,在靜止的狀態下完成辨識。例如桃園機場的人臉辨識出關系統,就是一種1:1的人臉辨識。

而1:N則具有動態比對和非配合的特點,所謂的動態也就是辨識的不是照片,不是圖片,而是一個動態的影音資訊流,非配合則是指辨識對象不用感知到攝影機的位置,只要走進一定的辨識範圍,就能完成辨識工作。

以技術難度來看,1:N的難度會比1:1還要高,因為1:N的人臉辨識容易受逆光、曝光過度、角度以及距離等因素影響辨識準確度,因此在現階段,裝設辨識系統的廠商配合度就顯得很重要,廠商需要提供一個適合的辨識場域,來降低以上這些干擾因素。