人工智能(AI)可以像人類孩子一樣,通過觀察環(huán)境、與周圍的環(huán)境互動(dòng)了周世界嗎?關(guān)于這個(gè)問題,我們已經(jīng)展開了許多的認(rèn)知心理實(shí)驗(yàn),研究者發(fā)現(xiàn)了人類和電腦在觀察圖像時(shí)有一些重要的不同點(diǎn)。
研究者首先要測(cè)試人類和電腦視覺的局限性,檢查兩者識(shí)別物體(比如飛機(jī)、鷹、馬、汽車、眼鏡)局部圖像或者模糊圖像的能力。一點(diǎn)也不意外,人類大腦在識(shí)別細(xì)小圖像方面比電腦強(qiáng)很多,當(dāng)圖像變小、變得難以識(shí)別時(shí)也是一樣的。研究結(jié)果還為我們了解神奇的人類視覺打開了一條通道,它還暗示我們可以改進(jìn)計(jì)算機(jī)算法,讓人工智能像孩子一樣去理解世界。
“研究顯示,與當(dāng)前的模型相比,人類識(shí)別的能力是不同的,表現(xiàn)也更好?!币陨形捍穆茖W(xué)研究所計(jì)算機(jī)科學(xué)家ShimonUllman說,“我覺得正是這種差異解釋了為什么當(dāng)前模型在自動(dòng)分析復(fù)雜場(chǎng)景時(shí)不管用,例如,了解圖片中人物動(dòng)作的細(xì)節(jié)、理解人與人之間的社交互動(dòng)。”
Ullman解釋說,人類大腦可以根據(jù)已知物體的“構(gòu)件(BuildingBlock)”特點(diǎn)來識(shí)別局部、模糊圖片,電腦視覺模型或者算法卻沒有這樣的能力——它們不懂“構(gòu)件”知識(shí)。
研究共邀請(qǐng)了14000人參加,測(cè)試了3553張圖片片斷。由于參與者太多,根本不可能將每個(gè)人都帶到實(shí)驗(yàn)室。Ullman和同事利用AmazonMechanicalTurk將實(shí)驗(yàn)眾包給線上工作者。研究者在實(shí)驗(yàn)室測(cè)試了一小部分自愿者,然后用測(cè)試的結(jié)果來驗(yàn)證線上結(jié)果。
測(cè)試發(fā)現(xiàn)人類大腦輕松超過了電腦視覺算法。稍作調(diào)整卻發(fā)現(xiàn)人類大腦和計(jì)算機(jī)視覺算法在解碼圖像時(shí)存在很大的區(qū)別。當(dāng)小小的改變導(dǎo)致圖像太小、太模糊難以識(shí)別時(shí),人類識(shí)別小圖像的能力迅速下降。人類自愿者識(shí)別基本小圖片的成功率為65%,當(dāng)圖片更小更模糊時(shí),識(shí)別概率下降到20%。電腦卻不一樣,總的來說電腦算法的表現(xiàn)比人類糟糕,但是當(dāng)圖片變小變模糊時(shí),電腦的識(shí)別能力不會(huì)出現(xiàn)這么大的懸殊。
結(jié)果說明人類大腦依賴于特定學(xué)習(xí)和識(shí)別機(jī)制,這點(diǎn)正是電腦算法所缺乏的。
今天的電腦視覺模型采用的是“由下而上”的方法,在識(shí)別復(fù)雜特點(diǎn)之前先要盡可能過濾圖片最簡(jiǎn)單的特點(diǎn)。人類視覺不同,它并不依賴于“由下而上”的方法。人類大腦采用的是“由下而上”的方法,它會(huì)將特定物體的標(biāo)準(zhǔn)模型與需要識(shí)別的物體進(jìn)行對(duì)比。
“也就是說,大腦會(huì)將每個(gè)物體類型的模型存儲(chǔ)到大腦中,然后利用內(nèi)部模型來確認(rèn)圖像,它會(huì)尋找具體特征和特征之間的關(guān)系,從而識(shí)別圖片中的具體物件到底是什么。”Ullman解釋說,“由下而上和由上而下兩種處理方式相互作用,我們就可以感知到更豐富的細(xì)節(jié)。”
受到人類“由上而下”認(rèn)知方式的啟發(fā),新的電腦模型和算法也許可以通過觀察更好地理解世界。為了達(dá)到這個(gè)目標(biāo),Ullman的研發(fā)項(xiàng)目“數(shù)字寶寶”(DigitalBaby)獲得了一些投資。最終Ullman希望能開發(fā)出更強(qiáng)大的人工智能,它誕生時(shí)對(duì)世界一無所知,但通過視覺和互動(dòng)可以提高學(xué)習(xí)能力。和孩子一樣,最開始時(shí)他們對(duì)世界也是一無所知的,但是通過吸收信息他們對(duì)世界形成了豐富的認(rèn)知。
(審核編輯: 智慧羽毛)
分享