隨著人工智能在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、語(yǔ)言理解和醫(yī)療健康等領(lǐng)域取得巨大進(jìn)展,并在語(yǔ)音識(shí)別和人臉識(shí)別等領(lǐng)域超越人類,那些影視場(chǎng)景中看似遙遠(yuǎn)而科幻的鏡頭,正逐漸在人們的生活中成為現(xiàn)實(shí)。
機(jī)器視覺(jué)
讓科幻照進(jìn)現(xiàn)實(shí)
2016年5月剛剛回歸屏幕的《疑犯追蹤》,早在2011年就為觀眾描繪了一個(gè)個(gè)通過(guò)機(jī)器監(jiān)測(cè)、分析和識(shí)別犯罪的科幻場(chǎng)景。神秘億萬(wàn)富翁發(fā)明了一套擁有認(rèn)知能力的人工智能系統(tǒng),利用攝像頭作為眼睛識(shí)別罪犯,并對(duì)罪犯行為進(jìn)行預(yù)判。這套系統(tǒng)除了偵測(cè)犯罪活動(dòng),還幫助那些受到傷害的普通人——可以在機(jī)器的指引下提前解救受害者。
時(shí)隔5年,隨著人工智能在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、語(yǔ)言理解和醫(yī)療健康等領(lǐng)域取得巨大進(jìn)展,并在語(yǔ)音識(shí)別和人臉識(shí)別等領(lǐng)域超越人類,這些電視場(chǎng)景中看似遙遠(yuǎn)而科幻的鏡頭,正逐漸在人們的生活中成為現(xiàn)實(shí)。
計(jì)算機(jī)視覺(jué)正是將科幻帶進(jìn)現(xiàn)實(shí)的一個(gè)新領(lǐng)域。
當(dāng)用戶向Facebook網(wǎng)頁(yè)上傳一張新照片時(shí),名為tag suggestion的面部識(shí)別軟件會(huì)根據(jù)之前被標(biāo)記的照片進(jìn)行自動(dòng)掃描,提示用戶新上傳照片中所有要標(biāo)記的人物姓名;而Faceme,一個(gè)人臉互粉的移動(dòng)應(yīng)用,可以在不到1秒的時(shí)間里識(shí)別人臉,并將信息與此人在社交網(wǎng)絡(luò)上的個(gè)人資料匹配起來(lái),讓用戶在Facebook、twitter或Linkedin上關(guān)注他們。
以上所描述的通過(guò)攝像設(shè)備采集人臉圖像,并基于人臉幾何特征和相對(duì)位置等信息進(jìn)行身份辨識(shí)的過(guò)程就是人們所熟知的人臉識(shí)別。在中國(guó),早就開始了人臉識(shí)別在安防、金融和醫(yī)療等領(lǐng)域的實(shí)踐,一個(gè)個(gè)更科幻的場(chǎng)景正因計(jì)算機(jī)視覺(jué)的廣泛應(yīng)用而成真。
比肩世界
中國(guó)計(jì)算機(jī)視覺(jué)技術(shù)快速發(fā)展
在世界范圍內(nèi),有3家計(jì)算機(jī)視覺(jué)領(lǐng)域的頂級(jí)研究機(jī)構(gòu)——MIT(麻省理工)、加州伯克利分校,以及歐洲的牛津大學(xué)實(shí)驗(yàn)室。這些機(jī)構(gòu)中的工作人員不斷被谷歌等巨頭挖走,或獨(dú)立創(chuàng)業(yè),正成為整個(gè)技術(shù)發(fā)展環(huán)節(jié)中最關(guān)鍵的一環(huán)。
計(jì)算機(jī)視覺(jué)在中國(guó)的發(fā)展起步于上世紀(jì)90年代末,隨著中國(guó)經(jīng)濟(jì)的快速發(fā)展、教育水平的不斷提高,曾經(jīng)走出去的行業(yè)精英越來(lái)越多地回流國(guó)內(nèi),使中國(guó)高素質(zhì)人才迅速積累,在數(shù)量和質(zhì)量上都具備了推動(dòng)技術(shù)快速發(fā)展的人力基礎(chǔ)。
同時(shí),隨著計(jì)算機(jī)時(shí)代的到來(lái),高速發(fā)展的網(wǎng)絡(luò)、大數(shù)據(jù)計(jì)算能力的提升,以及攝像頭的無(wú)縫鋪設(shè),為中國(guó)計(jì)算機(jī)視覺(jué)的發(fā)展奠定了軟硬件技術(shù)基礎(chǔ)。10多年來(lái),人們?cè)诒姸嗫苹秒娪爸锌吹降奶煅蹜?yīng)用場(chǎng)景,已經(jīng)可以通過(guò)計(jì)算機(jī)視覺(jué)實(shí)現(xiàn)——“看到”人們的一舉一動(dòng),并“預(yù)測(cè)”其未來(lái)的行為。
今天,當(dāng)有了優(yōu)秀的人才基礎(chǔ)和優(yōu)良的軟硬件技術(shù),幻想中的世界正逐一實(shí)現(xiàn)。在大批初創(chuàng)公司推動(dòng)下,中國(guó)在機(jī)器視覺(jué)領(lǐng)域的發(fā)展水平已能和美國(guó)、以色列等世界最先進(jìn)的國(guó)家比肩。
計(jì)算機(jī)視覺(jué)
被忽視的人工智能領(lǐng)域的珍珠
在計(jì)算機(jī)視覺(jué)領(lǐng)域,技術(shù)早已突破了肉眼精度的圖像識(shí)別,并廣泛應(yīng)用于公安、金融和信息安全領(lǐng)域。但這些已經(jīng)取得巨大社會(huì)價(jià)值的成績(jī)并不為大眾關(guān)注,人們更興奮于AlphaGo的勝利,而非技術(shù)在生活中的實(shí)際應(yīng)用。因?yàn)槿藗冎庇X(jué)上總認(rèn)為識(shí)別圖像是一件容易的任務(wù),而戰(zhàn)勝世界頂尖棋手則更具挑戰(zhàn)。
其實(shí),站在人工智能發(fā)展的角度,圍棋是有可遵循的邏輯和可衡量的計(jì)算量的游戲,對(duì)于人類大腦的難度在于龐大的計(jì)算量和對(duì)棋盤宏觀形勢(shì)的判斷;而圖像識(shí)別則會(huì)在信息抓取和邏輯分析層面呈現(xiàn)出更廣泛的隨機(jī)性和不確定性。通過(guò)機(jī)器學(xué)習(xí)將圖像中的信息進(jìn)行分類解析、最終提取有價(jià)值的結(jié)構(gòu)化數(shù)據(jù)是極其困難的科研課題,從學(xué)術(shù)界到工業(yè)界的轉(zhuǎn)化耗費(fèi)了幾十年的時(shí)光。
相比于計(jì)算機(jī)視覺(jué)、語(yǔ)言語(yǔ)音理解等其它的進(jìn)步,AlphaGo當(dāng)然也有其劃時(shí)代意義:它不僅縮短了機(jī)器與人的智能距離,更可怕的是,未來(lái)還將顛覆人與人的智商差異感知。未來(lái)智商的差距不再是不可彌補(bǔ)的先天差距,而成為通過(guò)工具后天可獲得的能力。這將顛覆人類的自我價(jià)值評(píng)估。
而計(jì)算機(jī)視覺(jué)的技術(shù)進(jìn)步,對(duì)于現(xiàn)實(shí)生活的變革則遠(yuǎn)遠(yuǎn)大于學(xué)術(shù)突破和哲學(xué)思考,技術(shù)正在幫助拓展人的能力邊界。
從車到人,從安防到金融
技術(shù)拓展人的邊界
計(jì)算機(jī)視覺(jué)領(lǐng)域的技術(shù)突破最先被應(yīng)用在車輛識(shí)別方面,比如依圖基于視頻圖像的車輛識(shí)別系統(tǒng)在蘇州上線之初,就幫助警方破獲了一起涉案金額超過(guò)10萬(wàn)元的入室搶劫案,當(dāng)時(shí)嫌犯搶劫得手后駕車駛離小區(qū),警方運(yùn)用依圖的“車輛識(shí)別系統(tǒng)”進(jìn)行品牌過(guò)濾,快速識(shí)別出車輛,僅僅10分鐘就神速破案。
與車輛等物體識(shí)別相比,人臉識(shí)別的應(yīng)用范圍和場(chǎng)景更加廣泛,當(dāng)前已經(jīng)可以做到在上億數(shù)量級(jí)的人像庫(kù)中進(jìn)行人臉靜態(tài)比對(duì)識(shí)別,并在“青奧會(huì)”和珠海航展安保系統(tǒng)中已成功應(yīng)用。
比如蘇州公安部門應(yīng)用依圖的人臉識(shí)別系統(tǒng),將全國(guó)在逃犯罪嫌疑人庫(kù)內(nèi)的圖像與蘇州1300萬(wàn)總?cè)丝诘膱D像進(jìn)行自動(dòng)比對(duì),系統(tǒng)僅用了不到1天的時(shí)間就對(duì)25人給出了預(yù)警,經(jīng)過(guò)人工甄別,有17人被確定為嫌疑人,這一嘗試讓蘇州公安部門對(duì)人臉識(shí)別技術(shù)的高效率大為驚嘆。
再如廈門南北火車站,民警通過(guò)公交車上的視頻監(jiān)控將扒竊案嫌疑人頭像提取出來(lái),在依圖的靜態(tài)人像系統(tǒng)中進(jìn)行比對(duì),很快就確認(rèn)了嫌犯的名字和身份證號(hào)碼,同時(shí)通過(guò)已覆蓋廈門所有BRT車站攝像頭的動(dòng)態(tài)人像系統(tǒng),快速找到了嫌犯之前所有出現(xiàn)在攝像頭下的時(shí)間和地點(diǎn)軌跡,從而在嫌犯經(jīng)常出現(xiàn)的地點(diǎn)布控設(shè)卡,很快控制了嫌犯。