欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 新聞 > IT與互聯(lián)網(wǎng) >

圖森互聯(lián)郝佳男:視覺感知的正確打開方式

2016-09-26 14:49:06   作者:   來源:新浪汽車   評論:0  點擊:


  在9月24日的新浪汽車第七期輪語匯自沙龍上,圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男做了題為《視覺感知—無人駕駛的基石》的主題演講。郝佳男在演講中結(jié)合前段時間特斯拉Model S出現(xiàn)的致死事故實例,為我們講解了“視覺感知的正確打開方式”。
\
圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男
  以下是演講實錄:
  郝佳男:謝謝大家,首先感謝牛車網(wǎng)提供這樣一個舞臺,讓大家都能展現(xiàn)自己公司做的事情。
  今天很有意思,剛才王總和伍總都提到了一點,就是大家目前用的傳感器都是基于視覺去做,或者把視覺作為主要的傳感器,這也跟我今天的演講題目很貼近,我講的是視覺感知為什么是無人駕駛汽車的基石。
  北京是總部,美國有個研究院,加起來大概60人的規(guī)模。我自己是南洋理工畢業(yè)的博士,但是我做的并不是視覺感知這部分,更多在底層技術(shù),比如并行、分布式、虛擬化、安全,現(xiàn)在我負(fù)責(zé)圖森研發(fā)的基礎(chǔ)架構(gòu)和路線的制定。
  提到視覺感知,它到底是什么意思?說白了就是拿一個攝像頭拍一張圖片,或者拍一個連續(xù)的圖片序列,最后告訴計算機,你要給我完成一個任務(wù)。
  任務(wù)有多種多樣,比如識別車輛,識別某個物體,比如追蹤這個移動的物體。再比如對場景的理解,這部分是人,那部分是建筑物,有一部分是樹木,有一部分可能是其他份量,這些是場景分割。
  所有的算法怎么評定誰好誰壞?通過第三方去評判。現(xiàn)在世界上最權(quán)威的數(shù)據(jù)集有兩個,一個是Cityscapes,由奔馳主推,測試無人駕駛環(huán)境下通過單目攝像頭采回來的圖像,然后對它進行分割,分類比較多。另一個是KITTI,這個數(shù)據(jù)集相對來說跑的項目多一點,比如目標(biāo)的檢測包括三項,機動車、非機動車和行人,包括目標(biāo)的追蹤和路面分割。
  還 有兩個數(shù)據(jù)集是AFLW和300W,這是對人臉的檢測,有68點或者更多點的測試。為什么要提到這個數(shù)據(jù)集?因為無人駕駛中還有一個很重要的應(yīng)用,要對駕 駛員有狀態(tài)的檢測,在L2、L3的自動駕駛中人是需要有監(jiān)控能力的,需要知道現(xiàn)在駕駛員在什么狀態(tài),就能夠避免像特斯拉那樣的悲劇產(chǎn)生。在總共9項的比賽 當(dāng)中,目前圖森都獲得第一,也就是說在視覺感知這個領(lǐng)域,目前圖森可以代表世界第一的水平。
  回 到傳感器本質(zhì),為什么我們說視覺是無人駕駛汽車的基石?我們認(rèn)為視覺是最適合作為主傳感器的,所以我們認(rèn)為它應(yīng)當(dāng)是無人駕駛汽車的基礎(chǔ)。厘米波雷達、毫米 波雷達、激光雷達、紅外和我們自己的視覺感知,其實從根本上來講就是不同的波長進行感知,這就是傳感器的本質(zhì)。從視覺傳感器來說,它有什么優(yōu)勢?為什么我 們選擇它?第一,大家不能忽略一個客觀的因素,就是人類本身的世界是建立在可見光的基礎(chǔ)上,因為大家有視覺,人類的視覺、動物的視覺都是在這里獲得,有些 動物更遠一些。
  人類是基于視覺,能看見什么就創(chuàng)建什么東西,比如這個投影儀的光也在可見光之內(nèi)。因為這一點,我們通過攝像頭拿來的視覺圖像 一定包含最豐富的語義。這張圖比如拍到外面有車輛、有人、有自行車,上面有紅綠燈,這邊有限速牌,前面有垃圾桶,一張圖片能做所有的事情,人類開車就是這 樣開的。
  另外一點很重要,上路以后不可能期待所有車都是無人駕駛,有其他人工駕駛的車和自行車,別人同樣的是參與的交通者,別人是怎么行駛 的?一定是通過視覺判斷很多信息。舉個稍微極端點的例子,假如V2X以后成熟了,可能我的車不需要識別到底現(xiàn)在紅綠燈是什么狀態(tài),而是直接告訴車子就好 了。但可能告訴我現(xiàn)在是紅燈,可這個系統(tǒng)出了問題,其實這個紅綠燈顯示的是綠色怎么辦?這種情況下如果我不能理解其他交通參與者對當(dāng)前場景的理解時就會出 現(xiàn)問題,這也是為什么一定需要視覺,因為我要理解其他人怎么想,才能構(gòu)成完整的無人駕駛環(huán)節(jié)。
  還有一點是視覺本身是被動的傳感器,不像雷達 需要去打一個波數(shù),這有什么好處?現(xiàn)在很多無人車方案都是用lidar,lidar有一個問題,多個lidar互相之間會進行干擾,如果之后無人駕駛都廣 泛用了激光雷達,但是它們可能不合標(biāo)準(zhǔn)或者由于設(shè)計的不全,互相之間就會有干擾問題,這點就會很糟糕,從一開始選型來說這些技術(shù)可能就面臨這個缺陷。當(dāng) 然,如果拿視覺作為主傳感器,它也一定面臨挑戰(zhàn),我們拿到的就是一幅圖像,它雖然信息很豐富,但是這些信息不能被下面的決策系統(tǒng)直接使用,因為即使就一張 圖,我也一定要幾套算法把它轉(zhuǎn)化成結(jié)構(gòu)化或半結(jié)構(gòu)化的信息。
  什么叫視覺傳感器?說白了就是攝像頭,攝像頭主要分兩部分,一部分是鏡頭,一部 分是后面的傳感器。鏡頭是讓光線匯聚的作用,它會影響視角有多大、銳度有多好。我們重點看一下傳感器部分,目前大部分的傳感器都是基于CMOS技 術(shù),CMOS本身是個半導(dǎo)體,在這上面有一個特性,就是光打在上面就會變成電。大家回憶一下在物理課上學(xué)的知識,一個光子打過來就有可能轉(zhuǎn)化成一定的電 子,然后累積起來,這就是傳感器大致的運作方式。
  這張圖是傳感器的樣子,如果我們把單反或者手機拆了,把鏡頭拿掉后看到的就是這樣的場景,這上面很小,每一部分都是這樣的傳感器。
  我 們拍照時它發(fā)生什么?首先,傳感器把上面這部分電荷清除掉,把之前累積的清成零,接著光線當(dāng)然就會穿過鏡頭,通過光子接觸這個傳感器,變成一系列的電子積 累在這個地方,然后因為有一個快門時間,比如多少毫米或者幾分之一秒,過了快門時間后統(tǒng)一把井里面到底有多少電荷統(tǒng)計出來,之后經(jīng)過轉(zhuǎn)換變成數(shù)字信號,根 據(jù)數(shù)字信號的不同變成數(shù)字,最終這個數(shù)字就可以解讀為像素,比如任何一個點它的亮度。其實很多攝像頭都是彩色的,它怎么做到的?本身這個器件它只能測量亮 度,那就通過一種過濾的方式,這個單元我允許它只能過藍色調(diào)光,這個單元只能過綠色的光,這個單元只能過紅色的光,最終這個井里面的信息就是在這個附近藍 色光到底有多強,最終這樣的光強可以轉(zhuǎn)換成大家肉眼去理解的圖像。
  CMOS來說,視覺傳感器對無人車非常重要,我們一定要關(guān)注本質(zhì)的屬性。 第一個叫量子效應(yīng) ,光本身肯定有量子效應(yīng),每個光子打在這上面,它到底能轉(zhuǎn)化成多少電子,這是個概率問題,假如這邊10個光子打過來,最終生成了6個電子,它的效率是 60%,剩下的40%沒有辦法去記錄。另外一個指標(biāo)叫顳暗噪聲,當(dāng)我們讀這個井里面有多少電子時也是不準(zhǔn)確的,有可能有一個偏差,到底偏差多少?如果沒有 信號是否也能讀出數(shù)字?這就是顳暗噪聲。還有飽和容量,這個井如果滿了以后就不能再裝進新的電子了,在圖像上我們就變成一片白了,沒有細節(jié)了,本質(zhì)上來說 是這個井滿了。而且快門結(jié)束以后要去讀所有像素點的電荷數(shù),怎么讀有兩種方式,一種叫“卷簾方式”,就是一行行的讀,先讀這一行再讀下一行,每次清除電荷的時間也有可能不同,就會出現(xiàn)問題。還有一種方式叫“全局”,這種方式我們可以認(rèn)為清除是在一個時間點,全部讀取也在一個時間點,這樣更好一點。另外,要把電子測量之后變成數(shù)字,那數(shù)字量化以后一定有位寬問題,用多少位數(shù)去存,位數(shù)越多灰度越好,如果只有兩個,那可能就只有一個黑、一個白,沒有別的了。
  我 們看看什么叫“最適合自動駕駛的CMOS”,舉個例子,我們來看它的不同,第一,我需要它在低照度下有優(yōu)異表現(xiàn),就是比較暗的情況下也能拍,那么一是量子 效率必須要高,全都能轉(zhuǎn)化為可以測量的量;第二是顳暗噪聲比較低,三是有很高的通俗范圍,比值能到多少BD,這就是寬動態(tài)的問題。怎么寬動態(tài)?第一,噪聲 低,第二,飽和量要高,不然很快飽和以后沒辦法繼續(xù)度量接下來的光照。比如ICX614在很亮的區(qū)域很快就飽和掉了,飽和掉以后這個部分全是白的,并沒有 細節(jié),你不會區(qū)分這個點和邊上的點有什么差異,這對后面的算法來說無能為力,比如車面反光很大,而且造成這樣已經(jīng)溢出的情況,那就非常糟糕。IMX249 這個地方雖然也很亮,但是我們可以看到細節(jié),可以看到光暈的變化,從機器的角度來講,只要有數(shù)值上的差別,就能夠做下面的算法。
  剛才提到了 全局快門,大家可以自己去實驗,有直升機可以拍直升機,沒有直升機可以拍電扇,如果一行行掃的,電扇這種很快的物體會產(chǎn)生運動模糊,產(chǎn)生并不是當(dāng)時實際場 景,因為你在不同的時間段拍了不同的地方。全局快門就沒有這個問題,無論物體運動多快。還有數(shù)模轉(zhuǎn)換,平滑過渡才夠好。
  我們用視覺能做什么?剛才王總提到了一些,我們可以檢測車,我們可以圍繞它畫一個方塊,可以是2D的,可以是3D的,3D知道它的朝向和長寬高。另外,所有的物體不是每一幀都需要檢測,不同的框之間要有對應(yīng)的關(guān)系,這就是追蹤。
  檢 測確實可以滿足一些應(yīng)用,例如對ADAS或者簡單的自動駕駛沒有問題,但是如果想做很復(fù)雜的自動駕駛確實需要語義分割,語義分割是我們對每個像素都指定類 別,比如這是地面,這是建筑,這是天空,這是樹木,這是人,這是散落的一些小的物件,對不同的車、不同的物體有不同的顏色和不同的分類,可以幫助我們理解 場景到底是什么樣子和哪些地方可以走。
  提一個悲傷的事情,特斯拉的這次事故,在今年的5月7號特斯拉發(fā)生了這起很嚴(yán)重的車禍,車毀人亡。在進入事件回顧之前,我們先看一下特斯拉本身是什么樣的技 術(shù),從傳感器來說,它的主傳感器也是視覺感知,是Mobileye的。圖像進來能夠識別什么?第一,車尾,Mobileye里面跑的算法是SVM,識別的 是車后面的兩個車燈和后車輪,以這樣的方式檢測車很明顯的特征點,然后對車尾進行檢測。當(dāng)然,特斯拉不會只用攝像頭,它也想到備選方案,就是毫米波,上面 可能是6個或者8個毫米波雷達,大概安裝在車牌那個位置,這個功能是自動巡航定速,可以根據(jù)前面車的距離去定速,另外還有車道線的保持,通過這兩項在一起 達到從SAE的分級來說達到L2,它比L2高級一點,如果你想變道,確認(rèn)沒問題以后車會變到另外一條道,但是變道過程需要人來決策,所以這不能叫L3。
  我們回顧這場事故,當(dāng)時車主由西向東行使,另外一輛非常長的白色車從另一邊拐下高速公路,當(dāng)時車主本身不再監(jiān)控這個狀態(tài)了,甚至有傳言說他當(dāng)時再看《哈利波 特》。結(jié)果這個車正好橫在了這個位置,當(dāng)時特斯拉已經(jīng)很近了,它的系統(tǒng)并沒有做出反饋,它認(rèn)為前面沒問題,可以開過去,沒有任何的剎車動作。車從大卡車的 下面直接穿過去了,而且車穿過去以后還會繼續(xù)行使,連續(xù)撞擊,最后車是實在走不了了才停下。
  為什么出現(xiàn)這個問題?任何事故肯定都是很多具體 條件聚集起來才發(fā)生的,這起事故當(dāng)中是什么呢?第一,從感知上來說,當(dāng)車橫在這個位置,無論這個車是什么顏色,不能檢測到這個車,這是Mobileye這 一代芯片的缺陷;第二,糟糕的是毫米波雷達位置正好穿越這輛車下面,所以它也認(rèn)為前面沒有障礙物,于是系統(tǒng)判斷前面沒問題,繼續(xù)往前開,就撞了。
  為 什么說它是視覺感知的錯誤打開方式?Mobile在這個事情上沒有問題,他的這一代產(chǎn)品本來就是這個功能。特斯拉也知道這個事情,但是它錯誤的把圖像只做 了這樣一個處理。也就是說如果特斯拉想拿視覺作為主傳感器,不能只做這兩個傳感器,還需要用其他的傳感器或者算法去做,比如去識別這個地方的深度信息,或 者用單目做語義分割,判斷這個地方是不是一個可行駛路面,所有這些傳感器只是視覺,就一張圖,但可以跑很多算法,這些算法融合起來,最后進行一個決策,對 于視覺來說絕對不可能是只跑一個算法,然后拿這個作為真的物理量去做下面的決策,這是不對的。
  正確的打開方式,就是剛才說的,是一組傳感器,單目、雙目或者多目都沒關(guān)系,它有不同的視角,有一些窄一點去關(guān)注比較遠的,有一些寬一點的去關(guān)注有沒有闖入的行人等等。然后跑多個算法,比如目標(biāo)檢測、目標(biāo)追蹤、可行駛路面。
  它 第一次出現(xiàn)的時候會給它一個編號,然后追蹤它,對后續(xù)的算法可以預(yù)計它的軌跡,它是不是要轉(zhuǎn)彎、是不是要強行并道,都可以獲得。這邊有一個綠色的淡淡的區(qū) 域,這叫可行駛區(qū)域,可以理解為語義分割的一個子集,最關(guān)注的是哪部分可以開,哪部分開了不會撞。這個信息不是雙目取得的,這是單目信息直接算出來的,通 過單目對場景的理解,然后它知道這個位置可以行駛,比如這邊有車擋著就不能行駛。
  我 們看看在北京很復(fù)雜的路段它跑到什么樣子,這是在CBD那邊我們拍攝的一段視頻,人和車以兩種顏色去做區(qū)分,因為語義分割規(guī)定了車跟人是屬于兩個分類。除 此之外我們還可以看到天空,可以看到建筑物、樹木、車輛、隔離帶,都用不同的顏色去做區(qū)分。有這樣的技術(shù),無人駕駛就會更穩(wěn)妥一點。
  除 了語義分割,深度信息我們通過雙目獲取也是比較方便的。這也是CBD,是實際拍攝到的左眼的視頻,右眼我沒有放。紅色的部分表示離大家很近,紫色的部分表 示離大家很遠。這并不是實際到這個攝像頭的,而是對于任何一個特征點,從左眼到右眼它們之間的距離有多遠,根據(jù)這個直接劃出的顏色。道路這一側(cè)是同一個顏 色,如果是距離的話,中間肯定更近一點。
  不同算法其實有不同的適用場景,比如剛才提到的目標(biāo)檢測,可以跑得很遠,比如40度識別一個200米以外的車輛沒有問題,這在高速場景就很必須,因為高速給你響應(yīng)時間很短。
  比 如對于雙目的深度信息,它在比較遠端就比較麻煩,因為雙目的識別距離跟這兩個攝像頭離多遠有關(guān),我們在這個視頻里面大概的距離基本在車頭的兩個三分之一 處,它能夠區(qū)分的距離應(yīng)該是在三四十米比較精確,再往遠的話很難去分辨了,所以它對于近距離的物體做比較好。所以如何使用視覺傳感器,實際是拿這一組傳感 器傳回來的圖像去跑多個算法,所有這些拿出來結(jié)構(gòu)化信息,比如目標(biāo)檢測失敗了,但是可行使路面告訴我那有一個障礙物,或者深度信息告訴我這邊有一個異常的 坑,我都應(yīng)該決策這個車不能行使,應(yīng)該繞開或者以其他的方式規(guī)避,這樣的情況下特斯拉的悲劇就不會重演了,這是視覺感知的正確打開方式。

專題