狠狠操夜夜甜|人妻在线中文字幕亚洲无码不卡av|一区二区欧美亚洲|日躁夜躁狠狠躁2001|亚洲,超碰,欧美|18AV成人电影|午夜成人免费在线|婷婷激情网深爱五月|色欲综合成人在线|在线美女搞黄大片

中企動(dòng)力 > 頭條 > 雷達(dá)成像

網(wǎng)站性能檢測(cè)評(píng)分

注:本網(wǎng)站頁(yè)面html檢測(cè)工具掃描網(wǎng)站中存在的基本問(wèn)題,僅供參考。

雷達(dá)成像

專欄 | 蘋果杠上百度,激光雷達(dá)物體識(shí)別成績(jī)大對(duì)比 - iDoNews 流量視頻課程

img

白玫瑰

關(guān)注
原標(biāo)題:專欄|蘋果杠上百度,激光雷達(dá)物體識(shí)別成績(jī)大對(duì)比

雷鋒網(wǎng)按:本文為雷鋒網(wǎng)專欄,作者系佐思產(chǎn)研研究總監(jiān)周彥武,雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。

一直以來(lái),蘋果都以其追求完美的文化和極度保密的風(fēng)格著稱。雖然外界一直努力捕風(fēng)捉影,但蘋果很少對(duì)外披露自動(dòng)駕駛研發(fā)的進(jìn)展或動(dòng)態(tài)。

不過(guò)在今年11月,蘋果發(fā)表了一篇名為VoxelNet:End-to-EndLearningforPointCloudBased3DObjectDetection的論文。

在這篇論文中,蘋果將神經(jīng)網(wǎng)絡(luò)命名為VoxelNet,蘋果通過(guò)激光雷達(dá)點(diǎn)云訓(xùn)練它執(zhí)行目標(biāo)識(shí)別任務(wù)。論文表明:蘋果正在打造一種自動(dòng)駕駛新方法,通過(guò)一個(gè)名為“VoxelNet”的全新系統(tǒng),幫助計(jì)算機(jī)更準(zhǔn)確地識(shí)別三維物體。其通過(guò)激光雷達(dá)傳感器讀取數(shù)據(jù),讓自動(dòng)駕駛汽車?yán)斫馄渌?、自行車和行人的精確地理位置。該項(xiàng)研究不僅表明了蘋果的自動(dòng)駕駛汽車研究的確屬實(shí),也顯示了蘋果正在與激光雷達(dá)相關(guān)公司進(jìn)行合作。

通過(guò)激光雷達(dá)研究物體識(shí)別的并不只有蘋果。

2016年,百度發(fā)表了一篇名為VehicleDetectionfrom3DLidarUsingFullyConvolutionalNetwork的論文。在更早的2015年,百度發(fā)表過(guò)一篇3DFullyConvolutionalNetworkforVehicleDetectioninPointCloud的論文。此外,清華與百度還有一篇論文:Multi-View3DObjectDetectionNetworkforAutonomousDriving。

2015年9月,卡梅隆大學(xué)機(jī)器人學(xué)院的DanielMaturana和SebastianScherer發(fā)表了VoxNet:A3DConvolutionalNeuralNetworkforReal-TimeObjectRecognition一文。

2017年10月德國(guó)弗賴堡大學(xué)機(jī)器視覺(jué)系發(fā)表了Orientation-boostedVoxelNetsfor3DObjectRecognition。歐洲機(jī)器視覺(jué)權(quán)威瑞士蘇黎世理工學(xué)院則有SEMANTIC3D.NET:ANEWLARGE-SCALEPOINTCLOUDCLASSIFICATIONBENCHMARK。

上述論文都是對(duì)激光雷達(dá)物體識(shí)別的研究。

(2018年1月16日,雷鋒網(wǎng)新智駕將在硅谷舉辦GAIR硅谷智能駕駛峰會(huì),我們也邀請(qǐng)了重磅嘉賓如全球頂級(jí)的激光雷達(dá)公司Velodyne,初創(chuàng)激光雷達(dá)公司Innovusion進(jìn)行主題報(bào)告分享和圓桌討論。更多峰會(huì)信息點(diǎn)擊?https://gair.leiphone.com/gair/gairsv2018。敬請(qǐng)大家關(guān)注。)

激光雷達(dá)物體識(shí)別最大的優(yōu)點(diǎn)是可以完全排除光線的干擾,無(wú)論白天還是黑夜,無(wú)論是樹影斑駁的林蔭道,還是光線急劇變化的隧道出口,都沒(méi)有問(wèn)題。其次,激光雷達(dá)可以輕易獲得深度信息,而對(duì)攝像頭系統(tǒng)來(lái)說(shuō)這非常困難。再次,激光雷達(dá)的有效距離遠(yuǎn)在攝像頭之上,更遠(yuǎn)的有效距離等于加大了安全冗余。最后,激光雷達(dá)也可以識(shí)別顏色和車道線。

實(shí)際上,激光雷達(dá)與攝像頭沒(méi)有本質(zhì)區(qū)別,其最大區(qū)別除了激光雷達(dá)是主動(dòng)發(fā)射激光,是主動(dòng)傳感器外,只是光電接收二極管不同,攝像頭可以做到的,激光雷達(dá)都能夠做到,只是目前激光雷達(dá)的點(diǎn)云密集度還不能和300萬(wàn)像素級(jí)攝像頭比。

對(duì)與固態(tài)激光雷達(dá)來(lái)說(shuō),絕大部分固態(tài)激光雷達(dá)都是提供3D圖像的,與其說(shuō)是激光雷達(dá),不如說(shuō)是3D圖像傳感器更為合適。

在清華大學(xué)與百度的論文?Multi-View3DObjectDetectionNetworkforAutonomousDriving(2016年11月)中,使用的便是攝像頭和激光雷達(dá)數(shù)據(jù)融合做物體探測(cè)與識(shí)別。

但蘋果認(rèn)為這種做法沒(méi)有提升,反而帶來(lái)很多麻煩。因?yàn)閿z像頭需要時(shí)間同步和與激光雷達(dá)做聯(lián)合空間標(biāo)定,攝像頭有效距離有限,性能與距離關(guān)聯(lián)密切。兩者在中遠(yuǎn)距離上難以融合,在近距離效果會(huì)略好。

與攝像頭用像素(Pixel)這個(gè)詞一樣,激光雷達(dá)是3D的,因此有Voxel(體素)這個(gè)詞。Pixel是二維電腦圖像的最小單位,Voxel則是三維數(shù)據(jù)在三維空間分割上的最小單位,很早就應(yīng)用于三維成像、醫(yī)學(xué)影像(比如CT)等領(lǐng)域。

對(duì)物體識(shí)別是機(jī)器理解人類社會(huì)環(huán)境的基本能力,人類文明主要是用文字和語(yǔ)言承載的,這是一種完全社會(huì)化的概念,因此不得不采用人類的學(xué)習(xí)方式,也就是深度學(xué)習(xí)。

激光雷達(dá)可以用回波寬度或反射強(qiáng)度信息輕易識(shí)別某一類物體,如車道線,草地,建筑物,道路,樹木,并且是物理識(shí)別,而不是攝像頭那樣的根據(jù)數(shù)學(xué)概率算法得出的識(shí)別,物理識(shí)別的準(zhǔn)確度遠(yuǎn)高于概率推算。

但要具體識(shí)別,比如物理方式,激光雷達(dá)只能識(shí)別出行人,具體是成年人、老人、小孩還是嬰兒就無(wú)能為力。再比如,路邊的交通標(biāo)識(shí),激光雷達(dá)只能知道是一塊金屬牌或塑料牌,但是是牌子什么內(nèi)容就不知道了,這時(shí)深度學(xué)習(xí)就可以派上用場(chǎng)。

深度學(xué)習(xí)通俗的理解就像人類訓(xùn)練動(dòng)物,比如教狗與你握手(爪),狗做對(duì)了,就給一點(diǎn)食物獎(jiǎng)勵(lì)或者撫摸獎(jiǎng)勵(lì),這就是一種強(qiáng)化學(xué)習(xí)的機(jī)制。假如狗沒(méi)做對(duì),就會(huì)挨批。這就像神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,識(shí)別正確就增加這部分的權(quán)重值(食物獎(jiǎng)勵(lì)),識(shí)別錯(cuò)誤就減少權(quán)重值(挨批)。

如此不斷地強(qiáng)化,最終你一伸手,狗也伸手(爪)跟你握手。

*蘋果VoxelNet架構(gòu)

目標(biāo)檢測(cè)與識(shí)別領(lǐng)域早期為DPM,2013年11月,目標(biāo)檢測(cè)領(lǐng)域公認(rèn)的大神RossGirshick推出R-CNN,2015年4月進(jìn)化為FastR-CNN,2015年6月進(jìn)化為FasterR-CNN,成為今日目標(biāo)檢測(cè)與識(shí)別領(lǐng)域公認(rèn)最好的方法,也是可以完全端對(duì)端地實(shí)現(xiàn)。

激光雷達(dá)的目標(biāo)檢測(cè)與識(shí)別自然也是要用FasterR-CNN。FasterR-CNN從2015年底至今已經(jīng)有接近兩年了,但依舊還是物體探測(cè)(ObjectDetection)領(lǐng)域的主流框架之一,雖然推出了后續(xù)R-FCN,MaskR-CNN等改進(jìn)框架,但基本結(jié)構(gòu)變化不大。同時(shí)不乏有SSD,YOLO等骨骼清奇的新作,但精度上依然以FasterR-CNN為最好。

從RCNN到fastRCNN,再到本文的fasterRCNN,目標(biāo)檢測(cè)的四個(gè)基本步驟(候選區(qū)域生成,特征提取,分類,位置精修)終于被統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架之內(nèi)。所有計(jì)算沒(méi)有重復(fù),完全在GPU中完成,大大提高了運(yùn)行速度。

fasterRCNN可以簡(jiǎn)單地看做“區(qū)域生成網(wǎng)絡(luò)+fastRCNN“的系統(tǒng),用區(qū)域生成網(wǎng)絡(luò)RPN(RegionProposalNetworks)代替fastRCNN中的SelectiveSearch方法。

不過(guò)RPN只能針對(duì)密集化的具備張量結(jié)構(gòu)的數(shù)據(jù),而激光雷達(dá)的云點(diǎn)是稀疏的,因此激光雷達(dá)深度學(xué)習(xí)識(shí)別物體的關(guān)鍵就是如何把點(diǎn)云數(shù)據(jù)轉(zhuǎn)換成具備張量結(jié)構(gòu)的密集的視頻或圖像數(shù)據(jù)。

蘋果就提出了一種叫VFE(VoxelFeatureEncoding)的方案(如上圖)。

首先將點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為體素?cái)?shù)據(jù),基本上點(diǎn)云的三維數(shù)據(jù)就是體素的三維數(shù)據(jù)。根據(jù)體素所在的位置對(duì)點(diǎn)(點(diǎn)云)進(jìn)行分組,把這些分組數(shù)據(jù)全部一層層堆疊起來(lái),然后通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)(FCN)形成有4(速度向量、X、Y、Z)張量的數(shù)據(jù)結(jié)構(gòu)。

接下來(lái)看FCN,F(xiàn)CN將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化成卷積層,對(duì)應(yīng)CNN網(wǎng)絡(luò)FCN把最后三層全連接層轉(zhuǎn)換成為三層卷積層。

在傳統(tǒng)的CNN結(jié)構(gòu)中,前5層是卷積層,第6層和第7層分別是一個(gè)長(zhǎng)度為4096的一維向量,第8層是長(zhǎng)度為1000的一維向量,分別對(duì)應(yīng)1000個(gè)不同類別的概率。

FCN將這3層表示為卷積層,卷積核的大小(通道數(shù),寬,高)分別為(4096,1,1)、(4096,1,1)、(1000,1,1)??瓷先?shù)字上并沒(méi)有什么差別,但是卷積跟全連接是不一樣的概念和計(jì)算過(guò)程,使用的是之前CNN已經(jīng)訓(xùn)練好的權(quán)值和偏置,但是不一樣的在于權(quán)值和偏置是有自己的范圍,屬于自己的一個(gè)卷積核。

因此FCN網(wǎng)絡(luò)中所有的層都是卷積層,故稱為全卷積網(wǎng)絡(luò)。

經(jīng)過(guò)多次卷積后,得到的圖像越來(lái)越小,分辨率越來(lái)越低。其中圖像到H/32?W/32的時(shí)候圖片是最小的一層時(shí),所產(chǎn)生圖叫做熱圖(heatmap),熱圖就是我們最重要的高維特征圖。

得到高維特征的熱圖之后就是最重要的一步也是最后的一步對(duì)原圖像進(jìn)行采樣(upsampling),把圖像進(jìn)行放大、放大、放大,到原圖像的大小。這就可以看做是RPN。

*百度的云點(diǎn)轉(zhuǎn)換FCN步驟圖

*蘋果的RPN架構(gòu)圖,可以看出與百度相差無(wú)幾

最后不能免俗,蘋果也得上KITTI上測(cè)試一番,也不忘打擊百度。

其中22號(hào)方案是百度早期的方案,效果確一般。5號(hào)方案就是百度和清華合作的方案,BV代表鳥瞰圖,F(xiàn)V代表前視圖,RGB代表攝像頭。HC-baseline的方案也是清華和百度聯(lián)合提出的。在鳥瞰檢測(cè)方面,蘋果與百度幾乎沒(méi)太多差別,在3D檢測(cè)方面,蘋果領(lǐng)先不少。

而蘋果使用的是一個(gè)1.7GHz的CPU和頂級(jí)顯卡TitanX來(lái)運(yùn)行上述算法,Voxel輸入特征計(jì)算費(fèi)時(shí)大約5毫秒,特征學(xué)習(xí)網(wǎng)絡(luò)費(fèi)時(shí)大約20毫秒,卷積中間層費(fèi)時(shí)170毫秒,RPN網(wǎng)絡(luò)費(fèi)時(shí)30毫秒,合計(jì)225毫秒。

但蘋果沒(méi)有說(shuō)這是一幀的推理(Inference)時(shí)間還是30幀的推理時(shí)間。如果是一幀的話,那就離實(shí)用還差很遠(yuǎn),若是做到每幀25毫秒才算比較接近實(shí)用。

雷鋒網(wǎng)推薦閱讀:

從三篇論文說(shuō)起:看蘋果和百度如何進(jìn)行深度神經(jīng)網(wǎng)絡(luò)開發(fā)的?

蘋果首次發(fā)表自動(dòng)駕駛論文,透露秘密計(jì)劃背后的野心

img

在線咨詢

建站在線咨詢

img

微信咨詢

掃一掃添加
動(dòng)力姐姐微信

img
img

TOP