無人機(jī)網(wǎng)(www.hldxsj.cn)尊重合法版權(quán),反對侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要刪除,敬請來電商榷?。?/div>
計算機(jī)能夠像人眼一樣輕松分辨圖片中的許多物體嗎?當(dāng)人看一張圖片的時候,他們能將物體識別到最后一個像素。在Facebook人工智能研究實驗室(FAIR)...
計算機(jī)能夠像人眼一樣輕松分辨圖片中的許多物體嗎?
當(dāng)人看一張圖片的時候,他們能將物體識別到最后一個像素。在 Facebook 人工智能研究實驗室(FAIR),我們正在努力將機(jī)器視覺推進(jìn)到下一階段——我們的目標(biāo)是在像素的層面上理解圖像和物體。
在過去短短幾年內(nèi),深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和更多強(qiáng)大的計算構(gòu)架的出現(xiàn)使得機(jī)器視覺系統(tǒng)在精確度和能力上快速提升。
我們目睹了圖像分類(圖片中有什么?)和物體
探測(物體在哪里?)的巨大進(jìn)步。請看下面的圖(a)和圖(b)。這只是理解任何圖像或視頻中最相關(guān)的視覺內(nèi)容的開始。最近我們正在設(shè)計能夠識別和分割圖像中每個物體的技術(shù),就像下面最右邊的圖(c),這項關(guān)鍵能力將會帶來很多全新的應(yīng)用。
推動著我們的進(jìn)步的最主要的新算法是 DeepMask 分割構(gòu)架以及我們的 SharpMask 分割精煉模塊。它們一起使得 FAIR 的機(jī)器視覺系統(tǒng)能夠探測并精確勾畫出一張圖片中所有物體的輪廓。我們識別過程的最后階段使用了一個特定的卷積網(wǎng)絡(luò) MultiPathNet 來標(biāo)記出每個物體掩碼(mask)所含有的物體類型(例如人、狗、羊)。下面我們會談?wù)撨@個過程的細(xì)節(jié)。
我們現(xiàn)在決定將 DeepMask+SharpMask 以及 MultiPathNet 的代碼——以及我們的研究論文和相關(guān)演示——向所有人開放,我們希望它們能幫助機(jī)器視覺領(lǐng)域快速發(fā)展。隨著我們不斷改進(jìn)這些核心技術(shù),我們會繼續(xù)公開我們的最新結(jié)果,并更新我們提供給社區(qū)的開源工具。
尋找像素模式
讓我們看一看這些算法的構(gòu)造模塊。
看一下下面第一張圖,左邊那張。你看到了什么?一個
攝影師正在操作他老式的照相機(jī)、一片草地、作為背景的建筑物。你可能還會注意到其他無數(shù)的細(xì)節(jié)。機(jī)器看不見這些;一張圖片被編碼成數(shù)字?jǐn)?shù)組,每個像素點(diǎn)都有一個值來表征顏色,就如第二張圖片那樣——右邊那張。所以我們?nèi)绾问箼C(jī)器視覺從像素點(diǎn)中挖掘?qū)σ粡垐D片更加深刻的理解呢?
由于現(xiàn)實世界的物體和場景的近乎無限的可變性,這不是一項簡單的任務(wù)。物體的形狀、外表、大小、位置、紋理以及顏色都會變化,加上現(xiàn)實場景的內(nèi)在復(fù)雜性、變化的背景和燈光條件、以及我們的世界的一般豐富性,你會發(fā)現(xiàn)對于機(jī)器來說這個任務(wù)可以有多困難。
現(xiàn)在看看深度卷積神經(jīng)網(wǎng)絡(luò)。比起編程式地定義基于規(guī)則的物體
檢測系統(tǒng),深度網(wǎng)絡(luò)是相對簡單的構(gòu)架,數(shù)千萬個參數(shù)是訓(xùn)練而來的,而不是設(shè)計出來的。這些網(wǎng)絡(luò)自動從上百萬個注釋過的樣本中學(xué)習(xí)模式,并且在看過足夠多的樣例后,能推廣至新圖像。深度網(wǎng)絡(luò)特別擅長回答關(guān)于一張圖像的是或否問題(分類)——例如,這張圖中含有羊嗎?
分割物體
所以我們?nèi)绾卫蒙疃染W(wǎng)絡(luò)進(jìn)行檢測和分割呢?我們在 DeepMask 中使用的技術(shù)是將分割看成大量的二元分類問題。首先,對于一張圖像中的每個(部分重疊的)片(patch),我們思考:這一片中含有物體嗎?然后,如果第一個問題的回答是「yes」,那么對于該片中的每一個像素點(diǎn),我們思考:那個像素是該片中的中心物體的一部分嗎?我們使用深度網(wǎng)絡(luò)來回答每個是或否問題,并通過精心設(shè)計我們的網(wǎng)絡(luò),使計算是共享于每個片和每個像素,這樣我們就能夠快速發(fā)現(xiàn)并分割圖像中的所有物體。
DeepMask 使用了一種相當(dāng)傳統(tǒng)的前饋深度網(wǎng)絡(luò)設(shè)計。在該網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的增加,信息變得更加抽象且更具有語義意義。例如,深度網(wǎng)絡(luò)中早期的層可能能捕獲到邊和斑點(diǎn),然而更上的層往往會捕獲到更多語義概念,如動物的臉或四肢的存在。這些更上一些的層的特征被特意設(shè)計在一個相對低的空間分辨率中計算(為了降低計算量和減少像素點(diǎn)位置小幅位移的影響)。這產(chǎn)生了一個掩碼預(yù)測(mask prediction)的問題:更上面的層的特征能被用于預(yù)測捕獲物體大概形狀的掩碼,但是不能精確捕獲物體的邊界。
因此我們設(shè)計了 SharpMask。SharpMask 將 DeepMask 的輸出提煉,能生成高保真的、更精確地勾畫物體邊界的掩碼。當(dāng) DeepMask 能在穿過網(wǎng)絡(luò)的前向通過過程中預(yù)測粗糙的掩碼時, SharpMask 顛倒深度網(wǎng)絡(luò)中的信息流方向,并通過使用網(wǎng)絡(luò)中信息流逐漸經(jīng)過的更早期層的特征,提煉 DeepMask 做出的預(yù)測。這樣設(shè)想一下:為了捕獲物體大概的形狀,你必須對你正在看的東西有一個高水平的理解(DeepMask),但是為了精確地定位邊界,你需要回去檢查那些低級的特征,直到像素的層面(SharpMask)。本質(zhì)上,我們的目標(biāo)是以最小的成本利用所有網(wǎng)絡(luò)層中的信息。
下面是一些由 DeepMask 生成、SharpMask 提煉的輸出樣例。為了保持樣例的可視性,我們僅展示與圖片中與物體真實位置完美對齊的預(yù)測掩碼(人為注釋)。注意該系統(tǒng)還不完美,紅色輪廓的物體是被人工注釋,但被 DeepMask 錯過的。
分類物體
DeepMask 不知道任何特定類型的物體,所以盡管它可以同時描繪狗和楊,它卻不能分辨它們。另外,DeepMask 并不是非常有選擇性的,而且可能生成并不是特別相關(guān)的圖像區(qū)域的掩碼。所以我們該如何收縮相關(guān)掩碼的選擇范圍,從而識別出真正存在的物體呢?
正如你所可能預(yù)料的,我們再一次求助于深度神經(jīng)網(wǎng)絡(luò)。給定一個 DeepMask 生成的掩碼,我們訓(xùn)練一個單獨(dú)的深度網(wǎng)絡(luò)用來分類每個掩碼的物體類型(而且「none」也是一個有效的答案)。這里我們遵從了一個名叫 Region-CNN(或 RCNN)的基本范式,該范式是由 Ross Girshick 首創(chuàng)的(他現(xiàn)在也是 FAIR 的一位成員)。RCNN 是一種兩階段的程序,其第一階段用于將注意力吸引到特定的圖像區(qū)域,而在第二階段則使用一個深度網(wǎng)絡(luò)來識別存在的物體。在開發(fā) RCNN 的時候,第一階段可用的處理是相當(dāng)初級的。通過使用 DeepMask 作為 RCNN 的第一階段并利用深度網(wǎng)絡(luò)的力量,我們在檢測精度上得到了相當(dāng)顯著的提升,同時也獲得了分割物體的能力。
為了進(jìn)一步提升性能,我們也專注使用專用網(wǎng)絡(luò)架構(gòu)來分類每個掩碼(RCNN 的第二階段)。正如我們討論的那樣,真實世界照片包含了多種尺度的物體,背景常常很雜亂,而且往往有遮擋。標(biāo)準(zhǔn)的深度網(wǎng)絡(luò)在這樣的情況中存在困難。為了解決這個問題,我們提出了一種名叫 MultiPathNet 的修改過的網(wǎng)絡(luò)。正如其名,MultiPathNet 允許信息沿多條路徑穿過網(wǎng)絡(luò),從而使其可以利用多個圖像尺度上的信息和圖像中周圍背景的信息。
總而言之,我們的物體檢測系統(tǒng)按以下三個步驟執(zhí)行:
● DeepMask 生成初始的物體掩碼;
● SharpMask 提煉這些掩碼中的信息;
● MultiPathNet 識別由每個掩碼所描繪出的物體。
下面是我們完整系統(tǒng)的一些輸出例子:
結(jié)果并不完美,但鑒于能做到這一點(diǎn)的技術(shù)幾年前甚至還不存在,所以也不算太差啦!
廣泛的應(yīng)用
視覺識別技術(shù)有著非常廣泛的潛在應(yīng)用。例如構(gòu)建這一已有的計算機(jī)視覺技術(shù),使得計算機(jī)能夠識別圖像中的物體,這就使得我們可以更容易地在沒有每張圖都被標(biāo)記的情況下搜索特定的圖像。失去視覺能力的人也能夠可以理解朋友們分享給他們的圖片內(nèi)的內(nèi)容,因為系統(tǒng)可以告訴他們是什么,不論圖片旁邊有沒文字描述。
不久之前,我們展示過為盲人用戶開發(fā)的技術(shù),也就是評估圖片并向用戶描述圖片內(nèi)容。如今,視覺障礙用戶在收到 News Feed 中的圖片時,他們只能聽到向他們分享圖片的人的名字,后面綴著「Photo」一詞。而我們想要提供更豐富的描述,就像「圖片中包含沙灘、樹、和 3 個在笑的人?!?br />
此外,借用我們開發(fā)出的分割技術(shù),我們的目標(biāo)是提供更沉浸式的體驗,在用戶手指滑過圖片時能夠「看到」圖片,希望有一個系統(tǒng)能夠描述他們觸摸到的內(nèi)容。
在前進(jìn)的過程中,我們將繼續(xù)改進(jìn)我們的檢測和分割算法。你可以想象有一天,這些圖片檢測、分割、識別能力在商務(wù)、健康這些領(lǐng)域應(yīng)用于增強(qiáng)現(xiàn)實。
此外,我們的下一個挑戰(zhàn)是將這些技術(shù)應(yīng)用于視頻,視頻中的物體是移動的、交互的、隨時間變化的。在計算機(jī)視覺技術(shù)觀看視頻以及理解并分類視頻中的實時內(nèi)容上,我們已經(jīng)取得了一些進(jìn)步。實時分類能夠在 Facebook 上幫助將相關(guān)的、重要的直播視頻推薦到封面,同時應(yīng)用更精致的技術(shù)在時間和空間上檢測場景、物體和行為能夠在有一天實現(xiàn)實時的描述。我們非常興奮能夠推進(jìn)這一前沿技術(shù)并在 Facebook 上為每個人提供更好的體驗。