久久国产热视频,做做受视频播放试看30分钟,天天槽夜夜槽槽不停,天天槽夜夜槽槽不停,最近免费字幕中文大全

發(fā)布詢價(jià)單
您的位置:首頁 > 資訊 > 綜合資訊 > 正文

通過深度強(qiáng)化學(xué)習(xí)基于視覺的無人機(jī)避障

2022-05-09 10:41 性質(zhì):轉(zhuǎn)載 作者:飛思實(shí)驗(yàn)室 來源:飛思實(shí)驗(yàn)室
免責(zé)聲明:無人機(jī)網(wǎng)(www.hldxsj.cn)尊重合法版權(quán),反對(duì)侵權(quán)盜版。(凡是我網(wǎng)所轉(zhuǎn)載之文章,文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn),與本網(wǎng)無關(guān)。如有需要?jiǎng)h除,敬請(qǐng)來電商榷!)
隨著機(jī)器學(xué)習(xí)的發(fā)展,出現(xiàn)了很多基于深度學(xué)習(xí)的避障方案。在無人機(jī)領(lǐng)域,與無監(jiān)督學(xué)習(xí)相關(guān)的研究主要傾向于輔助有監(jiān)督學(xué)習(xí)的模型自動(dòng)化數(shù)據(jù)集的生產(chǎn),以減少標(biāo)注...

隨著機(jī)器學(xué)習(xí)的發(fā)展,出現(xiàn)了很多基于深度學(xué)習(xí)的避障方案。在無人機(jī)領(lǐng)域,與無監(jiān)督學(xué)習(xí)相關(guān)的研究主要傾向于輔助有監(jiān)督學(xué)習(xí)的模型自動(dòng)化數(shù)據(jù)集的生產(chǎn),以減少標(biāo)注數(shù)據(jù)的人力。另一方面,深度強(qiáng)化學(xué)習(xí)(DRL)方法可以通過讓無人機(jī)在訓(xùn)練環(huán)境中自行收集數(shù)據(jù)來解決創(chuàng)建數(shù)據(jù)集的問題。我們使用SAC算法來實(shí)現(xiàn)基于連續(xù)的無人機(jī)避障方案動(dòng)作空間,讓無人機(jī)做出更準(zhǔn)確流暢的動(dòng)作選擇。我們使用深度圖作為輸入,將SAC與變分自動(dòng)編碼器 (VAE) 相結(jié)合,訓(xùn)練無人機(jī)在由多個(gè)墻壁障礙物組成的模擬環(huán)境中完成避障任務(wù)。


模擬環(huán)境

Airsim是微軟推出的一款開源無人機(jī)和無人車模擬器。它支持 Unity 3D 和 Unreal 4 圖形引擎。在本次研究中,我們選擇了Unreal 4,它擁有多種繪圖工具庫。研究人員可以毫不費(fèi)力地構(gòu)建詳細(xì)的場(chǎng)景和障礙物。本研究利用虛幻引擎搭建的矩形封閉走廊作為無人機(jī)的飛行環(huán)境。

SAC算法框架

整個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)的工作流程如圖1所示。我們同時(shí)訓(xùn)練一個(gè) VAE 來生成與輸入深度圖相同的深度圖。然后,我們使用VAE的編碼網(wǎng)絡(luò)將深度圖轉(zhuǎn)換為潛在代碼以作為狀態(tài)參與訓(xùn)練。與DDPG不同,SAC也使用兩組評(píng)論網(wǎng)絡(luò)來估計(jì)Q值。

圖1 整個(gè)系統(tǒng)的訓(xùn)練流程圖

變分自動(dòng)編碼器

我們使用的VAE的結(jié)構(gòu)如圖2所示。輸入深度圖為128×72的灰度圖像,通道數(shù)為1。encode網(wǎng)絡(luò)由四層卷積神經(jīng)網(wǎng)絡(luò)組成,每個(gè)卷積層使用一個(gè)(4×4)卷積核。在解碼之前,我們將潛在代碼展開為大小為1024 × 1 × 3的數(shù)據(jù)。為了成功地將數(shù)據(jù)恢復(fù)到原始大小,我們使用大小為(5 × 7)、(6 × 8)的卷積核,(7 × 8) 和 (8 × 6)在解碼部分。

圖2 VAE 的結(jié)構(gòu)

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的結(jié)構(gòu)

Actor和Critic網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。Actor網(wǎng)絡(luò)是一個(gè)由四個(gè)全連接層組成的神經(jīng)網(wǎng)絡(luò)。由 VAE 生成的32長的潛碼作為狀態(tài)輸入到Actor網(wǎng)絡(luò)中。Actor網(wǎng)絡(luò)的輸出有兩個(gè)值,范圍從-1到1,分別代表無人機(jī)在y方向(左右方向)和z方向(上下方向)的速度。

圖3 Actor和Critic網(wǎng)絡(luò)的結(jié)構(gòu)

獎(jiǎng)勵(lì)功能

在每一步結(jié)束時(shí),系統(tǒng)會(huì)根據(jù)是否碰撞、是否升級(jí)、是否到達(dá)目的地,給予相應(yīng)的獎(jiǎng)勵(lì)或懲罰。如果動(dòng)作獎(jiǎng)勵(lì)為正,則證明無人機(jī)正在遠(yuǎn)離障礙物,即避開障礙物,此時(shí)有獎(jiǎng)勵(lì)。如果避障獎(jiǎng)勵(lì)為負(fù)數(shù),則表示無人機(jī)正在接近障礙物并受到一定的懲罰。動(dòng)作獎(jiǎng)勵(lì)的求解過程如圖4所示。

圖4 動(dòng)作獎(jiǎng)勵(lì)的計(jì)算過程

延遲學(xué)習(xí)

原始的actor-critic類型算法在學(xué)習(xí)過程中經(jīng)常使用直接更新方案,其中critic和actor網(wǎng)絡(luò)在每個(gè)時(shí)間步更新。理論上,直接更新會(huì)產(chǎn)生更多的訓(xùn)練步數(shù),從而加速收斂。然而,在實(shí)際應(yīng)用中,我們發(fā)現(xiàn)這種方法在訓(xùn)練過程中頻繁地改變策略選擇計(jì)劃,從而使代理在學(xué)習(xí)過程中對(duì)策略選擇產(chǎn)生混淆,導(dǎo)致策略抖動(dòng)。為了解決這個(gè)缺點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)延遲學(xué)習(xí)方案,我們將網(wǎng)絡(luò)的更新延遲到每個(gè)epoch結(jié)束之后。這確保了無人機(jī)的每一次完整飛行都遵循相同的策略。這種方法在一定程度上穩(wěn)定了訓(xùn)練過程。為了比較兩種算法之間的差異,我們?cè)谙嗤沫h(huán)境中對(duì)這兩種算法進(jìn)行了4000個(gè)epoch的訓(xùn)練,并記錄了它們?cè)谧詈?0個(gè)epoch中的平均避障時(shí)間。從圖5可以看出,雖然結(jié)果差異不大,但傳統(tǒng)SAC在我們的任務(wù)中比具有延遲學(xué)習(xí)的 SAC具有更大的波動(dòng)性。

圖5 SAC 和延遲學(xué)習(xí)SAC在我們的實(shí)驗(yàn)任務(wù)下訓(xùn)練了4000個(gè)epoch

實(shí)驗(yàn)環(huán)境

我們使用虛幻引擎搭建了一個(gè)長60m、寬6m、高7m的封閉走廊作為無人機(jī)的飛行環(huán)境。走廊每隔十米,就有一堵不同開口位置的墻作為障礙物,如圖6所示。我們使用這些障礙物將走廊劃分為5個(gè)級(jí)別的區(qū)域。每次無人機(jī)在單次測(cè)試中越過障礙物時(shí),都被視為升級(jí)。我們認(rèn)為無人機(jī)從走廊的一端起飛并避開所有障礙物(穿過墻壁上的所有開口)作為通過測(cè)試。

圖6 具有不同開口位置的五面墻作為實(shí)驗(yàn)環(huán)境中的障礙物 

測(cè)試過程

在測(cè)試過程中,無人機(jī)僅在初始起點(diǎn)起飛,并嘗試在沒有任何噪音的情況下避開障礙物。無人機(jī)安全通過五個(gè)障礙物并觸及端壁視為通過測(cè)試。為了驗(yàn)證無人機(jī)是否能夠適應(yīng)某些環(huán)境變化,我們反復(fù)改變墻壁的順序進(jìn)行測(cè)試,如圖7所示。

圖7 測(cè)試環(huán)境。測(cè)試環(huán)境包含三個(gè)按順序排列的不同障礙物。它們是一個(gè)訓(xùn)練環(huán)境(a),障礙順序是 12345 和兩個(gè)重新配置的環(huán)境(b,c),障礙順序是 34125 和 53412。

為了進(jìn)一步驗(yàn)證訓(xùn)練好的智能體對(duì)新環(huán)境的適應(yīng)性,我們構(gòu)建了一個(gè)由五個(gè)非矩形門組成的測(cè)試環(huán)境。本次測(cè)試環(huán)境中5個(gè)障礙物按照?qǐng)D8所示的編號(hào)依次排列,走廊的長寬高與訓(xùn)練環(huán)境相同。

圖 8. 新重建的測(cè)試環(huán)境中的五個(gè)非矩形障礙物

結(jié)果

在我們的實(shí)驗(yàn)中,網(wǎng)絡(luò)在每個(gè)epoch后更新。圖9顯示了水平軸上的訓(xùn)練時(shí)期和垂直軸上的情節(jié)獎(jiǎng)勵(lì)的圖表。從圖9可以看出在大約 200個(gè)epoch之后,epoch獎(jiǎng)勵(lì)開始逐漸增長。

圖9  epoch獎(jiǎng)勵(lì)圖

每個(gè)圖中的水平虛線代表起點(diǎn)和終點(diǎn),其中y軸上的0

在理想狀態(tài)下,如果無人機(jī)在50個(gè)epoch內(nèi)完成所有避障且無碰撞,則平均避障次數(shù)應(yīng)為3。如圖10 所示,隨著訓(xùn)練的進(jìn)行,經(jīng)過4000個(gè)epochs的訓(xùn)練,平均避障次數(shù)可以逐漸穩(wěn)定在1以上并接近2。

圖10 50個(gè)epoch 的平均避障時(shí)間

SAC 是一種成熟的算法,不依賴超參數(shù),但獎(jiǎng)勵(lì)函數(shù)的好壞對(duì)其學(xué)習(xí)效率影響很大。

源自:Xue, Z.; Gonsalves, T. Vision Based Drone Obstacle Avoidance by Deep Reinforcement Learning. AI 2021, 2, 366–380. https://doi.org/10.3390/ai2030023

網(wǎng)友評(píng)論
文明上網(wǎng),理性發(fā)言,拒絕廣告

相關(guān)資訊

推薦圖文

關(guān)注官方微信

手機(jī)掃碼看新聞