引言
將前一項任務中學到的知識,應用到新的任務中,這是人類大腦的一項最重要的機制??墒牵瑢τ跈C器人來說,將自主的行為,在部分相似的環(huán)境中進行重用,這仍然是一個公開的難題。然而,卡耐基梅隆大學的研究人員最近發(fā)表的一篇論文,在這個方向上邁出了一小步。他們提出了一種學習“可遷移的運動策略”的通用架構(gòu),旨在利用相似域中的訓練數(shù)據(jù),解決目標域的學習問題。他們使用自主飛行微型無人機,在復雜凌亂的戶外森林環(huán)境中,進行了飛行試驗,驗證方法的有效性。
現(xiàn)有無人機“自主”飛行的訓練方法及其弊端
如今,無人機應用已十分廣泛。然而,在復雜環(huán)境中,讓無人機進行有效的自主操作,完成特殊任務例如避障,就需要人工智能,神經(jīng)網(wǎng)絡(luò),機器學習領(lǐng)域的復雜知識,設(shè)計“感知器”和“軟件控制系統(tǒng)“。這些年,許多人工智能和機器學習算法,在無人機的感知和控制方面,扮演了重要角色。
但是,這種“數(shù)據(jù)驅(qū)動”方法,有一個主要弊端,即“吃一塹,長一智”,知識主要來源于對象受到的“損傷”,另外還需要復雜的數(shù)據(jù)獲取和訓練流程。
而在新研究中,研究人員認為對于許多機器人任務來說,獲取訓練數(shù)據(jù)幾乎不可能。例如,訓練昂貴的機器人系統(tǒng),使用模仿學習進行避障,通常需要搜集失敗范例的數(shù)據(jù)。這常常是危險而具有災難性的,例如讓一架直升機墜毀。所以,需要借助其他辦法,例如綜合仿真,訓練真實世界中的模型。
對于那些獲取訓練數(shù)據(jù)的任務,由于數(shù)據(jù)集“有限的變化性”,已學到的策略,也只能應用在他們所處的特定環(huán)境和物理系統(tǒng)中。另外,真實世界常常會遇到動態(tài)變化,例如環(huán)境和光線,這些常常會改變域?qū)傩浴?
基于“域自適應”的學習策略
通過傳統(tǒng)的學習方法,并不能保證策略有效。所以,需要新技術(shù)來減少失敗的成本,利用相關(guān)源域的標簽數(shù)據(jù),例如現(xiàn)有數(shù)據(jù)集和綜合仿真?!坝蜃赃m應”,可以正式的解決領(lǐng)域偏差,就也是解決問題的方法。目前,有關(guān)提高“學習策略可遷移性”的“遷移學習”的嘗試仍然很少。更進一步地,通過真實世界的實驗來進行驗證,則更少。
而研究人員通過在雜亂的環(huán)境中,使用基于視覺的自主微型無人機的飛行實驗,來拓展這些想法,通過“遷移學習”從源域獲取標簽數(shù)據(jù),使用“域自適應”的方法,有效地加速新目標域的學習。
技術(shù)和實驗方法
技術(shù)方法主要是,使用自主的微型無人機飛行,來學習可遷移的策略。首先,在展示的系統(tǒng)中,商用平臺的微型無人機,在最高1.5米/秒的速度下近地,低負載的自主飛行,通過濃密的森林環(huán)境,使用被動單目視覺系統(tǒng)作為唯一傳感器。研究人員使用了一種分布式處理的網(wǎng)絡(luò),從前向攝像頭搜集圖像流,通過Wi-Fi發(fā)送到基站。基站對于這些圖像進行處理,然后發(fā)送相應的命令給無人機。
研究人員通過觀察無人機在墜落前的幾次飛行的平均距離,來評估系統(tǒng)性能。測試,在具有不同樹木密度的森林區(qū)域展開。人類控制的1千米飛行,作為源域的訓練數(shù)據(jù)搜集方法。然后,在近1千米的自主飛行中,使用學習到的策略,在使用和不使用“域自適應”的兩種條件開展測試。測試結(jié)果和上下限:使用隨機策略的飛行,和使用完整訓練數(shù)據(jù)的飛行,進行比較。
A. 使用"模仿學習"學習反應性策略
攝像頭輸入的視覺功能,提供了用來控制無人機和進行避障的一組豐富信息?;凇澳7聦W習”的技術(shù),通過視覺輸入,直接學習無人機左右速度的線性控制器。研究人員通過人類飛行員在復雜的森林環(huán)境中的示范,以及相關(guān)圖片,訓練控制器,學習反應性策略,可以調(diào)整無人機飛行時朝向,避開樹木。經(jīng)過幾次學習和經(jīng)驗,學習者可以學會一個優(yōu)化策略,模仿和飛行員在這種環(huán)境中一樣的行為。然而,這種方法的主要限制是,它無法無縫的通用化到新環(huán)境中。
B. 使用"深度域自適應"的策略遷移
一種使用使用深度適應網(wǎng)絡(luò)的框架,從模擬的源域到目標域,學習可轉(zhuǎn)移的策略。
在研究中,研究人員,使用來自源域的有標簽信息和來自目標域的無標簽的信息,將以上的方法拓展到學習"域自適應"的策略。問題就變成了,訓練一個模型來學習一些列特征,來減少跨域的偏差?;谏罹矸e神經(jīng)網(wǎng)絡(luò)(CNN)的模型,比傳統(tǒng)的方法在解決復雜學習問題方面,更具優(yōu)勢。他們已經(jīng)顯示出對于新的任務的適應性。而主要挑戰(zhàn)就是目標域,沒有有標簽的信息。所以,通過微調(diào)對于目標域直接采取CNN,是不可能的。所以,研究最近構(gòu)建了一個深度適應網(wǎng)絡(luò)(DAN)架構(gòu),將深度卷積神經(jīng)網(wǎng)絡(luò)普遍化,進“域自適應”方案中。主要的目標,就是提高在深度神經(jīng)網(wǎng)絡(luò)的特殊任務層面的域可遷移性,減少域之間的偏差。
基于三種遷移的性能評估方法
跨系統(tǒng)遷移
我們可以從一個傳感器配置到另外一個,在不同的物理系統(tǒng)間遷移策略嗎?
研究人員,使用ARDrone作為源域,使用一個修改過的,裝備有高動態(tài)范圍的PointGrey Chameleon攝像頭的3DR ArduCopter作為目標域。傳感器系統(tǒng),圖像分辨率和攝像頭內(nèi)部,都和ARDrone不一樣。因此,從一個系統(tǒng)學習的到的策略,不能在另外一個系統(tǒng)通用。
跨氣候條件遷移
我們可以從夏季到冬季,在不同的氣候條件間遷移策略嗎?
研究人員從夏天搜集訓練數(shù)據(jù)作為源域,然后使用冬季的目標域,進行策略遷移。在這種情況中,域變化由于不同視覺表現(xiàn)引起的。夏季,充滿濃密植物;冬季,缺少植物,白雪一片。
跨環(huán)境遷移
我們可以從一個物理地點到另外一個,在不同的環(huán)境間遷移策略嗎?
這相當于使用現(xiàn)成的數(shù)據(jù)集作為源域,在另外一個獨立的目標域進行測試,研究人員使用蘇黎世大學的叢林小路作為源域,數(shù)據(jù)集提供了大規(guī)模的,森林環(huán)境中,嘗試飛行(左,右或者中間)的圖像集。使用這些源標簽,他們測試了微型無人機的反應性控制,并且在卡耐基梅隆大學附近的森林環(huán)境作為目標域中進行了測試。這里,域偏差通過物理位置和自然任務的不同而引入。
實驗和數(shù)據(jù)
(第一行)ARDrone和 ArduCopter間的物理系統(tǒng)遷移
(第二行) 夏天到冬天間的氣候條件遷移
(第三行) 瑞士蘇黎世大學和卡耐基梅隆大學間的環(huán)境遷移
實驗結(jié)果分析
這項研究中獲取的主要結(jié)果,是使用建議的方法進行“遷移學習”,相對于在新的域中比簡單的復用學習策略,對象的性能顯著提升。定量分析方面,在不同樹木濃密度的在環(huán)境中,進行了6千米的飛行實驗。盡管沒有訓練數(shù)據(jù),在目標域中,微型無人機能夠成功的避開1900個樹,精準率達90%。
對于飛行測試的定性評估來說,如下圖所示,自然的訓練數(shù)據(jù),來自夏天,無人機飛行的路徑上,時間順序展開的預測的左右速度命令的快照。更長遠的說,同時他們也分析了沒有使用“域自適應”,這種方法學習到的策略,是通過使用快照圖像作為輸入的預測控制命令(離線)進行。觀察結(jié)果是,“域自適應”的方法相對更好,可以通用化到新的域。
在濃密森林中的一次示例飛行的定性可視化。訓練數(shù)據(jù),在夏季(第一列)同樣的環(huán)境中搜集,并且在冬季(第二列)測試。微型無人機拍攝的圖像序列,自上而下按時間順序,并且使用建議方法的學習到的策略發(fā)布的顏色編碼命令進行覆蓋。另外,也研究人員也計算了沒有使用“域自適應”的策略(第三列),作為定性比較。
研究人員觀測了前兩個實驗,對象在目標域中的表現(xiàn)好過源域。
對于物理系統(tǒng)之間的遷移來說,這個歸因于無人機的動力學。ArduCopter具有更精準和穩(wěn)固的定位系統(tǒng),抗風性能好,這是比ARDrone墜落次數(shù)少的主要原因。另外,目標域具有更好的傳感器。分辨率的增加,可以更好的幫助檢測更小的樹木。對于氣候條件間遷移來說,目標域也有相應的性能提高。對于失敗案例的經(jīng)驗分析,表明一部分的失敗因為樹枝和樹葉,在冬天的條件顯著減少,對于性能提高有幫助。相對于前兩個實驗,對于環(huán)境間的遷移中來說,性能只有稍微提高。
總結(jié)
通過“域自適應”和“遷移學習”的方法,進行策略學習,有效的提高了無人機自主學習的性能,也有望應用于其他機器人自主操作的訓練中,不僅降低了訓練風險,也有效的提升了訓練能力。
隨著人工智能和機器學習技術(shù)的不斷發(fā)展,這些新方法,必然會對無人機和機器人相關(guān)的應用領(lǐng)域的智能化,帶來更有效的推進。
2025-09-19 12:22
2025-09-18 11:24
2025-09-17 10:55
2025-09-16 09:27
2025-09-12 11:30
2025-09-11 10:41
2025-09-09 10:52
2025-09-04 21:58
2025-08-28 11:13
2025-08-27 14:14