全文2850字,預(yù)計閱讀時間6分鐘
原創(chuàng) | J L.編輯 | 呂嘉玲
本文將以道路駕駛為例,一文帶你掌握多智能體深度強(qiáng)化學(xué)習(xí)的脈絡(luò)。
溫馨提示:本文動圖中的部分行為存在風(fēng)險,請勿輕易模仿。
從字面意思就可以理解,區(qū)別于單智能體強(qiáng)化學(xué)習(xí),多智能體強(qiáng)化學(xué)習(xí)指代在一個世界中有多個智能體在一起進(jìn)行學(xué)習(xí)和演化。這些智能體可以是同構(gòu)(homogeneous) 的,比如說不同的人,也可以是異構(gòu) (heterogeneous) 的, 比如說人和車。
他們在這個世界中或合作 (cooperative),或競爭 (competitive),或既合作又競爭。一個生動的例子就是道路駕駛。假設(shè)你開車行駛在高速上,那么你不僅僅需要控制車輛使自身保持在車道線內(nèi),也需要和同車道上的其他車輛形成合作的關(guān)系。這個合作關(guān)系就是如果前車減速,那么你也要相應(yīng)地減速以保持一百米的安全車距;與此同時,前車也要防止急剎車一類的動作,從而防止后車追尾。在這限速一百二的道路上,前方路況良好視野開闊,你們安心駕駛并且保持著一段時間的這種合作關(guān)系......
突然,你發(fā)現(xiàn)前車降速到了六十碼。你打了遠(yuǎn)光燈甚至按了喇叭提醒前車,但是對方卻無動于衷,于是你很生氣,想要超車:
溫馨提示:同一車道的后車,并到右側(cè)車道,超越前車,再并回原車道屬于違章駕駛。
但是當(dāng)你變道的時候前車也突然加速不想讓你超車。這時你的路怒癥就犯了(注意安全駕駛),你左右試探想找準(zhǔn)時機(jī)一腳油門別它。這個時候你們就形成了競爭關(guān)系。
順帶一句,這個競爭關(guān)系出現(xiàn)的原因在于人類非理性(human-irrationality)的存在。但是在強(qiáng)化學(xué)習(xí)中,我們一般都假設(shè)智能體是完全理性的。所以想用強(qiáng)化學(xué)習(xí)預(yù)測股市的朋友們可以放棄這一方案了, 因?yàn)椴淮嬖谕耆硇缘木虏恕?/p>
如果我們抹去人類的非理性,并假設(shè)未來的某一天所有車輛都是自動駕駛,那么這個城市道路上的所有車就是完全合作 (fully cooperative) 的關(guān)系。每一輛車根據(jù)自身感知的信息來做最優(yōu)決策。自身所感知的信息就是強(qiáng)化學(xué)習(xí)中狀態(tài) (state) 的概念。狀態(tài)可以包括目的地航向,前方道路的紅綠燈信息,前車車距和時速,自身時速,方向盤轉(zhuǎn)向,車側(cè)有無行人等等。決策就是強(qiáng)化學(xué)習(xí)中動作 (action) 的概念,可以是加速減速,轉(zhuǎn)左轉(zhuǎn)右,也可以是超車,緊急避讓,彎道漂移等這些宏動作 (macro-action).
溫馨提示:漂移請勿壓單白實(shí)線。
當(dāng)然,人類或者自動駕駛系統(tǒng)一開始并不知道怎么開車。所以你得去駕校找教練帶你。那么駕校中的練習(xí)道路就是強(qiáng)化學(xué)習(xí)中的仿真環(huán)境 (simulation environment) 的概念。你在練習(xí)開車的時候如果連最基本的右邊是油門,左邊是剎車都不知道的話,教練可能會罵你,這就是強(qiáng)化學(xué)習(xí)中的獎勵 (reward) 的概念。每被罵一次,你受到心理傷害,獎勵就 -1。當(dāng)然,如果你不小心把剎車當(dāng)油門,一把猛沖把駕校的墻撞壞了:
那么就會導(dǎo)致練車回合 (episode) 的結(jié)束,并受到教練的語言暴力傷害,獎勵 -100,然后 return done = True. 這個時候不要?dú)怵H,給教練買包煙,重新?lián)Q車開始即可。
我們小結(jié)一下,強(qiáng)化學(xué)習(xí)的基本概念,包括環(huán)境 (environment),智能體(agent),狀態(tài)(state),動作(action),獎勵(reward)可以由下面一張圖表述:
src: https://www.guru99.com/reinforcement-learning-tutorial.html
我們回到道路駕駛的例子,根據(jù)前面描述,我們知道在多智能體環(huán)境中,你的策略不僅取決于自身的開車習(xí)慣和道路環(huán)境信息,還取決于其他智能體(前車)策略的影響。但是問題在于你并不知道前車的駕駛習(xí)慣。針對這個問題,一般有三種主要的學(xué)習(xí)算法結(jié)構(gòu)。
第一種是不管其他人,我就在駕校中單獨(dú)訓(xùn)練,并把其他智能體看成環(huán)境的一部分。這種學(xué)習(xí)模式叫做獨(dú)立式學(xué)習(xí)(independent learning). 這種模式的好處是簡單快捷,即把單智能體的學(xué)習(xí)方法照搬到每一個單獨(dú)的智能體即可。但是缺點(diǎn)也很明顯,在同一個環(huán)境中,你在“補(bǔ)習(xí)”的同時,別人也在“補(bǔ)習(xí)”,從而打破了環(huán)境的穩(wěn)態(tài)性(stationarity),結(jié)果就是誰都沒學(xué)好。這種強(qiáng)化學(xué)習(xí)方法在相對離散動作的小規(guī)模多智能體問題中具有一定效果,但是在高維度狀態(tài)-動作空間的復(fù)雜問題中,表現(xiàn)差強(qiáng)人意。
第二種學(xué)習(xí)模式就是集中式(centralized)學(xué)習(xí),即把所有智能體的狀態(tài)和動作集中到一起,形成一個增廣 (augmented) 的狀態(tài)-動作空間,然后使用單智能體算法直接學(xué)習(xí)。這種學(xué)習(xí)方法的問題在于一旦智能體數(shù)量過于龐大,這個增廣空間的大小就會以指數(shù)級增長,以至于智能體無法進(jìn)行充分的空間探索。與此同時,學(xué)的時候也很累,龐大的狀態(tài)-動作空間需要龐大的神經(jīng)網(wǎng)絡(luò),訓(xùn)練起來費(fèi)時費(fèi)力費(fèi)電。.
除了上述兩種,還有一種學(xué)習(xí)算法結(jié)構(gòu)叫做集中式訓(xùn)練-分布式執(zhí)行 (centralized training decentralized execution). 意思就是訓(xùn)練期間所有的智能體能看到全局信息,就是你也知道別人怎么開車;執(zhí)行的時候每個智能體智僅依靠局部的狀態(tài)信息做決策。這種算法結(jié)構(gòu)雖然在訓(xùn)練的時候比較費(fèi)力,但是可以實(shí)際部署應(yīng)用,因?yàn)槊總€智能體僅依賴局部信息作決策,而不需要復(fù)雜的通訊網(wǎng)絡(luò)和所有其他智能體保持聯(lián)絡(luò)。集中式訓(xùn)練-分布式執(zhí)行的算法框架如下圖:
src: Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in neural information processing systems, 2017, 30.
多智能體強(qiáng)化學(xué)習(xí)也存在著諸多挑戰(zhàn)。我們回想一下道路駕駛的問題,其實(shí)就能窺見一二。
首先第一個挑戰(zhàn)就是環(huán)境的非穩(wěn)態(tài)性 (non-stationarity)。你學(xué)我學(xué)他也學(xué),你卷我卷他更卷,使得整體的評價機(jī)制/回報函數(shù)的準(zhǔn)確性降低,原本學(xué)會的良好的策略會隨著學(xué)習(xí)過程的推進(jìn)不斷變差,最終造成你學(xué)了的不再有用,他卷的也白卷。
第二個挑戰(zhàn)在于非完整觀測 (Partial observability), 在大部分的智能體系統(tǒng)中,每個智能體在執(zhí)行過程中無法獲得完整的全局信息,而只能根據(jù)觀測到的局部信息來做一個最優(yōu)決策,如下圖中司機(jī)的視野是有個范圍的:
這就是局部可觀測的馬爾科夫過程 (partially observable Markov decision process)。其難點(diǎn)在于整個過程的馬爾科夫性不再完整,使得環(huán)境表現(xiàn)出非馬爾科夫性(non-Markovian)。
第三個挑戰(zhàn)在于學(xué)習(xí)交流方式 (learn communication)。要合作完成某項(xiàng)任務(wù)的時候,智能體間可以通過通訊來交換觀測信息,策略參數(shù)等,比如夜晚雙方會車的時候需要暫時關(guān)閉遠(yuǎn)光燈“以示友好”,或者超車的時候閃幾下遠(yuǎn)光燈提醒前車注意,這種屬于指明通訊內(nèi)容的學(xué)習(xí)方法。
與此相反,現(xiàn)在假設(shè)我們并不知道會車的時候要關(guān)閉遠(yuǎn)光燈,我們的任務(wù)就是要嘗試學(xué)習(xí)一種通信策略,比如讓智能體被晃了幾次眼之后發(fā)現(xiàn)在適當(dāng)?shù)臅r候關(guān)閉遠(yuǎn)光燈可以降低翻車概率,這就是通信策略的學(xué)習(xí),即根據(jù)當(dāng)前觀測給其他智能體發(fā)送什么信息,決定發(fā)送信息的種類,信息的內(nèi)容以及誰來接收這些信息。通訊這個行為也可以被認(rèn)為是一種動作用來建立信息渠道。
第四個就是算法的穩(wěn)定性和收斂性 (convergence) 挑戰(zhàn)。帶來這個挑戰(zhàn)的原因之一就是智能體數(shù)量的增長帶來的探索難度的增加,導(dǎo)致算法難以收斂。原因之二是過擬合問題帶來的收斂到局部最優(yōu)的問題。一個例子就是假設(shè)在某條道路上,除了你之外都是老司機(jī),那么你隨便怎么開車其他老司機(jī)都能避讓你:
這種情況下你不再進(jìn)行有效探索和學(xué)習(xí),而陷入了一個局部最優(yōu),導(dǎo)致你貌似學(xué)會了開車但好像又沒有學(xué)會,最終進(jìn)入到“學(xué)了又好像沒學(xué)”的狀態(tài)。
最后我們回顧一下從道路駕駛的例子中,我們認(rèn)識到了哪些多智能體強(qiáng)化學(xué)習(xí)的概念。首先,我們了解了一種最常見的從合作競爭的角度來分類多智能系統(tǒng)的方法。其次,我們通過學(xué)車的例子認(rèn)識了強(qiáng)化學(xué)習(xí)的基本概念。然后我們從集中和分布的角度了解了學(xué)習(xí)算法結(jié)構(gòu)的分類,最后我們闡述了現(xiàn)階段面臨的幾個挑戰(zhàn)。多智能體深度強(qiáng)化學(xué)習(xí)的總體脈絡(luò)便是如此。各種科研論文就是在這些上面做文章,比如提出新的算法,新的架構(gòu),新的通訊方式,來解決上述挑戰(zhàn),或者應(yīng)用到或合作,或競爭,或既競爭又合作的各種場景中。
最后的溫馨提示:避免諸如強(qiáng)行超車,加塞等危險博弈動作,因?yàn)槟銉H擁有部分可觀性,且未知其他智能體是否完全理性。道路千萬條,安全第一條。
-END-
本文由西湖大學(xué)智能無人系統(tǒng)實(shí)驗(yàn)室博士生J L.原創(chuàng),申請文章授權(quán)請聯(lián)系后臺相關(guān)運(yùn)營人員。
歡迎來到西湖大學(xué)智能無人系統(tǒng)實(shí)驗(yàn)室!我們的實(shí)驗(yàn)室專注于小型無人機(jī)(UAV)的基本理論和新應(yīng)用。技術(shù)研究領(lǐng)域包括(i)單無人機(jī)的制導(dǎo),導(dǎo)航和控制,(ii)多無人機(jī)的集群系統(tǒng),以及(iii)基于視覺和其他類型的傳感器的智能傳感系統(tǒng)。目前,我們有十多個小組成員,包括博士后,博士生,研究助理和訪問學(xué)生。他們都畢業(yè)于中國和海外的頂尖大學(xué)。我們擁有一流的實(shí)驗(yàn)設(shè)備,如Vicon,動作捕捉系統(tǒng)和各種實(shí)驗(yàn)無人機(jī)平臺。
歡迎來到西湖大學(xué)智能無人系統(tǒng)實(shí)驗(yàn)室! 小型旋翼無人機(jī)在民用和軍事領(lǐng)域有廣泛的應(yīng)用,涉及到眾多的科學(xué)研究問題。 西湖大學(xué)“智能無人系統(tǒng)實(shí)驗(yàn)室” 關(guān)注于微小型無人機(jī)的基礎(chǔ)理論與應(yīng)用研究,面向國家和社會重大需求,專注于從事高影響力的研究工作。 實(shí)驗(yàn)室目前關(guān)注的研究領(lǐng)域包括單無人機(jī)系統(tǒng)的導(dǎo)航制導(dǎo)與控制、多無人機(jī)系統(tǒng)的協(xié)同控制與估計、以及基于視覺和多種傳感器的智能感知系統(tǒng)。 實(shí)驗(yàn)室具有一流的科研設(shè)施、完善的工作條件、活躍的科研氛圍。 目前實(shí)驗(yàn)室已有十幾名優(yōu)秀團(tuán)隊(duì)成員,分別來自國內(nèi)外著名高校。 此外,實(shí)驗(yàn)室具有高精度VICON室內(nèi)定位系統(tǒng)、一系列空中和地面機(jī)器人平臺、GPU計算服務(wù)器、3D打印機(jī)等設(shè)施,為開展相關(guān)研究和實(shí)驗(yàn)奠定了良好基礎(chǔ)。
2025-09-11 10:41
2025-09-09 10:52
2025-09-04 21:58
2025-08-28 11:13
2025-08-27 14:14
2025-08-26 13:50
2025-08-23 20:37
2025-08-22 10:33
2025-08-18 14:20
2025-08-13 11:12