移動機(jī)器人智能體混合式體系結(jié)構(gòu)研究.pdf_第1頁
已閱讀1頁,還剩157頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本文以Pioneer 3的移動機(jī)器人單智能體體系結(jié)構(gòu)Saphira為載體,根據(jù)智能控制系統(tǒng)設(shè)計(jì)的一般結(jié)構(gòu),從自主行為的角度研究移動機(jī)器人混合式智能體體系結(jié)構(gòu)中行為設(shè)計(jì)、行為協(xié)調(diào)和行為之間的轉(zhuǎn)換關(guān)系等問題,建立包含反應(yīng)行為控制層、慎思行為控制層和監(jiān)督管理行為控制層的水平分層的智能體結(jié)構(gòu)。根據(jù)智能控制結(jié)構(gòu)設(shè)計(jì)的一般原則,在結(jié)構(gòu)中加入判值部件,即監(jiān)督層,來監(jiān)督和協(xié)調(diào)反應(yīng)層和慎思層的執(zhí)行情況,同時融入學(xué)習(xí)的功能,一是用來學(xué)習(xí)動態(tài)環(huán)境下的適應(yīng)性行

2、為,二是通過收集樣本數(shù)據(jù)進(jìn)行訓(xùn)練/學(xué)習(xí),建立預(yù)測模型,用來對動態(tài)障礙物進(jìn)行避障。從而提高了移動機(jī)器人在動態(tài)、未知環(huán)境下的適應(yīng)性。 主要工作概括如下: 1、以移動機(jī)器人單智能體體系結(jié)構(gòu)Saphira為載體,設(shè)計(jì)了一個移動機(jī)器人混合式體系結(jié)構(gòu)。在Saphira的反應(yīng)/慎思混合式智能體體系結(jié)構(gòu)的基礎(chǔ)上,增加了一個監(jiān)督層。監(jiān)督層中設(shè)置監(jiān)督、協(xié)調(diào)和學(xué)習(xí)/進(jìn)化單元,用來監(jiān)督、協(xié)調(diào)反應(yīng)層和慎思層行為的執(zhí)行情況,并對未知環(huán)境中的行為進(jìn)行

3、學(xué)習(xí)和預(yù)測。設(shè)計(jì)了一個差值判別器,用來協(xié)調(diào)反應(yīng)和慎思行為的執(zhí)行。判別器設(shè)在監(jiān)督層的協(xié)調(diào)反應(yīng)/慎思交叉執(zhí)行的模塊中,用來存放移動機(jī)器人實(shí)際移動方向與慎思規(guī)劃方向的差值。如果差值沒有超過90°,則混合式規(guī)劃執(zhí)行的是自上而下的交叉,由慎思層啟動反應(yīng)層,來執(zhí)行所規(guī)劃的子目標(biāo);如果差值超過90°,則執(zhí)行行為自下而上的交叉,由反應(yīng)層啟動慎思層,重新啟動全局規(guī)劃,以保證能夠獲得較好的路徑。論文還分別對未建模障礙物對慎思層規(guī)劃軌跡影響較小時、影響較大時

4、,采用反應(yīng)式結(jié)構(gòu)和采用混合結(jié)構(gòu)時的規(guī)劃結(jié)果進(jìn)行了比較。仿真結(jié)果表明,在能夠很好地協(xié)調(diào)反應(yīng)與慎思功能交叉執(zhí)行的情況下,混合式體系結(jié)構(gòu)比單純的反應(yīng)式行為在面臨不確定情況時能夠表現(xiàn)出更好的性能。 2、在慎思層中,針對全局路徑規(guī)劃行為,提出一種適合柵格地圖的簡單的規(guī)劃方法一最速下降法(Steepest Descend Method,SDM)。首先采用激光測距獲取運(yùn)行環(huán)境信息,建立柵格地圖。然后基于柵格地圖進(jìn)行SDM的設(shè)計(jì),來滿足最短路徑

5、和避障等的需要。方法是把兩點(diǎn)之間直線最短的原理作為啟發(fā)式信息,采用類似波傳播原理的賦值方式,在起點(diǎn)柵格周圍形成不同的梯度,然后按照貪婪最佳優(yōu)先搜索的思想,從終點(diǎn)按照賦值下降最快的方向來尋找最短路徑,回溯到起點(diǎn)。針對路徑規(guī)劃問題的四個評價標(biāo)準(zhǔn),結(jié)合仿真和實(shí)驗(yàn)結(jié)果,可以得出SDM的優(yōu)越性表現(xiàn)在: (1)在時間復(fù)雜性上非常突出,通常只經(jīng)過一次搜索就可以找到最優(yōu)路徑,求解速度快,適用于實(shí)時規(guī)劃; (2)需要的存儲空間少,只與柵格

6、地圖劃分的粗細(xì)有關(guān),空間復(fù)雜性為D(n),n為柵格地圖中柵格的數(shù)目; (3)對環(huán)境的復(fù)雜性不敏感,總能迅速地找到最優(yōu)解; (4)算法具有一定的可擴(kuò)展性,可以根據(jù)不同評價標(biāo)準(zhǔn)的需要,來修改賦值方法,從而形成不同的路徑搜索算法。 3、采用強(qiáng)化學(xué)習(xí)中的Q-學(xué)習(xí)(Q-Learning,QL),提出一種通過慎思行為學(xué)習(xí)來產(chǎn)生反應(yīng)式行為的自動設(shè)計(jì)方法。這里的慎思行為是一個局部靜態(tài)最優(yōu)路徑規(guī)劃行為。學(xué)習(xí)完畢后形成控制規(guī)則,存放

7、到反應(yīng)層中,作為反應(yīng)式行為去執(zhí)行,從而實(shí)現(xiàn)了反應(yīng)層行為的設(shè)計(jì)。具體設(shè)計(jì)過程為: (1)首先對輸入/輸出空間進(jìn)行離散化,并由此構(gòu)造一個11×192大小的矩陣,Lookup-Q值表M<,Q>,用來存放執(zhí)行每個的Q值。 (2)學(xué)習(xí)時,在相同狀態(tài)下按照Boltzman公式選擇動作,并隨著學(xué)習(xí)的進(jìn)行,逐漸改變溫度T的值,從而改變動作選擇的概率,以解決探索和利用的平衡問題。 (3)對強(qiáng)化信號的設(shè)計(jì)作了較為細(xì)致的研究

8、。采用非均勻的表示方式,針對局部最優(yōu)路徑規(guī)劃任務(wù),把強(qiáng)化信號設(shè)計(jì)成兩部分,分別用來表示與障礙物的距離信息和趨向目標(biāo)的程度。針對相同狀態(tài)下采取不同的動作所轉(zhuǎn)移的狀態(tài),給予不同的獎懲信息,在提高學(xué)習(xí)收斂速度的同時,也保證了所學(xué)動作的最優(yōu)性。 (4)把機(jī)器人的局部路徑規(guī)劃過程建模為一個非確定性情況下的MDP,針對所設(shè)計(jì)的強(qiáng)化信號分別對相同狀態(tài)下執(zhí)行不同的動作進(jìn)行學(xué)習(xí),利用改進(jìn)的Bellman公式更新Q值。 (5)QL結(jié)束以后把

9、M<,Q>表中每列具有最大Q值的提出來,進(jìn)行合并以后形成最優(yōu)控制規(guī)則,放到反應(yīng)層中作為反應(yīng)式行為去執(zhí)行。 (6)在不同的環(huán)境狀態(tài)下檢驗(yàn)所形成控制規(guī)則的性能。仿真結(jié)果表明:①算法不存在常規(guī)模糊控制規(guī)則中的“對稱無法確定”現(xiàn)象;②規(guī)劃較短路徑時,環(huán)境的復(fù)雜性對規(guī)劃算法的性能影響不大;③與慎思層的全局路徑規(guī)劃相結(jié)合,形成混合式規(guī)劃,可在復(fù)雜環(huán)境下規(guī)劃出任意長度的最優(yōu)路徑。 (7)算法具有易擴(kuò)展性的特點(diǎn)。當(dāng)運(yùn)行環(huán)境改變

10、較大時,利用QL繼續(xù)進(jìn)行學(xué)習(xí)。當(dāng)的Q值在Lookup表所屬的列中不再是最大時,只需要修改反應(yīng)層中相應(yīng)的控制規(guī)則,而不必重新設(shè)計(jì)所有的控制規(guī)則。 4、將滾動規(guī)劃、動態(tài)預(yù)測、靜態(tài)局部最優(yōu)的反應(yīng)式規(guī)劃等概念與方法集成,提出了一種動態(tài)未知環(huán)境下新的混合式動態(tài)避障算法。并得到了有效的仿真實(shí)驗(yàn)結(jié)果。其主要內(nèi)容為:建立動態(tài)預(yù)測模型。利用攝像鏡頭監(jiān)督動態(tài)障礙物在運(yùn)行空間中的運(yùn)行情況,并及時收集障礙物的移動軌跡,根據(jù)其散點(diǎn)圖的特點(diǎn)建立不

11、同的預(yù)測模型: a.動態(tài)障礙物在作近似直線運(yùn)動時,采用基于普通最小二乘法(Ordinary LeastSquares,OLS)的一元線性回歸模型對所采樣的最新時間序列值進(jìn)行擬合,并轉(zhuǎn)換為自回歸模型進(jìn)行預(yù)測,進(jìn)行實(shí)時避障。 b.動態(tài)障礙物作非線性隨機(jī)運(yùn)動時,采用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial BasisFunction Neural Network,RBFNN)來建立預(yù)測模型。并與通常使用的反向傳播神經(jīng)網(wǎng)絡(luò)(Back P

12、ropagation Neural Network,BPNN)預(yù)測模型進(jìn)行比較。仿真結(jié)果證實(shí),RBFNN預(yù)測精度較高,而且學(xué)習(xí)速度很快,再結(jié)合所設(shè)計(jì)的N/M的樣本數(shù)據(jù)劃分,非常適合于非線性時間序列等系統(tǒng)的預(yù)測。 c.滾動預(yù)測混合避障。在移動機(jī)器人檢測范圍內(nèi)建立滾動窗口,只對進(jìn)入滾動窗口的動態(tài)障礙物進(jìn)行避障預(yù)測計(jì)算。每前進(jìn)一步,就更新一次滾動窗口內(nèi)的靜態(tài)障礙物和動態(tài)障礙物的位置信息。然后把動態(tài)障礙物的預(yù)測位置,轉(zhuǎn)化為“瞬時”靜態(tài)障

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論