移動機(jī)器人智能體混合式體系結(jié)構(gòu)研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-10 格式：pdf 頁數(shù)：158 大?。?.57MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩157頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本文以Pioneer 3的移動機(jī)器人單智能體體系結(jié)構(gòu)Saphira為載體，根據(jù)智能控制系統(tǒng)設(shè)計(jì)的一般結(jié)構(gòu)，從自主行為的角度研究移動機(jī)器人混合式智能體體系結(jié)構(gòu)中行為設(shè)計(jì)、行為協(xié)調(diào)和行為之間的轉(zhuǎn)換關(guān)系等問題，建立包含反應(yīng)行為控制層、慎思行為控制層和監(jiān)督管理行為控制層的水平分層的智能體結(jié)構(gòu)。根據(jù)智能控制結(jié)構(gòu)設(shè)計(jì)的一般原則，在結(jié)構(gòu)中加入判值部件，即監(jiān)督層，來監(jiān)督和協(xié)調(diào)反應(yīng)層和慎思層的執(zhí)行情況，同時融入學(xué)習(xí)的功能，一是用來學(xué)習(xí)動態(tài)環(huán)境下的適應(yīng)性行

2、為，二是通過收集樣本數(shù)據(jù)進(jìn)行訓(xùn)練/學(xué)習(xí)，建立預(yù)測模型，用來對動態(tài)障礙物進(jìn)行避障。從而提高了移動機(jī)器人在動態(tài)、未知環(huán)境下的適應(yīng)性。主要工作概括如下： 1、以移動機(jī)器人單智能體體系結(jié)構(gòu)Saphira為載體，設(shè)計(jì)了一個移動機(jī)器人混合式體系結(jié)構(gòu)。在Saphira的反應(yīng)/慎思混合式智能體體系結(jié)構(gòu)的基礎(chǔ)上，增加了一個監(jiān)督層。監(jiān)督層中設(shè)置監(jiān)督、協(xié)調(diào)和學(xué)習(xí)/進(jìn)化單元，用來監(jiān)督、協(xié)調(diào)反應(yīng)層和慎思層行為的執(zhí)行情況，并對未知環(huán)境中的行為進(jìn)行

3、學(xué)習(xí)和預(yù)測。設(shè)計(jì)了一個差值判別器，用來協(xié)調(diào)反應(yīng)和慎思行為的執(zhí)行。判別器設(shè)在監(jiān)督層的協(xié)調(diào)反應(yīng)/慎思交叉執(zhí)行的模塊中，用來存放移動機(jī)器人實(shí)際移動方向與慎思規(guī)劃方向的差值。如果差值沒有超過90°，則混合式規(guī)劃執(zhí)行的是自上而下的交叉，由慎思層啟動反應(yīng)層，來執(zhí)行所規(guī)劃的子目標(biāo)；如果差值超過90°，則執(zhí)行行為自下而上的交叉，由反應(yīng)層啟動慎思層，重新啟動全局規(guī)劃，以保證能夠獲得較好的路徑。論文還分別對未建模障礙物對慎思層規(guī)劃軌跡影響較小時、影響較大時

4、，采用反應(yīng)式結(jié)構(gòu)和采用混合結(jié)構(gòu)時的規(guī)劃結(jié)果進(jìn)行了比較。仿真結(jié)果表明，在能夠很好地協(xié)調(diào)反應(yīng)與慎思功能交叉執(zhí)行的情況下，混合式體系結(jié)構(gòu)比單純的反應(yīng)式行為在面臨不確定情況時能夠表現(xiàn)出更好的性能。 2、在慎思層中，針對全局路徑規(guī)劃行為，提出一種適合柵格地圖的簡單的規(guī)劃方法一最速下降法(Steepest Descend Method，SDM)。首先采用激光測距獲取運(yùn)行環(huán)境信息，建立柵格地圖。然后基于柵格地圖進(jìn)行SDM的設(shè)計(jì)，來滿足最短路徑

5、和避障等的需要。方法是把兩點(diǎn)之間直線最短的原理作為啟發(fā)式信息，采用類似波傳播原理的賦值方式，在起點(diǎn)柵格周圍形成不同的梯度，然后按照貪婪最佳優(yōu)先搜索的思想，從終點(diǎn)按照賦值下降最快的方向來尋找最短路徑，回溯到起點(diǎn)。針對路徑規(guī)劃問題的四個評價標(biāo)準(zhǔn)，結(jié)合仿真和實(shí)驗(yàn)結(jié)果，可以得出SDM的優(yōu)越性表現(xiàn)在： (1)在時間復(fù)雜性上非常突出，通常只經(jīng)過一次搜索就可以找到最優(yōu)路徑，求解速度快，適用于實(shí)時規(guī)劃； (2)需要的存儲空間少，只與柵格

6、地圖劃分的粗細(xì)有關(guān)，空間復(fù)雜性為D(n)，n為柵格地圖中柵格的數(shù)目； (3)對環(huán)境的復(fù)雜性不敏感，總能迅速地找到最優(yōu)解； (4)算法具有一定的可擴(kuò)展性，可以根據(jù)不同評價標(biāo)準(zhǔn)的需要，來修改賦值方法，從而形成不同的路徑搜索算法。 3、采用強(qiáng)化學(xué)習(xí)中的Q-學(xué)習(xí)(Q-Learning，QL)，提出一種通過慎思行為學(xué)習(xí)來產(chǎn)生反應(yīng)式行為的自動設(shè)計(jì)方法。這里的慎思行為是一個局部靜態(tài)最優(yōu)路徑規(guī)劃行為。學(xué)習(xí)完畢后形成控制規(guī)則，存放

7、到反應(yīng)層中，作為反應(yīng)式行為去執(zhí)行，從而實(shí)現(xiàn)了反應(yīng)層行為的設(shè)計(jì)。具體設(shè)計(jì)過程為： (1)首先對輸入/輸出空間進(jìn)行離散化，并由此構(gòu)造一個11×192大小的矩陣，Lookup-Q值表M<,Q>，用來存放執(zhí)行每個的Q值。 (2)學(xué)習(xí)時，在相同狀態(tài)下按照Boltzman公式選擇動作，并隨著學(xué)習(xí)的進(jìn)行，逐漸改變溫度T的值，從而改變動作選擇的概率，以解決探索和利用的平衡問題。 (3)對強(qiáng)化信號的設(shè)計(jì)作了較為細(xì)致的研究

8、。采用非均勻的表示方式，針對局部最優(yōu)路徑規(guī)劃任務(wù)，把強(qiáng)化信號設(shè)計(jì)成兩部分，分別用來表示與障礙物的距離信息和趨向目標(biāo)的程度。針對相同狀態(tài)下采取不同的動作所轉(zhuǎn)移的狀態(tài)，給予不同的獎懲信息，在提高學(xué)習(xí)收斂速度的同時，也保證了所學(xué)動作的最優(yōu)性。 (4)把機(jī)器人的局部路徑規(guī)劃過程建模為一個非確定性情況下的MDP，針對所設(shè)計(jì)的強(qiáng)化信號分別對相同狀態(tài)下執(zhí)行不同的動作進(jìn)行學(xué)習(xí)，利用改進(jìn)的Bellman公式更新Q值。 (5)QL結(jié)束以后把

9、M<,Q>表中每列具有最大Q值的提出來，進(jìn)行合并以后形成最優(yōu)控制規(guī)則，放到反應(yīng)層中作為反應(yīng)式行為去執(zhí)行。 (6)在不同的環(huán)境狀態(tài)下檢驗(yàn)所形成控制規(guī)則的性能。仿真結(jié)果表明：①算法不存在常規(guī)模糊控制規(guī)則中的“對稱無法確定”現(xiàn)象；②規(guī)劃較短路徑時，環(huán)境的復(fù)雜性對規(guī)劃算法的性能影響不大；③與慎思層的全局路徑規(guī)劃相結(jié)合，形成混合式規(guī)劃，可在復(fù)雜環(huán)境下規(guī)劃出任意長度的最優(yōu)路徑。 (7)算法具有易擴(kuò)展性的特點(diǎn)。當(dāng)運(yùn)行環(huán)境改變

10、較大時，利用QL繼續(xù)進(jìn)行學(xué)習(xí)。當(dāng)的Q值在Lookup表所屬的列中不再是最大時，只需要修改反應(yīng)層中相應(yīng)的控制規(guī)則，而不必重新設(shè)計(jì)所有的控制規(guī)則。 4、將滾動規(guī)劃、動態(tài)預(yù)測、靜態(tài)局部最優(yōu)的反應(yīng)式規(guī)劃等概念與方法集成，提出了一種動態(tài)未知環(huán)境下新的混合式動態(tài)避障算法。并得到了有效的仿真實(shí)驗(yàn)結(jié)果。其主要內(nèi)容為：建立動態(tài)預(yù)測模型。利用攝像鏡頭監(jiān)督動態(tài)障礙物在運(yùn)行空間中的運(yùn)行情況，并及時收集障礙物的移動軌跡，根據(jù)其散點(diǎn)圖的特點(diǎn)建立不

11、同的預(yù)測模型： a．動態(tài)障礙物在作近似直線運(yùn)動時，采用基于普通最小二乘法(Ordinary LeastSquares，OLS)的一元線性回歸模型對所采樣的最新時間序列值進(jìn)行擬合，并轉(zhuǎn)換為自回歸模型進(jìn)行預(yù)測，進(jìn)行實(shí)時避障。 b．動態(tài)障礙物作非線性隨機(jī)運(yùn)動時，采用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial BasisFunction Neural Network，RBFNN)來建立預(yù)測模型。并與通常使用的反向傳播神經(jīng)網(wǎng)絡(luò)(Back P

12、ropagation Neural Network，BPNN)預(yù)測模型進(jìn)行比較。仿真結(jié)果證實(shí)，RBFNN預(yù)測精度較高，而且學(xué)習(xí)速度很快，再結(jié)合所設(shè)計(jì)的N/M的樣本數(shù)據(jù)劃分，非常適合于非線性時間序列等系統(tǒng)的預(yù)測。 c．滾動預(yù)測混合避障。在移動機(jī)器人檢測范圍內(nèi)建立滾動窗口，只對進(jìn)入滾動窗口的動態(tài)障礙物進(jìn)行避障預(yù)測計(jì)算。每前進(jìn)一步，就更新一次滾動窗口內(nèi)的靜態(tài)障礙物和動態(tài)障礙物的位置信息。然后把動態(tài)障礙物的預(yù)測位置，轉(zhuǎn)化為“瞬時”靜態(tài)障

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

移動機(jī)器人智能體混合式體系結(jié)構(gòu)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

移動機(jī)器人智能體混合式體系結(jié)構(gòu)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載