2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、作為一類求解序貫決策問題的重要方法,強(qiáng)化學(xué)習(xí)因其獨(dú)特的無教師自主學(xué)習(xí)機(jī)制而倍受關(guān)注。盡管強(qiáng)化學(xué)習(xí)近年來已取得了較大進(jìn)展,但在求解具有連續(xù)狀態(tài)和動(dòng)作空間的實(shí)際問題時(shí)仍面臨諸多挑戰(zhàn),例如易遭受維數(shù)災(zāi)難和學(xué)習(xí)效率不高。為此,本文對(duì)連續(xù)空間強(qiáng)化學(xué)習(xí)展開研究,主要工作和創(chuàng)新概述如下:
  (1)針對(duì)現(xiàn)有線性局部逼近時(shí)域差分(Temporal Difference,TD)學(xué)習(xí)算法大多不能對(duì)連續(xù)狀態(tài)空間自適應(yīng)表示和對(duì)連續(xù)動(dòng)作策略精確求解兩大問題

2、,提出一種增量最近鄰TD學(xué)習(xí)框架,并就各關(guān)鍵部分給出多種定義方案。所提框架建立在相鄰狀態(tài)的值函數(shù)與策略通常具有較高的相似性這一規(guī)律之上,通過在線選取部分觀測(cè)狀態(tài)構(gòu)建稀疏化詞典,并采用局部加權(quán)學(xué)習(xí)實(shí)現(xiàn)值函數(shù)和連續(xù)策略逼近,可同時(shí)用于離散和連續(xù)動(dòng)作空間策略學(xué)習(xí)。理論分析與仿真實(shí)驗(yàn)表明,該框架不僅具有簡(jiǎn)單、高效、開放、易于理解等優(yōu)點(diǎn),而且具有較為可靠的收斂保證。
  (2)針對(duì)現(xiàn)有基于核的最小二乘TD算法不能在線稀疏化且未考慮過擬合兩大

3、問題,提出三種基于核的在線稀疏化遞歸最小二乘TD(Recursive Least-Squares TD,RLSTD)算法,分別稱作OSKRLSTD-L2、OSKRLSTD-L1和OSMKRLSTD-L2算法。三種算法均使用了最優(yōu)化Bellman投影算子、在線稀疏化、正則化、RLS和滑動(dòng)窗口技術(shù),不但可以簡(jiǎn)化推導(dǎo)、自動(dòng)實(shí)現(xiàn)狀態(tài)空間表示、避免過擬合和減輕噪聲影響,而且可以減少計(jì)算開銷和存儲(chǔ)開銷。此外,在OSKRLSTD-L1算法中,還提出了

4、一種不動(dòng)點(diǎn)子迭代和在線修剪子算法,較好地解決了L1正則化難以在線實(shí)現(xiàn)這一問題,有助于獲得更加稀疏的狀態(tài)空間表示;在OSMKRLSTD-L2算法中,首次引入了多核最小二乘技術(shù),進(jìn)一步提高了算法的逼近能力。
  (3)針對(duì)現(xiàn)有連續(xù)動(dòng)作空間Actor-Critic(AC)算法收斂速度與收斂質(zhì)量不高這一問題,通過對(duì)傳統(tǒng)高斯策略的局限性進(jìn)行分析,提出AC算法的低效主要源于傳統(tǒng)高斯策略缺乏貪婪性這一觀點(diǎn)。在此基礎(chǔ)上,提出一種面向一維連續(xù)動(dòng)作空

5、間的對(duì)稱擾動(dòng)采樣AC算法框架,每時(shí)間步通過對(duì)稱高斯擾動(dòng)生成兩個(gè)備選動(dòng)作與環(huán)境并行交互,然后基于二者的最大TD誤差貪婪選取行為動(dòng)作并對(duì)值函數(shù)參數(shù)更新,再基于二者的常規(guī)或自然策略梯度平均值對(duì)策略參數(shù)更新。隨后,分析該框架的時(shí)間復(fù)雜度和空間復(fù)雜度,證明其集成的四種AC算法的收斂性,并仿真驗(yàn)證各算法的有效性。鑒于該框架每時(shí)間步需要與環(huán)境交互兩次,為此接著提出一種∈-貪婪高斯策略和兩種與之相匹配的兼容AC算法框架。該策略首次將∈-greedy策略

6、和傳統(tǒng)高斯策略結(jié)合起來,對(duì)N維連續(xù)動(dòng)作空間,每時(shí)間步首先采用對(duì)稱擾動(dòng)生成2N個(gè)備選動(dòng)作,然后采用∈-greedy策略基于優(yōu)勢(shì)函數(shù)選取行為動(dòng)作。最后,從理論上和實(shí)驗(yàn)上對(duì)所提策略和兼容框架進(jìn)行了分析與驗(yàn)證。
  (4)針對(duì)強(qiáng)化學(xué)習(xí)算法采用固定標(biāo)量步長(zhǎng)導(dǎo)致學(xué)習(xí)性能難以提高這一問題,從二階梯度下降法視角對(duì)RLSTD算法重新解讀,提出一種新的向量步長(zhǎng)自適應(yīng)算法,并將其應(yīng)用到線性 TD(0)、Sarsa和 Q-learning算法之中。在所提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論