版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、人工智能是近年來(lái)很活躍的研究領(lǐng)域之一。機(jī)器學(xué)習(xí)和博弈是人工智能研究的重要分支。國(guó)內(nèi)外對(duì)博弈的研究已經(jīng)較為廣泛,特別是IBM的國(guó)際象棋程序“深藍(lán)”,已經(jīng)達(dá)到了人類的世界冠軍水平。但是這些程序或者需要經(jīng)過(guò)大量訓(xùn)練,或者采用死記硬背的學(xué)習(xí)方法,或者是采用大規(guī)模搜索算法實(shí)現(xiàn),難以避免“組合爆炸”的危機(jī),因此,一個(gè)真正“智能”的,有學(xué)習(xí)能力的高效率的博弈策略還有待進(jìn)一步研究。
本文將TD(Temporal Difference)預(yù)測(cè)與B
2、P神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到一種用于博弈的強(qiáng)化學(xué)習(xí)法,以博弈中常用的極小極大搜索法和NegeScout搜索法為基礎(chǔ),并應(yīng)用它實(shí)現(xiàn)了一個(gè)能自學(xué)習(xí)的五子棋博弈程序。該方法克服了使用靜態(tài)估值函數(shù)的不足,實(shí)踐證明,該方法是成功的,使用該方法的程序經(jīng)過(guò)較短時(shí)間的訓(xùn)練后達(dá)到了較好的下棋水平。
本文首先研究了五子棋在計(jì)算機(jī)中的表示問(wèn)題,討論了計(jì)算機(jī)中存貯棋局和識(shí)別下棋次序,局勢(shì)狀態(tài)變化及局勢(shì)特征的等方法。其次研究了博弈樹(shù)的極小極大搜索技術(shù)及在此基
3、礎(chǔ)上的α-β剪枝過(guò)程和剪枝優(yōu)化問(wèn)題。實(shí)現(xiàn)將候選的后繼節(jié)點(diǎn)按位置鄰近順序排序,使剪枝過(guò)程得到優(yōu)化。此外還研究了α-β剪枝的改進(jìn)算法NegeScout算法,此算法首先采用一小的有限α-β窗口,以確定實(shí)際估計(jì)值的范圍,再在這個(gè)較小的范圍中搜索實(shí)際的估計(jì)值。由于在較小的范圍中搜索,效率能得以提高。再次,根據(jù)五子棋的特點(diǎn),提取棋局局勢(shì)的若干特征,對(duì)這些特征賦加權(quán)分,并對(duì)整個(gè)棋局進(jìn)行特征統(tǒng)計(jì),采用一個(gè)線性函數(shù)求得棋局的總估計(jì)分值。實(shí)踐中,采用極小極
4、大搜索加此靜態(tài)估值技術(shù)的初版程序,達(dá)到了比初學(xué)者強(qiáng)的水平,一些比較熟練的業(yè)余人員時(shí)常也會(huì)負(fù)于此程序。采用固定的估值法,估值的不準(zhǔn)確使其“智力”較低,而且固定的賦值方式使其不能通過(guò)學(xué)習(xí)提高。因此我們繼續(xù)研究,利用強(qiáng)化學(xué)習(xí)法(Reiforcement Learning)設(shè)計(jì)了第二版本,具有自學(xué)習(xí)功能的五子棋程序。TD即瞬時(shí)差異預(yù)測(cè)法是指在一個(gè)對(duì)局中相鄰兩個(gè)時(shí)刻的局面的形勢(shì)判斷差值,如果這個(gè)形勢(shì)判斷函數(shù)比較準(zhǔn)確,則這個(gè)差(即瞬時(shí)差異)應(yīng)該接近
5、于0,即用后一局面的估計(jì)分值作為前一局面的實(shí)際可能估計(jì)分值。
本文中采用將TD預(yù)測(cè)法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,采用三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)設(shè)計(jì)一非線性估值函數(shù),將不同棋局特征的數(shù)目加入神經(jīng)網(wǎng)絡(luò)的輸入端,輸出端輸出對(duì)局勢(shì)的估計(jì)分值。學(xué)習(xí)過(guò)程中,按照TD預(yù)測(cè)法原理,計(jì)算網(wǎng)絡(luò)誤差,利用BP神經(jīng)網(wǎng)絡(luò)誤差傳播法,在對(duì)弈過(guò)程中,不斷調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,使其網(wǎng)絡(luò)估值準(zhǔn)確度在學(xué)習(xí)中逐步改善,提高程序的下棋水平。針對(duì)BP神經(jīng)網(wǎng)絡(luò)收斂速度慢,本文還采用
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 具有自學(xué)習(xí)功能的計(jì)算機(jī)象棋博弈系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 武器效能評(píng)估模型及其自學(xué)習(xí)的研究與實(shí)現(xiàn).pdf
- 基于機(jī)器自學(xué)習(xí)的電網(wǎng)安全校正算法研究.pdf
- 自學(xué)習(xí)紅外遙控器的設(shè)計(jì)與實(shí)現(xiàn)
- 智能調(diào)度操作票的機(jī)器自學(xué)習(xí)方法研究.pdf
- 多機(jī)器人系統(tǒng)中的運(yùn)動(dòng)控制和規(guī)劃策略自學(xué)習(xí).pdf
- 雙足步行機(jī)器人自學(xué)習(xí)控制方法研究.pdf
- 自學(xué)習(xí)算法及其應(yīng)用研究.pdf
- 情感詞網(wǎng)的自學(xué)習(xí)研究.pdf
- 基于視頻圖像的目標(biāo)自學(xué)習(xí)與定位研究.pdf
- 多機(jī)器人協(xié)作行為的自學(xué)習(xí)和自適應(yīng).pdf
- 基于機(jī)器自學(xué)習(xí)的電力系統(tǒng)超短期負(fù)荷預(yù)測(cè)研究.pdf
- 基于自學(xué)習(xí)調(diào)整Web服務(wù)端點(diǎn)行為策略的問(wèn)題研究.pdf
- 基于自學(xué)習(xí)機(jī)制的移動(dòng)社會(huì)網(wǎng)絡(luò)信息投遞策略研究.pdf
- 基于SVM的雙足機(jī)器人步態(tài)自學(xué)習(xí)控制方法.pdf
- CAPP知識(shí)獲取的自學(xué)習(xí)系統(tǒng)的研究與開(kāi)發(fā).pdf
- 基于RIMER理論的專家系統(tǒng)自學(xué)習(xí)算法的研究與實(shí)現(xiàn).pdf
- 自學(xué)習(xí)的白細(xì)胞圖像分割算法研究.pdf
- 人工魚自學(xué)習(xí)理論及方法研究.pdf
- 基于關(guān)鍵詞自學(xué)習(xí)的中文網(wǎng)頁(yè)分類技術(shù)研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論