基于集成學(xué)習(xí)算法的若干生物信息學(xué)應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩166頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、20世紀(jì)后期,由于人類等生物物種基因組學(xué)以及生物科學(xué)技術(shù)的飛速發(fā)展,生物信息發(fā)生了驚人的增長(zhǎng),這極大地豐富了生物科學(xué)的數(shù)據(jù)資源,并隨之誕生了一門新興的交叉學(xué)科:生物信息學(xué),其目的在于通過對(duì)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲(chǔ)、檢索與分析,揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義。數(shù)據(jù)挖掘技術(shù)用于在數(shù)據(jù)中發(fā)現(xiàn)潛在有用的知識(shí),在生物信息學(xué)研究當(dāng)中,正發(fā)揮著越來越重要的作用,而且取得了豐碩的成果。本文應(yīng)用集成學(xué)習(xí)方法來對(duì)生物信息中的若干問題進(jìn)行討論。本文的主體

2、工作分為四個(gè)部分: 1.用集成學(xué)習(xí)算法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和功能定位。隨著生物技術(shù)的不斷發(fā)展,越來越多的蛋白質(zhì)序列被測(cè)定出來,探索利用理論及計(jì)算方法來研究蛋白質(zhì)結(jié)構(gòu)和功能定位具有重要意義。本文從蛋白質(zhì)的一級(jí)序列出發(fā),基于氨基酸組成進(jìn)行蛋白質(zhì)序列特征編碼,使用了AdaBoost與Bagging這兩種集成學(xué)習(xí)算法來對(duì)蛋白質(zhì)的結(jié)構(gòu)類型、膜蛋白類型和蛋白質(zhì)亞細(xì)胞定位進(jìn)行預(yù)測(cè)。在建模過程中,分別使用了RandomForest,KNN和C4.5三

3、種不同的弱學(xué)習(xí)算法來作為基本分類器,并用基于10組交叉驗(yàn)證法的計(jì)算結(jié)果對(duì)建模參數(shù)進(jìn)行優(yōu)化。結(jié)果表明: (1)用AdaBoost-RandomForest算法預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)類型時(shí),預(yù)測(cè)結(jié)果良好,對(duì)于所選用的兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,其留一法預(yù)報(bào)準(zhǔn)確率分別可以達(dá)到94.18%和85.9%,優(yōu)于先前文獻(xiàn)報(bào)導(dǎo)的預(yù)報(bào)結(jié)果;(2)用AdaBoost-C4.5算法預(yù)測(cè)原核和真核蛋白亞細(xì)胞定位時(shí),其留一法預(yù)報(bào)準(zhǔn)確率分別達(dá)到91.80%和80.80%,優(yōu)于

4、先前文獻(xiàn)報(bào)導(dǎo)的預(yù)報(bào)結(jié)果;(3)用Bagging-KNN算法預(yù)測(cè)膜蛋白類型問題時(shí),其留一法預(yù)報(bào)準(zhǔn)確率可以達(dá)到84.42%,優(yōu)于先前文獻(xiàn)報(bào)導(dǎo)的預(yù)報(bào)結(jié)果。根據(jù)以上所建立的預(yù)測(cè)模型,我們同時(shí)開發(fā)了相應(yīng)的在線預(yù)報(bào)系統(tǒng)。 2.用集成學(xué)習(xí)算法研究小分子的生物功能。研究小分子生物功能,在分子生物學(xué)領(lǐng)域能幫助人類理解生命現(xiàn)象,在醫(yī)學(xué)領(lǐng)域幫助人類認(rèn)識(shí)疾病機(jī)理。由于通過實(shí)驗(yàn)來發(fā)現(xiàn)小分子的生物功能會(huì)耗費(fèi)大量的人力、物力和財(cái)力,且具有一定的盲目性和風(fēng)險(xiǎn)性

5、,因此,用集成學(xué)習(xí)方法來研究這個(gè)問題具有實(shí)際意義。本文中我們首先研究了小分子代謝途徑類型的預(yù)測(cè)問題,提出了基于官能團(tuán)組成的小分子編碼方法,用AdaBoost-C4.5算法建模,其交叉驗(yàn)證預(yù)報(bào)準(zhǔn)確率達(dá)到74.05%,對(duì)獨(dú)立測(cè)試集的預(yù)報(bào)準(zhǔn)確率達(dá)到75.11%。然后,我們又研究了小分子與酶相互作用的預(yù)測(cè)問題,用AdaBoost-C4.5算法建模,其交叉驗(yàn)證預(yù)報(bào)準(zhǔn)確率達(dá)到81.76%,對(duì)獨(dú)立測(cè)試集的預(yù)報(bào)準(zhǔn)確率達(dá)到83.35%。結(jié)果表明,集成學(xué)習(xí)

6、算法可以用來研究小分子的生物功能,所建模型有很好的預(yù)測(cè)性能。此外,我們根據(jù)所建立的小分子代謝途徑類型和小分子與酶相互作用的預(yù)測(cè)模型,同時(shí)開發(fā)了相應(yīng)的在線預(yù)報(bào)系統(tǒng)。 3.運(yùn)用集成學(xué)習(xí)算法AdaBoost來研究苯酚類化合物毒性機(jī)理預(yù)測(cè)的問題。我們從文獻(xiàn)中收集了274個(gè)苯酚化合物,計(jì)算了45個(gè)分子描述符,用基于互信息增益的CFS(Correlation-based Feature Subset)算法篩選出9個(gè)分子描述符?;谶@9個(gè)描述

7、符,我們分別以C4.5,RandomTree,RandomForest和KNN四種算法作為基本分類器建立AdaBoost模型,經(jīng)過優(yōu)化和驗(yàn)證后,最終選用C4.5為基本分類器建模。最后,又與SVM和KNN算法的預(yù)報(bào)性能做了比較,結(jié)果表明AdaBoost算法在苯酚類化合物毒性機(jī)理預(yù)測(cè)中,有良好的預(yù)報(bào)能力,其交叉驗(yàn)證和對(duì)獨(dú)立測(cè)試集的預(yù)報(bào)準(zhǔn)確率分別達(dá)到96.3%和92.8%?;谠撗芯?jī)?nèi)容,建立了相應(yīng)的在線預(yù)報(bào)系統(tǒng)。 4.使用mRMR-

8、KNN集成方法研究HIV-1蛋白酶的裂解位點(diǎn)預(yù)測(cè)。首先,使用AAindex的531個(gè)氨基酸殘基指數(shù)對(duì)8肽進(jìn)行編碼,然后使用mRMR特征篩選方法得到了500個(gè)特征。在此基礎(chǔ)上,使用改進(jìn)的Wrapper搜索方法得到了含有364個(gè)特征的子集。最后用最近鄰方法(KNN)建模預(yù)測(cè)HIV-1蛋白酶裂解位點(diǎn),其留一法測(cè)試和對(duì)獨(dú)立測(cè)試集的預(yù)報(bào)準(zhǔn)確率分別可以達(dá)到91.3%和87.3%。通過對(duì)500個(gè)特征進(jìn)行生物學(xué)分析,我們發(fā)現(xiàn):(1)P1位點(diǎn)和P2’位點(diǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論