融合計算智能的蛋白質(zhì)結(jié)構(gòu)預(yù)測研究.pdf_第1頁
已閱讀1頁,還剩124頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、后基因組時代生命科學(xué)中最重大的研究課題之一是蛋白質(zhì)組研究,對蛋白質(zhì)空間結(jié)構(gòu)預(yù)測研究在整個蛋白質(zhì)組計劃中占有著極其重要的地位。蛋白質(zhì)預(yù)測結(jié)構(gòu)研究內(nèi)容包括:序列預(yù)處理、二級結(jié)構(gòu)預(yù)測、超二級結(jié)構(gòu)預(yù)測、關(guān)聯(lián)圖預(yù)測、三級結(jié)構(gòu)預(yù)測等。本文對其中的序列預(yù)處理、二級結(jié)構(gòu)預(yù)測及關(guān)聯(lián)圖預(yù)測進行了深入研究。
   蛋白質(zhì)序列由DNA序列翻譯而來,DNA序列的質(zhì)量高低決定了蛋白質(zhì)結(jié)構(gòu)預(yù)測的準確性。現(xiàn)有的DNA序列預(yù)處理工具對垃圾堿基信息的過濾和清除效率

2、不高,且隨著DNA序列長度的增加出錯概率會顯著升高。因此,本文對DNA序列的預(yù)處理進行了研究。
   BP神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中,但是BP算法有其明顯的缺陷,如訓(xùn)練速度慢、容易陷入局部極值等,這對蛋白質(zhì)二級結(jié)構(gòu)預(yù)測精度有重要影響,因此有必要對應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的神經(jīng)網(wǎng)絡(luò)算法進行改進;目前二級結(jié)構(gòu)預(yù)測研究在特征表達上有缺陷,僅僅考慮氨基酸基本組成成份,特征信息表達不完整,忽略氨基酸疏水性特征以及氨基酸之問的長程作

3、用,因此,研究基于更完善特征表達的蛋白質(zhì)二級結(jié)構(gòu)分類方法是有必要的。
   蛋白質(zhì)的三維空間結(jié)構(gòu)與其功能緊密相關(guān),目前,從蛋白質(zhì)二級結(jié)構(gòu)直接預(yù)測三維空間結(jié)構(gòu)非常困難,蛋白質(zhì)關(guān)聯(lián)圖預(yù)測是蛋白質(zhì)三級結(jié)構(gòu)和二級結(jié)構(gòu)之間的重要橋梁,因此蛋白質(zhì)關(guān)聯(lián)圖預(yù)測有著重要的研究意義。
   論文取得的主要成果與創(chuàng)新工作概括如下:
   ①提出一種新的融合智能檢測的DNA序列預(yù)處理方法,它不需要預(yù)先給出載體序列、剪接位點和克隆適配片段

4、等信息,通過統(tǒng)計分析、隨機搜索和圖操作等方法自動發(fā)現(xiàn)并定位垃圾信息。此新方法可以作為組件工具供DNA序列數(shù)據(jù)處理管道系統(tǒng)調(diào)用。
   ②提出一種用于蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的改進型動態(tài)隧道神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)具有容易陷入局部極小的缺點,動態(tài)隧道神經(jīng)網(wǎng)絡(luò)通過“鉆隧道”方式,讓目標函數(shù)跳出局部最小,找到更小的可行域,從而避免神經(jīng)網(wǎng)絡(luò)陷入局部極小。傳統(tǒng)的動態(tài)隧道技術(shù)隧道方向單一并且隨意,因此具有不穩(wěn)定性。為了有效提高動態(tài)隧道的搜索效率,提

5、出了一種改進型動態(tài)隧道神經(jīng)網(wǎng)絡(luò)算法。該算法增加搜索的隧道數(shù),引入夾角彈性系數(shù)控制隧道方向,考察隧道之間的相互影響。在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測實驗中,改進型動態(tài)隧道神經(jīng)網(wǎng)絡(luò)算法預(yù)測的效果優(yōu)于神經(jīng)網(wǎng)絡(luò)算法和傳統(tǒng)的動態(tài)隧道神經(jīng)網(wǎng)絡(luò)算法。
   ③針對氨基酸疏水性特征以及氨基酸之間的長程作用在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測中的影響進行了比較試驗分析。目前采用機器學(xué)習(xí)進行蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的方法,忽略氨基酸疏水性特征以及氨基酸之間的長程作用,因此準確率不高

6、。用氨基酸對應(yīng)的疏水能值替換蛋白質(zhì)中相應(yīng)的氨基酸,可以得到一個疏水能值的序列。實驗中發(fā)現(xiàn),用長的疏水能值序列,訓(xùn)練BP網(wǎng)絡(luò),對長程作用起主導(dǎo)的E結(jié)構(gòu)(β-折疊)的預(yù)測效果好。
   ④基于比較完善的蛋白質(zhì)特征表達提出Co-training算法。比較試驗分析表明,氨基酸的長程作用在二級結(jié)構(gòu)預(yù)測中對E結(jié)構(gòu)(β-折疊)有重要的作用。因此,提出基于Profile編碼特征和疏水能值特征兩個獨立冗余視圖的Co-training算法。該算法的

7、主要步驟為:在Profile特征空間訓(xùn)練SVM分類器,在疏水性特征空間訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)分類器,協(xié)同對氨基酸二級結(jié)構(gòu)進行預(yù)測;對SVM分類器和BP分類器有分歧的樣本,基于主動選擇思想,給予兩個分類器不同的優(yōu)先級進行仲裁。實驗表明,Co-training方法有較高的準確性,對長程作用起主導(dǎo)的E結(jié)構(gòu)(β-折疊),短程作用起主導(dǎo)的H結(jié)構(gòu)(α-螺旋)預(yù)測準確率都有提高。
   ⑤首次將馬爾科夫邏輯網(wǎng)應(yīng)用到蛋白質(zhì)關(guān)聯(lián)圖預(yù)測研究中。Marko

8、v邏輯網(wǎng)是將Markov網(wǎng)與一階邏輯相結(jié)合的一種全新的統(tǒng)計關(guān)系學(xué)習(xí)模型,該方法可以計算出世界的概率分布,進而為推理服務(wù)。本文利用該方法的這一優(yōu)點,將蛋白質(zhì)關(guān)聯(lián)圖預(yù)測問題形式化。具體采用了判別式訓(xùn)練的學(xué)習(xí)算法和MC-SAT推理算法,并詳細闡述了如何用少量的謂詞公式來描述蛋白質(zhì)關(guān)聯(lián)圖預(yù)測中不同方面的本質(zhì)特征,將Markov邏輯表示的各方面組合起來形成各種模型。實驗結(jié)果表明基于Markov邏輯網(wǎng)的蛋白質(zhì)關(guān)聯(lián)圖預(yù)測方法可以取得比基于神經(jīng)網(wǎng)絡(luò)的方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論