基于pairwise核的蛋白質(zhì)相互作用對稱預(yù)測研究.pdf_第1頁
已閱讀1頁,還剩142頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、蛋白質(zhì)是生命活動的直接執(zhí)行者,蛋白質(zhì)之間的相互作用是蛋白質(zhì)實現(xiàn)其功能的重要途徑之一,因此構(gòu)建蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)是了解分子生物功能、洞悉細(xì)胞生命規(guī)律的前提,也是研究生物體內(nèi)疾病的產(chǎn)生與發(fā)展、進(jìn)而從事藥物分子靶標(biāo)識別的關(guān)鍵。蛋白質(zhì)相互作用預(yù)測方法是近年來生物信息學(xué)家關(guān)注的一個熱點問題,它可以有效克服生物實驗檢測方法周期長、代價昂貴、假陽性率高的缺點。而對稱性預(yù)測、核函數(shù)的選擇

2、是基于機(jī)器學(xué)習(xí)核方法進(jìn)行蛋白質(zhì)相互作用預(yù)測的兩個關(guān)鍵因素,它直接關(guān)系到預(yù)測模型的有效性及準(zhǔn)確性。
  本文以蛋白質(zhì)相互作用的對稱性為切入點,研究了pairwise核在保證蛋白質(zhì)相互作用對稱預(yù)測方面的必要性,揭示了傳統(tǒng)核方法以及傳統(tǒng)反例數(shù)據(jù)集對蛋白質(zhì)相互作用預(yù)測的偏置影響,提出了解決偏置的方案及算法。在此基礎(chǔ)上,將無偏置預(yù)測模型應(yīng)用于大豆物種的蛋白質(zhì)相互作用預(yù)測,取得了較好的效果。
  第一,揭示了傳統(tǒng)核方法在蛋白質(zhì)相互作用預(yù)

3、測過程中對蛋白質(zhì)次序的依賴偏置,在充分分析現(xiàn)有pairwise核函數(shù)構(gòu)建規(guī)律的基礎(chǔ)上,提出了一種新的用以保證蛋白質(zhì)相互作用對稱預(yù)測的pairwise核函數(shù),并利用其構(gòu)建了一種多核組合模型,較之已有的方法,該模型具有更高的預(yù)測準(zhǔn)確率。
  蛋白質(zhì)相互作用具有典型的對稱特點,即“蛋白質(zhì)A與B相互作用”等同于“蛋白質(zhì)B與A相互作用”。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,當(dāng)?shù)鞍踪|(zhì)以順序拼接方式構(gòu)成訓(xùn)練/測試樣本時,普通核方法由于無法識別一個樣本由兩個

4、蛋白質(zhì)組成的事實,從而對蛋白質(zhì)的次序變得較為敏感,由此產(chǎn)生預(yù)測偏置。這種偏置表現(xiàn)為分類器可能產(chǎn)生“蛋白質(zhì)A與B相互作用”而“蛋白質(zhì)B與A不相互作用”的相悖結(jié)論。
  Pairwise核克服了傳統(tǒng)核以樣本作為相似度度量單位的局限,采用蛋白質(zhì)作為相似度度量單位,有效保證了蛋白質(zhì)相互作用預(yù)測的對稱性。本文強(qiáng)調(diào)了pairwise核在實現(xiàn)對稱預(yù)測方面的必要性,總結(jié)了現(xiàn)有的幾種pairwise核函數(shù)在對稱性、正定性、均衡性方面的一般特點,分析

5、、提煉了它們在改善預(yù)測性能方面的一般規(guī)律。在此基礎(chǔ)上,提出了一種新的pairwise核函數(shù)——AMPK(Arcsin Maximum Pairwise Kernel),并分別基于Cosine核、拉普拉斯核構(gòu)建了AMPK的多核組合模型,該模型在蛋白質(zhì)復(fù)合體相互作用預(yù)測中取得了比已有的核方法更優(yōu)的預(yù)測性能。
  第二,揭示了在簡單序列特征(三聯(lián)氨基酸)的傳統(tǒng)數(shù)據(jù)集上,采用pairwise核方法進(jìn)行蛋白質(zhì)相互作用預(yù)測存在嚴(yán)重偏置。提出了

6、一種構(gòu)建合理反例集的方法,從而使分類器的預(yù)測性能夠得到公正、客觀地評價。
  由于傳統(tǒng)方法所采用的正、反例數(shù)據(jù)集分別具有無標(biāo)度(scale-free)網(wǎng)絡(luò)以及隨機(jī)網(wǎng)絡(luò)性質(zhì),一部分稱之為hub結(jié)點的蛋白質(zhì)在正、反例集中出現(xiàn)次數(shù)差異較大,形成所謂“強(qiáng)勢樣本”。受訓(xùn)練集中“強(qiáng)勢樣本”的影響,pairwise核分類器傾向于將含有hub結(jié)點的測試樣本預(yù)測為正例、而將含有非hub蛋白質(zhì)的測試樣本預(yù)測為反例——這種偏置效應(yīng)在基于簡單序列特征(即

7、三聯(lián)氨基酸)的數(shù)據(jù)上表現(xiàn)得尤為明顯,從而導(dǎo)致對分類器預(yù)測性能過于樂觀的估計。
  基于此,本文提出了一種針對正例集無標(biāo)度網(wǎng)絡(luò)結(jié)構(gòu)的、以“平衡隨機(jī)采樣”方式構(gòu)建合理反例集的方法。通過保證每個蛋白質(zhì)在正、反例集中出現(xiàn)的次數(shù)基本一致來消除正、反例數(shù)據(jù)集的結(jié)構(gòu)差異。在合理反例集上,分類器的預(yù)測性能可以得到公正、客觀的評價。最后證明了復(fù)雜序列特征(Pfam域)對預(yù)測偏置的影響程度以及它在預(yù)測蛋白質(zhì)相互作用中的積極貢獻(xiàn)。
  第三,首次

8、基于新近測序的大豆基因組數(shù)據(jù),將傳統(tǒng)的同源PPI推理方法與本文的無偏置pairwise核預(yù)測模型相結(jié)合,推理、預(yù)測得到10426條大豆蛋白質(zhì)相互作用數(shù)據(jù)。
  大豆蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建是大豆基因組測序工作完成以后的一項重要任務(wù)。本文首次以大豆基因組數(shù)據(jù)為來源,采用同源PPI(interolog)推理方法與基于域特征的pairwise核預(yù)測方法相結(jié)合的方式,得到上萬條大豆蛋白質(zhì)相互作用數(shù)據(jù)。首先,以擬南芥、酵母、人類三個源物種的P

9、PI為源數(shù)據(jù),尋找它們在大豆物種中的同源PPI,據(jù)此得到大豆蛋白質(zhì)相互作用候選集;然后,提出跨物種的訓(xùn)練/測試模式,利用域及其相互作用在物種間表現(xiàn)出的保守性,在源物種數(shù)據(jù)上建立關(guān)于InterPro域的無偏置pairwise核預(yù)測模型,而后將預(yù)測模型應(yīng)用于大豆PPI候選集,以篩除其中的假陽數(shù)據(jù)。交叉驗證結(jié)果表明,預(yù)測結(jié)果具有較高的可信性,從而表明本文所采用的方法在新近測序物種的蛋白質(zhì)相互作用預(yù)測方面具有較高的參考價值。最后分析了大豆蛋白質(zhì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論