機器學習方法預測蛋白質相互作用應用Logistic回歸提高質譜多肽鑒定的準確度.pdf_第1頁
已閱讀1頁,還剩126頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、蛋白質組學成為后基因組時代的熱點學科。生物質譜、蛋白質芯片等高通量實驗技術的發(fā)明極大地推動了蛋白質組學的發(fā)展。本文致力于通過生物信息學的方法,進一步提高當前高通量實驗技術的效率和精確程度,以更低的實驗代價,獲得更加全面、準確的實驗結果。 蛋白質—蛋白質相互作用在生命過程中起著重要的作用。通過多年的生物學實驗,已經積累了大量的蛋白質相互作用數(shù)據(jù),但未知的相互作用還有很多。目前篩選蛋白質相互作用的實驗方法既耗費人力物力,而且由于豐度

2、抑制的原因而很難鑒定出低豐度的蛋白之間的相互作用。一條更簡單的途徑是通過生物信息學的方法首先用計算機篩選蛋白質數(shù)據(jù)庫,預測出潛在的蛋白質相互作用,然后再用生物學實驗進行驗證。這個策略具有比實驗手段高得多的通量,而且可以解決豐度抑制的問題。 在蛋白質—蛋白質相互作用的類型中,有相當一部分相互作用是通過蛋白質的某個結構域與其配體蛋白上的一段短肽相結合來實現(xiàn)的,這種結構域被稱為多肽識別元件(Peptide recognition mo

3、dule,PRM)。本文的第一章通過研究PRM結合多肽的結合特性,預測了蛋白質—蛋白質之間的相互作用。 以PDZ結構域為例,結合了基于結構的和基于序列的預測方法,本文建立了一個整合的預測系統(tǒng)來預測結構域和配體間的相互作用。在這個系統(tǒng)中,提取了結構域和配體三維結構上相互接觸的氨基酸殘基來代替序列全長,利用三種新型的氨基酸編碼方式,用支持向量機和人工神經網(wǎng)絡兩種機器學習算法分別建立了三個子預測系統(tǒng),最后將它們的預測結果綜合在一起。

4、 用交叉驗證的方法來評價,預測系統(tǒng)的特異性為0.99,靈敏度為0.60。然而,由于已知的一個結構域的配體通常只有幾十或幾百個,遠遠小于蛋白質數(shù)據(jù)庫的上萬個蛋白的規(guī)模,僅僅建立在少量數(shù)據(jù)上的交叉驗證的評價結果不一定能保證預測方法在篩選數(shù)據(jù)庫時的成功。為了驗證這一點,本文從Swissprot人類數(shù)據(jù)庫中為3個PDZ結構域篩選了配體蛋白序列,預測結果的相當一部分與高通量的體外實驗(peptide SPOT array)的結果重合,證明了

5、預測系統(tǒng)的泛化能力。 串聯(lián)質譜技術(MS/MS)是常用的蛋白質組學研究方法。在這個方法中,蛋白質混合物首先被酶切為多肽混合物,在質譜儀中被離子化,再經過碎裂后產生大量的二級質譜圖。數(shù)據(jù)庫檢索是常見的質譜數(shù)據(jù)處理方法。其主要思想是將實驗譜圖與數(shù)據(jù)庫中的酶切多肽的理論譜圖進行比對,通過特定的打分算法,找到匹配最佳的多肽。由于樣品和實驗原理的復雜性,質譜圖帶有很高的噪聲,為后續(xù)的數(shù)據(jù)處理工作帶來了很大的難度。目前已有多種算法用來優(yōu)化多

6、肽的鑒定,但陽性和陰性的多肽鑒定仍不能夠被完美地區(qū)分。為了保證鑒定結果的可信,就不得采用更嚴格的參數(shù)限制來去除假陽性鑒定,與此同時不可避免地產生了大量的假陰性鑒定,降低了蛋白質組學研究的效率。 本文的第二章建立了一個新的參數(shù)Oscore,對實驗譜圖與多肽的匹配進行打分。Oscore基于logistic回歸模型建立,以18個標準蛋白數(shù)據(jù)集作為學習集,可以直接地計算出譜圖與多肽的匹配為正確匹配的概率。回歸模型的自變量包括:SEQUE

7、ST軟件輸出的參數(shù)Xcorr,△Cn,Sp(preliminary score)和實驗室自制的AMASS(Sun et al.Mol Cell Proteomics.2004Dec;3(12):1194—9)軟件的輸出參數(shù)Rscore,Cont,Matchpct,以及多肽電荷數(shù)和漏切位點數(shù)(numberofmissedinternalcleavagesites)。AMASS的三個參數(shù)考慮了子離子強度和b/y系列離子的連續(xù)性的信息,有助于

8、區(qū)分陽性和陰性的多肽鑒定。由于上述的8個參數(shù)之間具有復雜的相關關系,將它們組合成Oscore可以提高鑒定的準確度。 與常用的軟件PeptideProphet相比,Oscore同時在多個數(shù)據(jù)集上表現(xiàn)出更好的特異性(低假陽性率)和靈敏度(低假陰性率)。這些數(shù)據(jù)集包括標準蛋白混合物數(shù)據(jù)集和3個蛋白質組水平的數(shù)據(jù)集,涵蓋了不同的樣品復雜度、數(shù)據(jù)庫規(guī)模和分離方式,在一定程度上表明了Oscore的泛化能力。通過一個同樣基于logistic回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論