基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法及其在系統(tǒng)生物學(xué)中的一些應(yīng)用.pdf_第1頁
已閱讀1頁,還剩126頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著社會和科學(xué)技術(shù)的不斷發(fā)展,人們正在積累越來越多的各個層次的數(shù)據(jù)和信息,但是這并沒有從根本上解決許多具有挑戰(zhàn)性的問題。最典型的例子是,二十世紀分子生物學(xué)的迅速發(fā)展只是獲得了細胞各個組分的知識,而并沒有攻克很多復(fù)雜的疾病,比如癌癥等。這意味著我們需要從系統(tǒng)的水平整合不同的知識和數(shù)據(jù),研究它們內(nèi)部的相互關(guān)系和作用,從而才能最終掌握復(fù)雜系統(tǒng)的規(guī)律,對它們進行控制和優(yōu)化。同時由于海量數(shù)據(jù)的復(fù)雜性,我們需要機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)對信息進行自動加

2、工。圖和網(wǎng)絡(luò)是表達復(fù)雜系統(tǒng)內(nèi)部不同尺度、不同組分之間相互作用和關(guān)聯(lián)的最直觀的方式。因此,我們迫切需要結(jié)合實際應(yīng)用領(lǐng)域,例如系統(tǒng)生物學(xué),發(fā)展基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法對系統(tǒng)進行研究。
   本文針對基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法,以實際分類問題和系統(tǒng)生物學(xué)中的一些應(yīng)用為驅(qū)動背景,以圖論、統(tǒng)計、優(yōu)化方法為基本工具,以數(shù)據(jù)整合為核心,以結(jié)點分類、鏈接預(yù)測、子網(wǎng)發(fā)現(xiàn)和圖匹配問題為對象和目標(biāo),對基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法進行了深入的研究。本文的主要研究內(nèi)

3、容和創(chuàng)新點包括以下幾個方面:
   1.本文綜述了基于圖和網(wǎng)絡(luò)的學(xué)習(xí)算法,介紹了系統(tǒng)生物學(xué)的定義和當(dāng)前的發(fā)展,闡述了圖和網(wǎng)絡(luò)在當(dāng)前系統(tǒng)生物學(xué)中的核心作用,指出了圖和網(wǎng)絡(luò)的方法在以系統(tǒng)生物學(xué)為代表的實際應(yīng)用中的巨大潛力。
   2.考慮基于鏈接的半監(jiān)督結(jié)點分類問題,以圖的拉普拉斯矩陣的譜變換來構(gòu)造半監(jiān)督核為目標(biāo),本文提出了一種基于圖的同時學(xué)習(xí)最優(yōu)非參數(shù)譜變換和構(gòu)建分類器的半監(jiān)督學(xué)習(xí)方法。該算法的基本思想是以最大化特征空間的

4、Fisher判別率作為譜變換圖核學(xué)習(xí)和分類器構(gòu)建的共同準(zhǔn)則,并轉(zhuǎn)化為一個半定規(guī)劃的凸優(yōu)化問題來求解。與利用核配準(zhǔn)進行半監(jiān)督核學(xué)習(xí)的算法比較,該算法不需要再進行分類器訓(xùn)練,因為分類器的學(xué)習(xí)和最優(yōu)核的構(gòu)造是同時完成的。在7個分類數(shù)據(jù)集上,該算法性能均優(yōu)于或相當(dāng)于當(dāng)前基于核校準(zhǔn)準(zhǔn)則的半監(jiān)督學(xué)習(xí)算法。
   3.考慮藥物—蛋白相互作用網(wǎng)絡(luò)的預(yù)測問題,本文以最大化集成網(wǎng)絡(luò)中結(jié)點屬性、鏈接信息以及未標(biāo)記樣本的信息為目標(biāo),提出應(yīng)用流形正則化的

5、半監(jiān)督學(xué)習(xí)算法,并利用核方法整合藥物化學(xué)分子結(jié)構(gòu)信息、蛋白質(zhì)序列信息和藥物—蛋白網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息來對未知的藥物.蛋白相互作用進行預(yù)測,從而提高了預(yù)測的精度。用我們提出的方法預(yù)測的一些藥物—蛋白相互作用已經(jīng)被最新的藥物數(shù)據(jù)庫證實。
   4.從系統(tǒng)生物學(xué)的角度出發(fā),考慮把蛋白質(zhì)—DNA和蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)整合到基因微陣列數(shù)據(jù)的分析中。為了辨識與疾病相關(guān)的基因功能模塊,本文提出了一個新的基于相互作用網(wǎng)絡(luò)的正則化項來鼓勵系數(shù)的

6、絕對值在網(wǎng)絡(luò)上的平滑,結(jié)合l1范數(shù)的稀疏特性,得到一種基于圖的彈性網(wǎng)算法,并從理論上分析了新的正則化項的數(shù)學(xué)特性,開發(fā)了一種新的求解算法,該算法具有全路徑計算的優(yōu)點。理論分析和仿真結(jié)果表明,基于圖的彈性網(wǎng)算法能得到更小的預(yù)測誤差。最后,將我們的算法應(yīng)用到一個阿爾茨海默病的微陣列基因表達數(shù)據(jù)集上,辨識出了四個與阿爾茨海默病相關(guān)的基因功能模塊。
   5.為了融合不同尺度和模態(tài)的信息,考慮把反映分子功能信息的三維熒光分子斷層掃描(F

7、MT)圖像和反映解剖結(jié)構(gòu)的CT圖像進行配準(zhǔn),從而在一幅圖像上同時表達多方面的信息。但是直接配準(zhǔn)最大直徑只有幾個毫米的腫瘤的三維FMT圖像和體長有近十厘米的整個小鼠的三維CT圖像是非常困難的。由于我們可以得到二維平面圖像跟FMT圖像的坐標(biāo)關(guān)系。因此本文提出一個新的思路,即先對FMT成像過程中得到的二維平面圖像與三維的CT圖像進行預(yù)配準(zhǔn),預(yù)配準(zhǔn)的結(jié)果再作為下一步FMT和CT三維配準(zhǔn)的初始值,這樣就減小了最終三維配準(zhǔn)時兩個對象的大小差異所導(dǎo)致

8、的配準(zhǔn)難度。在配準(zhǔn)過程中,對兩個對象分別進行分割得到點集,將問題轉(zhuǎn)化為點集圖匹配,使配準(zhǔn)完全不同模態(tài)的圖像成為可能。對于匹配的優(yōu)化算法,結(jié)合全局和局部優(yōu)化的思想,提出了兩種優(yōu)化方法:結(jié)合最小二乘進行局部搜索的序貫蒙特卡羅采樣算法;結(jié)合差分進化和把最小二乘作為另一種搜索方式的單純形法。大量的仿真實驗結(jié)果驗證了結(jié)合全局搜索和局部搜索優(yōu)化算法在減少迭代次數(shù)和尋優(yōu)能力上的優(yōu)越性。最后,在兩個實際小鼠數(shù)據(jù)上的運行結(jié)果顯示這種預(yù)配準(zhǔn)的方法為下一步三

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論