基因表達數(shù)據(jù)分析和處理關(guān)鍵技術(shù).pdf_第1頁
已閱讀1頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基因表達水平是衡量基因功能活動的重要指標?;虮磉_的信息是理解基因功能和基因調(diào)控的潛在機制的一個重要線索?;蛐酒ㄎ㈥嚵校┚哂性趩我坏膶嶒炛胁⑿械貦z測任何細胞或組織類型中成千上萬個基因的表達水平的能力,已經(jīng)成為生物學(xué)和醫(yī)學(xué)研究領(lǐng)域中常用的技術(shù)。隨著微陣列的成熟和大量使用,產(chǎn)生了大量的基因表達數(shù)據(jù)?;虮磉_數(shù)據(jù)不同于常見的科研數(shù)據(jù),有其獨特的特點:小樣本、超高維、高噪音、變異性、基因間高冗余和高度關(guān)聯(lián)、基因的知識不精確和不完全。這些特點

2、使得對基因表達數(shù)據(jù)的分析和處理成為生物信息學(xué)領(lǐng)域中的一個重要挑戰(zhàn)之一。本文針對基因表達數(shù)據(jù)的分析和處理技術(shù)進行了研究,主要研究成果如下:
  由于多種原因,基因表達數(shù)據(jù)(微陣列數(shù)據(jù))中經(jīng)常出現(xiàn)缺失值,對缺失數(shù)據(jù)的處理是基因表達數(shù)據(jù)處理和分析中的一個重要的步驟。本文提出一個基于偏最小二乘方法的缺失數(shù)據(jù)估計方法,并且針對應(yīng)用偏最小二乘方法是為了預(yù)測缺失數(shù)據(jù)這唯一目的,提出了一個快速的缺失數(shù)據(jù)估計算法。由于偏最小二乘方法有兩個顯著的優(yōu)點

3、:一對變量和樣本的數(shù)目沒有限制,二可以有效地減少相似基因間的多重相關(guān)性對預(yù)測能力的負面影響,本文所提出的方法適合處理微陣列數(shù)據(jù)。實驗結(jié)果表明所提出的方法是一個有效的穩(wěn)健的缺失數(shù)據(jù)估計方法。
  在基因表達數(shù)據(jù)分析中,鑒別基因是后續(xù)研究中非常重要的信息基因,有很多研究致力于從基因表達數(shù)據(jù)中選出信息基因這一挑戰(zhàn)性工作。然而這些方法都沒有考慮不同樣本類別中樣本大小的不平衡性問題??紤]樣本不平衡性和基因選擇方法的穩(wěn)定性,提出兩個全新的與數(shù)

4、據(jù)分布模型無關(guān)的基因選擇方法。在類內(nèi)變化小和類間差別大的策略下,選擇敏感的度量函數(shù)提高方法的鑒別能力;同時,利用類內(nèi)變化和類間差別的一致性來增加方法的穩(wěn)定性和適用性。這一方法不但可以應(yīng)用于兩個類別的情況,也可以應(yīng)用于多個類別的情況。最后,使用兩組真實的基因表達數(shù)據(jù)對所提出的方法進行了驗證。實驗結(jié)果表明,這一方法比其他方法具有更高的有效性和穩(wěn)健性。
  精確可靠的樣本分類是基因表達數(shù)據(jù)分析中的一個重要問題。利用支持向量機方法在解決小

5、樣本、非線性、高維模式識別問題中的優(yōu)勢,同時利用樹型結(jié)構(gòu)的層次關(guān)系克服支持向量機方法本身沒有生物學(xué)意義的缺陷,本文提出了基于類別樹和支持向量機的多類分類算法,完全不同于單獨考慮每個類的方法。這一方法考慮類別樣本間的相互關(guān)系,充分利用類別標簽這一先驗知識構(gòu)建一棵樣本類別樹,然后沿著樹進行基因選擇。最后由類別樹和選出的基因訓(xùn)練基于支持向量機的分類器。我們的算法要處理的樣本少,時間復(fù)雜性低,分類精度更高,選出的基因子集具有更好的針對性,結(jié)合樹

6、的層次關(guān)系,提供了更強的生物學(xué)意義。本文提出的算法用一個公共可得到的真實數(shù)據(jù)集進行了測試,結(jié)果表明分類能力優(yōu)于先前證實表現(xiàn)最好的OVA方法。
  識別差異表達基因是基因表達數(shù)據(jù)分析中的一個核心問題,很多研究人員提出了多個差異表達基因的識別方法,然而沒有一個方法考慮了樣本不平衡問題,也沒有研究和數(shù)量化的方法來調(diào)查樣本不平衡對差異表達基因檢測的影響。事實上,樣本不平衡經(jīng)常出現(xiàn)在基因表達數(shù)據(jù)中。本文提出一個新穎的問題,即樣本不平衡對識別

7、差異表達基因的影響。本文給出兩個基于統(tǒng)計抽樣的評價模型來研究這一問題,并且在真實數(shù)據(jù)和模擬數(shù)據(jù)上比較六個典型的方法性能。研究結(jié)果表明,隨著不平衡程度的增加,差異表達基因的識別效果越來越差,并且不同的方法受樣本不平衡的影響的差異程度很大,差異表達基因的研究中有必要考慮樣本不平衡問題。所提出的評價模型和研究結(jié)果可以用來幫助設(shè)計微陣列實驗,也可以用來選擇合適的方法來處理樣本不平衡的數(shù)據(jù)。
  樣本個體中生物學(xué)和遺傳學(xué)的變異性會影響基因的

8、表達水平,進而導(dǎo)致這個基因在樣本中不穩(wěn)定的表達。這種表達不穩(wěn)定的基因是探索潛在的生物學(xué)奧秘和癌癥起因的重要線索。本文提出一個新穎的問題,即通過集成分析來自相同研究問題的不同數(shù)據(jù)集來識別表達不穩(wěn)定的基因。我們把這一問題形式化為一個非線性整數(shù)(0-1)規(guī)劃問題,優(yōu)化目標是最大化所構(gòu)造的多維目標函數(shù),其優(yōu)化解是一個多維二元向量,其中每個維度對應(yīng)于一個特定的基因。三個近似的算法被提出來求解這一非線性整數(shù)優(yōu)化問題,進一步地我們設(shè)計了一個統(tǒng)計量來度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論