對于系統(tǒng)發(fā)育譜法聚類算法的改進.pdf_第1頁
已閱讀1頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著高效、自動化的測序技術(shù)的出現(xiàn),生物信息學(xué)的中心課題,已經(jīng)從對基因的測序,轉(zhuǎn)移至對已測序基因的分析,主要是對基因功能的研究及注釋。由于同源性方法的自身缺陷問題及精度問題,人們開始逐漸重視非同源性方法。非同源性方法主要是通過序列的屬性對歸類,進而進行功能預(yù)測。系統(tǒng)發(fā)育譜法在眾多非同源性方法應(yīng)用中應(yīng)用最為廣泛。
  系統(tǒng)發(fā)育譜法于1999年由Pellegrini提出,隨后眾多學(xué)者從基因參照組選擇、系統(tǒng)發(fā)育譜構(gòu)建、譜相似性分析這三方面

2、對其改進。本文在這些基礎(chǔ)之上,先構(gòu)建基于權(quán)重的系統(tǒng)發(fā)育譜,之后交替使用層次聚類法與K均值聚類法進行相似性分析。在譜相似性分析階段,提出兩點改進:一是提出一種新的距離,用于層次聚類法的聚類階段。二是從層次聚類法中提取更多信息,為K均值聚類法提供初始信息,更充分的利用層次聚類法的結(jié)果,使得K均值聚類法的結(jié)果更準(zhǔn)確。
  目前在聚類算法中,主要應(yīng)用的是歐式距離。因為所處理的樣本大都屬于歐式空間,所以采用歐式距離聚類可以得到不錯的效果。本

3、文所采用的距離,是一種非歐空間距離。相比歐式距離,它強化了已知信息對樣本距離的影響。它不僅考慮樣本之間的距離,還考量了樣本與參照系樣本的距離。使用這種新的距離,可以使人們優(yōu)先處理與已知參照系相近的樣本。
  K均值聚類法的缺陷在于初始條件選取的敏感性:初始聚類數(shù)K與初始聚類目標(biāo)的選取,會對最后的聚類結(jié)果產(chǎn)生很大影響。目前對K均值算法的改進主要在初始信息的選取上。前人采用層次聚類與K均值聚類結(jié)合使用的方法,目的是利用層次法為K均值聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論