2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩135頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著測序技術的迅速發(fā)展和各種基因組計劃的相繼完成,數(shù)據(jù)庫中所積累的序列信息呈爆炸式增長。然而面對這些海量的由抽象字符串構成的生物序列,我們卻難以直接獲得有效的信息。因此如何發(fā)展簡單、高效的序列分析方法將會為基因組分析相關研究提供有力的理論和技術保障。本課題基于多聚體核苷酸和蛋白質序列分別提出了相應的幾何分析方法,并針對微生物基因組中蛋白質編碼基因重注釋等問題進行了深入研究,主要包括以下內(nèi)容。
   1.基于多聚體核苷酸的DNA序

2、列幾何分析方法的構建。幾何方法由于其直觀化強、簡單有效等優(yōu)點在DNA序列分析中受到廣泛重視。已有幾何方法大多基于單核苷酸構建而成,隨著功能基因組學的發(fā)展,二聯(lián)體、三聯(lián)體核苷酸等多聚體信息在基因組研究中發(fā)揮了更加重要的作用,然而由于高復雜性等原因目前基于多聚體核苷酸的幾何方法較少。本論文中,我們首先從游走模型角度分析了應用較為成功的Z曲線理論,指出了幾何方法的共性,然后根據(jù)二聯(lián)體各位點堿基的理化特性,將16種二聯(lián)體核苷酸分布于笛卡爾直角坐

3、標系的四個象限中,進而提出一種新的幾何方法(DN曲線)。該方法克服了已有二聯(lián)體模型可視化功能差的弱點,可以直觀展現(xiàn)序列中二聯(lián)體核苷酸的組成及分布信息。通過對DNA序列相似性分析及甲型H1N1病毒基因組分析的應用,結果表明該方法能夠很好地展現(xiàn)序列特征,并為今后相關研究提供了新的分析思路。與二聯(lián)體相比,三聯(lián)體核苷酸更為復雜。本論文中,我們根據(jù)三聯(lián)體各位點的堿基理化特性,將64種三聯(lián)體核苷酸分別用二維坐標(x,y)數(shù)值表示,提出了目前首個能夠

4、在可視化空間中直觀展現(xiàn)DNA序列中的三聯(lián)體組成及分布信息的幾何方法(TN曲線)。我們基于該方法提出了一系列特征參數(shù),并應用于保守基因識別、編碼/非編碼分析及DNA序列相似性分析等研究中,結果表明該方法比已有方法更可靠、提供的信息更多,且在蛋白質編碼基因中具有很好的應用價值。
   2.基于幾何方法的微生物基因組蛋白質編碼基因的重注釋。對微生物基因組中蛋白質編碼基因的預測工作已經(jīng)持續(xù)了近20年,然而越來越多的研究表明目前數(shù)據(jù)庫中廣

5、泛存在微生物基因組編碼基因錯誤注釋問題,這些錯誤數(shù)據(jù)的不斷積累將嚴重影響數(shù)據(jù)庫的質量,甚至會導致錯誤的研究結論。本課題針對該問題進行了三方面工作。第一個工作中,我們提出了改進的TN曲線并將DNA序列中6個ORF用36個數(shù)值參數(shù)定量表示。然后結合Fisher判別方法,對當前幾種較有爭議的痘病毒和古細菌基因組中錯誤注釋蛋白質編碼基因進行了識別,取得了準確率高于其他方法的預測結果。為了說明所篩選結果的可靠性,我們定義了一批數(shù)學參數(shù),并將密碼子

6、偏好分析等統(tǒng)計方法應用進來,結果表明該方法可靠性高。此外,針對幾何模型中普遍存在的人為參數(shù)設置問題,我們通過實例進行了分析討論?;谶@些研究結果,在第二個工作中,我們將TN曲線系列方法和Z曲線方法有機結合提出了一套通用的微生物基因組蛋白質編碼基因重注釋算法,并開發(fā)了首個網(wǎng)絡平臺www.cbi.seu.edu.cn/RPGM供用戶免費使用。該算法中,共有75個特征參數(shù)描述密碼子組成及分布、密碼子各位點堿基組成等信息,通過對61個微生物基因

7、組的實際應用,取得了99.94%的平均預測準確率。隨后我們分別對這75個特征參數(shù)對應的識別系數(shù)與基因組G+C含量和基因組大小之間的相互關系等問題進行了大量分析討論,結果表明這些參數(shù)能夠展現(xiàn)序列深層次信息,預測結果比已有方法準確、可靠。同時,對水平轉移基因問題的分析表明錯誤注釋的蛋白質編碼基因也是導致目前水平轉移基因預測準確率低、假陽性高的主要原因。第三個工作中,將我們提出的重注釋算法與基因從頭預測方法結合,對在環(huán)境保護和新能源領域具有重

8、要應用的硫還原地桿菌Geobacter sulfurreducens PCA蛋白質編碼基因進行重預測,結果有16個目前注釋為編碼基因的ORF被預測為非編碼序列,并有104個新基因被發(fā)現(xiàn),其中有41個用BLAST、COG等方法預測得到詳細的生物學功能。該工作避免了以往重注釋工作中伴隨的假陰性升高問題,因此為今后微生物基因組中蛋白質編碼基因欠注釋問題提供了新的研究方法。
   3.蛋白質序列幾何分析方法的構建。與DNA相比,蛋白質是

9、由20種氨基酸構成的更為復雜的字符序列,針對蛋白質序列的幾何方法起步晚、應用少。本論文中,我們提出了兩種用于蛋白質序列分析幾何方法。第一種方法中,我們將在蛋白質三維結構中具有重要作用的氨基酸靜電和疏水特性相關的理化參數(shù)融合,提出一種新的二維曲線來直觀顯示序列特征,通過與已有方法比較表明該方法具有提供信息多、可視化效果好等特點。通過將該曲線轉化為數(shù)值距離矩陣,我們提取了一系列數(shù)值參數(shù)作為蛋白質序列的定量描述符,其在不同蛋白質序列的相似性分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論