2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)名詞解釋名詞解釋1.1.HomologyHomology(同源同源):):來源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一來源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。定是同源序列。2.thologs2.thologs(直系同源):(直系同源):指由于物種形成的特殊事件來自一個(gè)共同祖先的不同物種中的同源序列,它們具有相似的功能。3.

2、ParalogsParalogs(旁系(并系)同源(旁系(并系)同源):指同一個(gè)物種中具有共同祖先,通過基因復(fù)制產(chǎn)生的一組基因,這些基因在功能上的可能發(fā)生了改變?;驈?fù)制事件是促進(jìn)新基因進(jìn)化的重要推動(dòng)力。4.XenologsXenologs(異同源異同源):通過橫向轉(zhuǎn)移,來源于共生或病毒侵染而產(chǎn)生的相似的序列,為異:通過橫向轉(zhuǎn)移,來源于共生或病毒侵染而產(chǎn)生的相似的序列,為異同源。同源。5.Identity5.IdentitySceSce

3、:TheThesumsumofofthethenumbernumberofofidenticalidenticalmatchesmatchesconservativeconservative(high(highscing)scing)substitutionssubstitutionsininasequencesequencealignmentalignmentdivideddividedbybythethetotaltotalnumb

4、ernumberofofalignedalignedsequencesequenceacters.acters.GapGap總是不計(jì)入總數(shù)中。總是不計(jì)入總數(shù)中。6.6.點(diǎn)矩陣(點(diǎn)矩陣(dotdotmatrixmatrix):構(gòu)建一個(gè)二維矩陣,其X軸是一條序列,Y軸是另一個(gè)序列,然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置(x,y)加點(diǎn),如果兩條序列完全相同則會(huì)形成一條主對(duì)角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線;如果完全沒有相似性則不能連成直

5、線。7.E值:得分大于等于某個(gè)分值值:得分大于等于某個(gè)分值S的不同的比對(duì)的數(shù)目在隨機(jī)的數(shù)據(jù)庫搜索中發(fā)生的可能的不同的比對(duì)的數(shù)目在隨機(jī)的數(shù)據(jù)庫搜索中發(fā)生的可能性。性。衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列(query)相匹配的隨機(jī)或無關(guān)序列的概率,E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小,也即相似性越能反映真實(shí)的生物學(xué)意義,E值越接近零,越不可能找到其他匹配序列。8.P值:得分為所要求的分值比對(duì)或更好的比

6、對(duì)隨機(jī)發(fā)生的概率。它是將觀測(cè)得到的比對(duì)得分S,與同樣長(zhǎng)度和組成的隨機(jī)序列作為查詢序列進(jìn)行數(shù)據(jù)庫搜索進(jìn)行比較得到的HSP(高分片段對(duì))得分的期望分布聯(lián)系起來計(jì)算的。通常使用低于0.05來定義統(tǒng)計(jì)的顯著性。P=1eE9.打分矩陣(打分矩陣(scingscingmatrixmatrix):):在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論(如考慮核酸和氨基酸之間的類似性)和實(shí)際進(jìn)化距離(如PAM)兩類方法是序列相似性分析的基礎(chǔ),其不

7、同的選擇將會(huì)出現(xiàn)不同的分析結(jié)果。10空位(空位(gapgap):):在序列比對(duì)時(shí),由于序列長(zhǎng)度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最佳比對(duì)結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。11.NCBI:美國(guó)國(guó)家生物技術(shù)信息學(xué)中心,屬于美國(guó)國(guó)立醫(yī)學(xué)圖書館的一部分,具有BLASTEntrezGenBank等工具,還具有PubMed文獻(xiàn)數(shù)據(jù)庫。另外還具有GenomedbESTdbGSSdbSTSMMDBOMIMUniGeneTax

8、onomyRefSeqetc.12.FASTA12.FASTA序列格式序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有大于號(hào)()開始的核苷酸或者氨基酸序列的新文件,其中大于號(hào)后可以跟上序列的相關(guān)信息,其他無特殊要求。13g13genbankenbank序列格式序列格式:是GenBank數(shù)據(jù)庫的基本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分:第一部分包含整個(gè)記錄的信息(描述符);第二部分包含注釋,主要包含生

9、物功能或數(shù)據(jù)庫信息;第三部分是feature,對(duì)序列的注釋;第四部分是序列本身,以“”結(jié)尾。3則表現(xiàn)出一定的相似性。2.whythethereliabilityreliabilityofofproteinproteinalignmentalignmentisishigherhigherthanthanthatthatofofDNADNA(1)核酸序列有四種堿基構(gòu)成,當(dāng)用兩條核酸序列比對(duì)時(shí)出現(xiàn)隨機(jī)匹配的概率是25%,而蛋白序列由20種氨基

10、酸序列組成,當(dāng)用兩條蛋白序列比對(duì)時(shí)出現(xiàn)隨機(jī)匹配的概率是5%,因此用核酸序列比對(duì)時(shí)出現(xiàn)假陽性概率比較大,可靠性差。(2)密碼子的簡(jiǎn)并。由于密碼子存在簡(jiǎn)并現(xiàn)象,導(dǎo)致密碼子的變化不一定會(huì)導(dǎo)致氨基酸的變化,即一個(gè)氨基酸可以有多個(gè)密碼子,因而在進(jìn)化過程中蛋白質(zhì)序列比核酸序列更為保守,采用蛋白序列比對(duì)更具有實(shí)際的意義。(3)當(dāng)序列相似性很高時(shí)可以選擇DNA序列進(jìn)行比對(duì)。3.PAM矩陣的假設(shè)條件及PAM1與PAM250的關(guān)系。(1)假設(shè)條件:a.臨近

11、突變獨(dú)立。相鄰位置的突變是獨(dú)立的互不影響的。b.進(jìn)化歷程的獨(dú)立。每個(gè)位點(diǎn)的突變概率僅由當(dāng)前狀態(tài)決定。c.位置獨(dú)立。某個(gè)氨基酸突變?yōu)榱硪粋€(gè)氨基酸僅有這兩個(gè)氨基酸決定。(2)基于進(jìn)化的點(diǎn)突變模型,如果兩種氨基酸替換頻繁,說明自然界接受這種替換,那么這對(duì)氨基酸替換得分就高。一個(gè)PAM就是一個(gè)進(jìn)化的變異單位即100個(gè)氨基酸中有1個(gè)發(fā)生可能被自然選擇接受的突變改變。PAM250則是PAM1自乘250次后得到的,即100個(gè)氨基酸中發(fā)生250個(gè)可被自

12、然選擇接受的點(diǎn)突變,但這并不意味250次PAM后,每個(gè)氨基酸都發(fā)生變化,最后仍然具有20%的相似性,因?yàn)槠渲幸恍┪恢每赡軙?huì)經(jīng)過多次突變,甚至可能會(huì)變回到原來的氨基酸;PAM1常用于近緣序列(85%),而PAM250用于相似度為20%左右的的遠(yuǎn)緣序列。(3)PAM1PAM250生物學(xué)意義:PAM250矩陣適用于20%一致性的的遠(yuǎn)相關(guān)蛋白的比對(duì),而PAM1適用于85%的近緣序列,說明了生物進(jìn)化是朝著趨異進(jìn)化的,但總能彼此保持一定的相似性。P

13、AMPAM120:120:40%40%similarsimilarPAMPAM80:80:50%50%similarsimilarPAMPAM60:60:60%60%similarsimilar(4)PAM矩陣的局限性:BasicBasicassumption:assumption:NoNocrelationscrelationsininexchangeexchangefrequenciesfrequenciesbetweenbetwe

14、enneighbingneighbingsites.Structuralsites.Structuralanalysisanalysishashasconfirmedconfirmedroleroleofofneighbingneighbingresiduesresiduesinin3D3Dstructurestructure。DifferentDifferentsitessiteswithinwithinproteinsprotein

15、sshowshowdifferentdifferentlevelslevelsofofvariabilityvariability;AphylogeicphylogeictreetreemustmustbebeconstructedconstructedfirstfirstimplyingimplyingsomesomecircularitycircularityininthetheanalysisanalysisTheTheigina

16、liginalPAM1PAM1matrixmatrixwaswasbasedbasedononalimitedlimitednumbernumberofoffamiliesfamiliesnotnotnecessarilynecessarilyrepresentativerepresentativeofofallallproteinproteinfamiliesfamilies4.此矩陣與PAM矩陣的比較:相同之處是都在打分矩陣中使用對(duì)

17、數(shù)比值;執(zhí)行雙序列比對(duì)時(shí)都基于查詢序列和匹配序列的一致程度,然后選擇矩陣。(1)PAM矩陣是建立在一個(gè)進(jìn)化突變模型的基礎(chǔ)上,他認(rèn)為aa的突變是一個(gè)馬爾科夫的過程,即每個(gè)位點(diǎn)的aa突變是相互獨(dú)立的,且與該位點(diǎn)以前的突變無關(guān);而BLOSUM矩陣沒有明確的進(jìn)化模型,他根據(jù)同一蛋白家族中序列保守的aa模塊中觀察到的替換情況得到。(2)用于產(chǎn)生矩陣的蛋白質(zhì)家族及多肽鏈數(shù)目,BLOSUM比PAM大約多20倍結(jié)果將更加可靠。(3)PAM基于全局比對(duì)得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論