版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著第三代測序技術(shù)的普及,生物數(shù)據(jù)呈指數(shù)增長。各種生物數(shù)據(jù)庫如NCBI、EBI、DDBJ等被建立和不斷豐富,標(biāo)志著生物數(shù)據(jù)也邁入了“大數(shù)據(jù)”時(shí)代。大量的生物數(shù)據(jù)對(duì)人們處理和操縱數(shù)據(jù)的能力提出了巨大挑戰(zhàn)。在這些生物數(shù)據(jù)中最值得關(guān)注的就是生物序列,它不僅包括存儲(chǔ)遺傳信息的DNA序列、RNA序列,還有承擔(dān)生命活動(dòng)的蛋白質(zhì)序列及基因表達(dá)過程中出現(xiàn)的密碼子序列?,F(xiàn)代技術(shù)的發(fā)展使得多核、多線程的并行高性能計(jì)算設(shè)備可以有效的應(yīng)對(duì)大量數(shù)據(jù)和大量計(jì)算帶來
2、的挑戰(zhàn)。其中,支持統(tǒng)一設(shè)備架構(gòu)(Compute Unified Device Architecture,CUDA)的圖形處理器(Graphics Processing Unit,GPU)在并行處理大量計(jì)算的任務(wù)中表現(xiàn)良好,被廣泛應(yīng)用于科學(xué)計(jì)算、生物計(jì)算、物理模擬、天文預(yù)測等多個(gè)領(lǐng)域。支持CUDA的GPU擁有數(shù)以千計(jì)的計(jì)算單元,可通過并行處理大量計(jì)算任務(wù)來節(jié)省可觀的運(yùn)算時(shí)間。CUDA的這個(gè)優(yōu)勢(shì)對(duì)于動(dòng)輒數(shù)十小時(shí)甚至數(shù)天的生物計(jì)算任務(wù)來說,具
3、有十分重要的實(shí)踐意義。基于此優(yōu)點(diǎn),我們可利用支持CUDA的GPU來對(duì)生物信息學(xué)算法進(jìn)行并行化改進(jìn),以此來降低算法的運(yùn)算時(shí)間。之后,我們搭建了一個(gè)可集成并行化架構(gòu)的生物信息學(xué)平臺(tái),通過使用平臺(tái)集成的并行化工具和其他常用生物信息學(xué)軟件可提高生物信息學(xué)研究的效率。
本研究主要內(nèi)容包括:⑴提出并實(shí)現(xiàn)了基于支持CUDA的GPU的密碼子偏差系數(shù)模型并行化方法。密碼子使用偏性(Codon Usage Bias,CUB)是廣泛存在于生物界的特
4、性。對(duì)于密碼子使用偏性有多個(gè)評(píng)價(jià)指數(shù),現(xiàn)存的一些指數(shù)由于考察方面不同而存在不同的局限性,如依賴參考集、缺乏統(tǒng)計(jì)重要性估計(jì)或缺乏考慮有效背景核苷酸組分等。密碼子偏差系數(shù)模型(Codon Deviation Coefficient,CDC)彌補(bǔ)了上述不足,但其在對(duì)大量的序列數(shù)據(jù)分析密碼子使用偏性時(shí)耗時(shí)較長。本文在CDC的基礎(chǔ)上將其進(jìn)行并行化改進(jìn),通過對(duì)CDC算法流程分析將算法劃分為各個(gè)子模塊,并在子模塊上進(jìn)行數(shù)據(jù)依賴性分析、時(shí)間分析,篩選出
5、適合并行的子模塊對(duì)其進(jìn)行并行化改進(jìn)。同時(shí),我們對(duì)原算法中使用的一些數(shù)據(jù)結(jié)構(gòu)做相應(yīng)修改,并使用了CURAND API來解決并行隨機(jī)數(shù)問題,這些改進(jìn)和措施很好的解決了并行化和串行化間的差異,使得算法使用的數(shù)據(jù)能被GPU更快速更容易的訪問。之后,我們用CUDA-C語言實(shí)現(xiàn)了并行化的CDC算法。通過并行方法和串行方法的時(shí)間對(duì)比,我們觀察到并行方法在不同數(shù)據(jù)量大小的數(shù)據(jù)上獲得了約為38~398倍的加速比,且在一定范圍內(nèi)數(shù)據(jù)量越大加速比越高。最后,
6、通過加速比分析,驗(yàn)證了現(xiàn)有加速比的正確性。⑵支持并行化的生物信息學(xué)平臺(tái)的搭建。當(dāng)今生物信息處理軟件和工具比比皆是,各種生物數(shù)據(jù)和生物信息數(shù)據(jù)庫都可以輕松的借助于互聯(lián)網(wǎng)訪問。集成化的生物信息學(xué)平臺(tái)可提高生物信息學(xué)研究效率。目前多數(shù)生物信息學(xué)平臺(tái)都采用可視化的web界面來調(diào)用生物信息學(xué)工具,避免了工具復(fù)雜的命令行使用方式。但大多平臺(tái)只集成了普通的串行化工具,且不具備中文界面,借助平臺(tái)的生物信息學(xué)研究仍需花費(fèi)大量時(shí)間,且這些平臺(tái)不利于國內(nèi)用戶
7、使用。因此,我們使用python和XML語言對(duì)開源項(xiàng)目galaxy進(jìn)行修改和二次開發(fā),搭建了一個(gè)開放易用的本地化的生物信息學(xué)平臺(tái),并將平臺(tái)與并行化架構(gòu)結(jié)合起來。通過改寫源代碼、編寫配置文件等方式使生物信息學(xué)平臺(tái)可以調(diào)用之前實(shí)現(xiàn)的并行化CDC算法程序和其他并行化工具,從而用戶可以直接通過web界面來使用支持CUDA的GPU進(jìn)行并行計(jì)算。使用平臺(tái)的并行化工具可提升研究效率,用戶也能方便的利用平臺(tái)集成的各種工具如數(shù)據(jù)獲取、格式轉(zhuǎn)換、數(shù)據(jù)處理、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 56057.密碼子使用偏性研究及其在基因芯片設(shè)計(jì)中的應(yīng)用
- 56322.影響基因組密碼子使用的因素分析
- 果蠅基因組中內(nèi)含子數(shù)目與密碼子使用偏性的關(guān)系.pdf
- 昆蟲基因組密碼子使用及進(jìn)化分析.pdf
- 20444.基于密碼子偏性和分枝聚類的密碼子置換模型的統(tǒng)計(jì)推斷
- 同義密碼子重復(fù)序列中密碼子的使用與比較.pdf
- 46869.疾病基因密碼子使用特征分析及致病基因預(yù)測
- 基因密碼子使用和蛋白質(zhì)結(jié)構(gòu)的生物信息學(xué)分析.pdf
- 27967.原綠球藻和聚球藻密碼子使用偏好和適應(yīng)性進(jìn)化研究
- 小麥低分子量麥谷蛋白亞基分離及密碼子使用特征分析.pdf
- 耐熱堿性磷酸酶耐熱機(jī)理研究和互補(bǔ)密碼子使用關(guān)系探討.pdf
- 特定蛋白mRNA檢測芯片的設(shè)計(jì)及相關(guān)基因密碼子使用的研究.pdf
- 基于全基因組的玉米LBD轉(zhuǎn)錄因子家族分析及密碼子使用模式分析.pdf
- 菜豆金色花葉屬病毒群體遺傳學(xué)、密碼子使用及進(jìn)化分析.pdf
- 8503.密碼子使用度及rna結(jié)構(gòu)對(duì)蛋白質(zhì)折疊速率的影響
- 疾病相關(guān)的選擇性剪接基因與密碼子和互補(bǔ)密碼子的生物信息學(xué)分析.pdf
- 基于RNA-seq測序技術(shù)糜子轉(zhuǎn)錄組分析以及糜子葉綠體基因組密碼子使用模式分析.pdf
- 24918.植物線粒體基因組密碼子偏性的特征和形成原因的研究
- 基于殘基相似性和位置差異的密碼子置換模型及其應(yīng)用.pdf
- 結(jié)構(gòu)對(duì)稱蛋白的密碼子序列研究.pdf
評(píng)論
0/150
提交評(píng)論