SKAT與懲罰回歸模型聯(lián)合分析策略在遺傳關聯(lián)研究中的應用.pdf_第1頁
已閱讀1頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、背景:
  全基因組關聯(lián)研究(Genome-Wide Association Studies,GWAS)成功鑒定出許多與人類各種疾病關聯(lián)的常見遺傳變異,但能解釋的疾病遺傳風險比例仍然很低。稀有變異由于在人類進化過程中通常新近發(fā)生,尚未經受選擇壓力,更傾向于包含功能性致病位點。隨著近年來二代測序技術的快速發(fā)展,涌現(xiàn)出大量含稀有變異的遺傳關聯(lián)研究數(shù)據(jù);然而稀有變異在人群中頻率很低,導致常規(guī)統(tǒng)計方法效能低下,給統(tǒng)計分析方法的發(fā)展帶來新的

2、挑戰(zhàn)。
  早期的基因組關聯(lián)分析中,單遺傳變異關聯(lián)性檢驗受限于多重校正后的顯著性水平,要求較為苛刻,效能極低。考慮到大部分疾病相關基因里存在多個有潛在功能的遺傳變異,特別是稀有變異,將基因內變異聚集以增加其效應的負擔檢驗是處理稀有變異較為常用的一種分析策略。另一方面,以SKAT(sequence Kernel associationtest)為代表的基于個體間遺傳變異相似性的方差分量檢驗成功地解決了遺傳變異間存在的連鎖不平衡及基因

3、內變異效應方向不同等問題。但SKAT僅針對單個基因或者感興趣區(qū)域(Region ofInterest,ROI)內遺傳變異進行分析,忽略了其他基因或基因外圍所包括的信息。
  基因組遺傳關聯(lián)數(shù)據(jù)呈現(xiàn)高維狀態(tài),噪音大,共線性嚴重,在傳統(tǒng)最小二乘與似然估計基礎上引入懲罰函數(shù)是解決此類問題的有效工具之一。1996年Tibshirani提出基于懲罰思想的LASSO(least absolute shrinkage and selection

4、 operator)。Zou等在2005年提出將嶺估計和LASSO凸結合,稱為“彈性網(wǎng)(Elastic Net)”。2009年和2012年 Breheny等和 Huang等進一步提出兩水平懲罰模型cMCP(composite Minimax Concave Penalty)和Gel(The group exponential lasso),在基因和遺傳變異兩個水平上進行變量選擇,但其理論和應用仍需進一步研究。
  由于基于基因或R

5、OI的SKAT法只在組水平上進行統(tǒng)計推斷,而無法估計單個變異的效應,而常規(guī)懲罰模型(LASSO和EN)雖可估計變異效應,但不做統(tǒng)計推斷,因此本研究提出兩階段聯(lián)合分析策略,將SKAT與LASSO和EN聯(lián)合應用,優(yōu)勢互補,并與成組懲罰模型進行比較,評價各類方法及策略的性能,為遺傳關聯(lián)研究提供方法學選擇的依據(jù)和指導。
  方法:
  本研究統(tǒng)計方法選用SKAT,LASSO,EN三種方法、兩階段聯(lián)合應用策略(SKAT+EN,SKAT

6、+LASSO,EN+SKAT,LASSO+SKAT)及兩水平懲罰模型(cMCP,Gel),比較它們在基因組關聯(lián)分析、候選基因關聯(lián)分析研究中的應用性能,并將研究方法應用于lncRNA H19,HOTAIR,MALAT1和MEG3與肝癌的病例對照遺傳關聯(lián)研究實例,以說明各類方法的實際應用。
  在基因組關聯(lián)分析中,模擬數(shù)據(jù)源自遺傳分析工作組18(Genetic Analysis Workshop18,GAW18),共包括849個個體,

7、以50次模擬舒張壓作為結局變量,選取第3號染色體的遺傳變異數(shù)據(jù)(含1141個基因的532092個SNPs)作為自變量;評價指標主要有靈敏、和特異度、約登指數(shù)、選出率、相關關系的P值與相關系數(shù)
  在候選基因關聯(lián)分析中,仍采用GAW18數(shù)據(jù),以849個個體的200次模擬舒張壓作為結局變量,以模擬數(shù)據(jù)集中與舒張壓實際關聯(lián)的35個基因119個SNPs作為自變量,評價各類方法的效能;以與這些基因完全無關聯(lián)的聯(lián)系性狀Q1做為結局變量,評價各

8、類方法的I類錯誤。評價指標在基因組關聯(lián)分析指標的基礎上增加了絕對誤差與相對誤差。
  實證研究中,采用本課題組在廣東順德地區(qū)人群中研究lncRNA H19,HOTAIR,MALAT1和MEG3與肝癌關聯(lián)的病例對照數(shù)據(jù),共包含604病例和614對照的4個基因共15個SNPs的信息。
  結果:
  1.基因組關聯(lián)研究結果顯示,在基因水平上評價,SKAT的平均靈敏度最高,為0.595;SKAT+LASSO的特異度最高,平均

9、值為0.906。SKAT的約登指數(shù)最高,為0.112,其次是SKAT+EN,為0.086。在SNP水平上。EN靈敏度最高,SKAT+LASSO特異度最高,EN+SKAT的約登指數(shù)最高,為0.016。對舒張壓效應貢獻最大的實際關聯(lián)基因MAP4在各種統(tǒng)計分析策略的選出率均為最高,值與基因內的SNPs數(shù)和對DBP的解釋方差比例存在一定的統(tǒng)計學關聯(lián)。選出次數(shù)最多的SNP為48040283與47957996,位點均屬于MAP4,效應真值分別為-6

10、.22與-4.64,效應強度排名分別為第1與第5。
  2.候選基因關聯(lián)分析中,在基因水平上,EN的效能最高,為0.638;其次為LASSO,為0.616;SKAT及其聯(lián)合策略的I類錯誤最低。在SNP水平上EN效能最高,其次為LASSO。SKAT+EN與SKAT+LASSO的I類錯誤最低。此外,無論是基因水平還是SNP水平,EN+SKAT的效能雖然略低于EN法與LASSO法,但是在一類錯誤上遠低于二者。MAP4是各模型選出率最高的

11、基因,選出率與基因包含SNPs個數(shù)、解釋方差比例存在一定的統(tǒng)計學關聯(lián)。效應真值位列前3的SNPs在各模型中的選出率均屬前列,選出率與MAF值、效應真值普遍不存在統(tǒng)計學關聯(lián),但與解釋的方差比例存在關聯(lián)。不同統(tǒng)計策略的絕對誤差與相對誤差和 MAF值與方差解釋比例之間并無相關關系,而絕對誤差與系數(shù)真值均存在相關關系
  3.lncRNA與肝癌病例對照遺傳關聯(lián)研究結果顯示,傳統(tǒng)的logistic回歸僅在單因素分析時挖掘到rs1511912

12、49可能與肝癌存在關聯(lián),SKAT沒有得到有統(tǒng)計關聯(lián)的基因,而EN和LASSO分別篩選出11和10個與肝癌關聯(lián)的SNPs,其中包含rs151191249。
  結論:
  1.在樣本量不足900人的基因組關聯(lián)研究中,EN+SKAT結合的兩階段統(tǒng)計分析策略能夠從數(shù)百萬SNP中把與疾病關聯(lián)度較高的基因和SNP篩選出
  來,該策略靈敏度較高,同時假陽性錯誤的概率較低,為復雜性狀基因組關聯(lián)研究提供了一種有效的統(tǒng)計分析策略。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論