乳腺癌組織學分級特征基因提取及基因集富集分析.pdf_第1頁
已閱讀1頁,還剩121頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、乳腺癌是女性最常見的惡性腫瘤之一,而且也是婦女惡性腫瘤主要的死亡因為之一。乳腺癌多發(fā)于西方歐美國家,盡管死亡率已經逐漸得到控制并有所下降,但發(fā)病率一直居高不下。近年來,原為乳腺癌低發(fā)區(qū)的亞洲國家發(fā)病率也呈逐年升高的趨勢。乳腺癌嚴重威脅著婦女的健康,但乳腺癌病因相當復雜,與遺傳因素、激素、免疫及各種環(huán)境因素(理化、生物因子、生活方式等)有關。
   影響乳腺癌的預后因素很多,從病理角度分析,腫瘤的組織病理學類型和組織學分級是重要的

2、預后因素。由于乳腺癌組織學分級能夠提供重要的預后信息,在臨床上早已得到醫(yī)學工作者的認可。目前應用得最廣泛的乳腺癌分級方法是B-R分級,也被稱為諾丁漢分級系統(tǒng)。這個分級方法以腫瘤細胞的形態(tài)學和細胞學特征作為評價依據,綜合腺管形成的程度、細胞核的多形性和核分裂計數3個方面的得分,將乳腺癌分為Ⅰ級(G1,高分化,生長慢),Ⅱ級(G2,中分化),Ⅲ級(G3,低分化,高度增生)惡性腫瘤。對大量病人進行的多變量分析表明,未治療G1病人的5年生存率為

3、95%,而G2和G3的乳腺癌5年生存率則分別只有75%和50%。
   腫瘤的基因組表達模式反映了腫瘤的生物學特性,基因表達譜可用于區(qū)分無法用病理學方法區(qū)別的腫瘤類型,為乳腺癌的生物學研究和預后提供了一種全新的方法。通過基因芯片表達數據可以獲得與乳腺癌組織學分級相關的分類特征,實現乳腺癌的正確組織學分類,為乳腺癌的診斷和預后提供可靠的預測依據。已有研究者利用基因芯片分析獲得了乳腺癌預后的標記基因,這種方法比傳統(tǒng)的預后標記能更準確

4、地判斷乳腺癌的預后,且在隨后的實驗中也進一步證實了結果的可靠性。然而,這些研究還存在缺陷,即預測和驗證都采用同一組數據,進一步驗證也沒有采用其他數據集。另外,基因芯片表達譜中許多被測基因與樣本的區(qū)分沒有很大關系。在分類問題中引入這些不必要的基因,將增加分類問題中樣本的維數,導致計算復雜度的增加,同時可能會產生一些不必要的噪聲數據。如果存在能將兩類區(qū)分開的較小的基因子集,將有利于生物醫(yī)學工作者專門研究這些基因的功能,了解其生物意義,開發(fā)基

5、于這些基因的價格低廉的癌癥診斷芯片。因此,特征提取是DNA微陣列研究的一個很重要的內容,通過特征提取找到足夠少的能夠進行有效分類的基因子集是非常必要的。
   不同分級對應于不同的細胞分化程度,低分化的腫瘤通常預后更差。腫瘤細胞的分化程度基于病理上的組織學分級分類,雖然低分化的腫瘤預后更差,然而其中的分子機制卻仍然不清楚。腫瘤細胞具有無限增殖維持腫瘤克隆生長的能力,這與干細胞最重要的特性之一--自我更新能力存在著驚人的相似性,表

6、明腫瘤可能起源于正常干細胞或者其祖細胞。目前已經發(fā)現很多致癌基因可以干擾正常細胞的分化,這些基因同樣也可以影響腫瘤細胞的分化。因此,控制干細胞功能的某些調控網絡,可能在某些腫瘤中也同樣發(fā)揮作用。我們通過對不同分化程度乳腺癌基因表達譜的基因集富集分析,以期發(fā)現不同分化程度的乳腺癌的基因表達差異,并能用于改善乳腺癌組織學的分級,從而更好地了解腫瘤細胞分化的分子機制及與正常胚胎干細胞是否存在聯系。
   研究內容主要分為三個部分:

7、r>   第一部分:芯片數據質量控制
   從NCBI共享數據庫GEO(http://www.ncbi.nlm.nih.gov/geo/)下載乳腺癌相關的基因芯片數據,登錄號為GSE2109、GSE5460、GSE1456和GSE3494。用dChip對芯片數據進行預處理,以總熒光強度為中位數的芯片為基準,對所有芯片進行標準化,以PM/MM模式均一化各芯片中所有基因的表達水平。同時,對有污染的芯片進行校正,還原原始芯片掃描圖像

8、,生成芯片質量報告。根據探針污染率和探針交叉雜交率判別芯片的質量,將校正后探針交叉雜交和污染仍大于5%的樣本分樣本和臨床數據缺失的樣本排除在下一步分析之外。共有676個乳腺癌芯片樣本達到質控標準,可以用于后期的數據分析,GSE2109、GSE5460、GSE1456和GSE3494分別有186、109、147和234個樣本。
   表達譜的基因表達值以2為底進行對數轉換,選擇PM-only模式分析得出各芯片中所有基因的表達水平,

9、隨后按以下標準進行過濾:0.5<標準差<1000;在>=80%樣本中表達水平>=7.00,P call>=80%。過濾后共獲得4800個探針,輸出基因×樣本的原始表達值的txt文件。用經驗貝葉斯方法對不同GSE的芯片樣本進行校正,以消除不同批次的影響造成的數據偏差。然后用jusvsn方法對芯片數據進行微陣列探針水平數據的變異穩(wěn)定化和校正處理,并通過生成散點圖、箱式圖和中值平滑圖將數據可視化,檢查歸一化的效果。結果表明,經過芯片數據預處理

10、,較好地消除了兩組芯片數據之間的差異,樣本間偏差不明顯,可以進行更深一步的分析。
   第二部分:乳腺癌組織學分級特征基因的獲得
   在開源統(tǒng)計學語言R2.9.0的環(huán)境下,讀入經過濾的芯片表達值文件,利用Bioconductor中的e1071包,與libsvm連接,用支持向量機(SVM)學習并提取表達譜中不同組織學分級的樣本特征。分別采用線性核函數(linear)、多項式核函數(polynomial)、徑向基核函數(r

11、adial basis,RBF)和神經網絡核函數(sigmoid)四種不同的核函數,以及c-classification,nu-classification,one-classification,eps-classification和no-classification五種不同的類型來比較分類效果,確定使用的核函數和類型。從GSE2109和GSE5460合并的表達譜中分別篩選出不同數量的特征基因,分別計算出分類準確率,確定最佳特征基因數。

12、用留一法交叉驗證(leave-one-out Cross-Validation,LOOCV)對提取出來的特征進行訓練和測試,以判斷測試數據的分類情況。同時,使用pamr方法對不同的組織學分級樣本進行分類,和SVM的分類結果進行比較。
   將篩選出來的基因作為一個基因集,生成樣本分類結果的柱形圖,將分類結果可視化,檢測分類效果。用ctree的算法在SVM篩選出來的特征基因中生成預測各個組織學分級的基因二分遞歸分割樹;特征基因進行

13、KEGG和GO的功能注釋和通路分析。另外,用乳腺癌基因-系統(tǒng)數據庫G2SBC(http://www.itb.cnr.it/breastcancer/index.html)進行注釋;并以GSE1456、GSE3494進行64個基因的生存分析。
   用參數為線性核函數和c-classification的SVM,留一法交叉檢驗從經過質控的芯片表達譜矩陣提取出64個特征基因,分類準確率達到97.6%,優(yōu)于pamr方法。這些基因中大多數

14、已經被實驗證明在乳腺癌中高表達,有些還可以作為乳腺癌預后的標志基因。
   第三部分:乳腺癌細胞分化基因集富集分析
   將表達值的txt文件轉換成表達譜的gct文件后,與芯片注釋文件、C2和BP基因集文件一起讀入GSEA軟件,根據樣本對應的臨床信息,生成表型數據文件,進行基因集富集分析。參數選擇1000次隨機,基因集范圍大于15個基因而小于500個基因,其他參數均為默認值。由于GSEA每次只能分析兩組樣本,因此,將三個

15、不同組織學分級的樣本G1、G2和G3,分別對應于高分化、中分化和低分化,進行兩兩比較。將人類胚胎干細胞相關的生物學通路按照GSEA通路的格式,制作成gmt格式的基因集文件。按照上述步驟,將基因集范圍最大值調整至1500個基因,其他參數不變,再用GSEA進行ES及增殖相關通路的基因富集分析。
   基因集C2、C5和芯片注釋文件HG_U133_Plus_2從分子標記數據庫(Molecular Signatures Database

16、,MSigDB)下載。C2包含了KEGG、GenMAPP、BioCarta等已知的基因通路,還包括MSigDB自身構建的一些生物通路,每條生物通路對應于一個基因集。其中,C2包含了1892個基因集。C5則是來源于GO(gene ontology)數據庫有關基因本體分析的基因集,本研究僅選用BP基因集進行分析。與干細胞相關的基因集從已發(fā)表文獻中獲得,其中包括(1)Assou等用統(tǒng)和分析方法收集人類干細胞表達譜中高表達的基因;(2)Boye

17、r等采用CHIP結合DNA芯片技術對SOX2,OCT-4,NANOG三個重要的胚胎干細胞轉錄因子調控靶基因進行了全基因組探查,列出分別受三個轉錄因子調控的所有靶基因;(3)Fernandez等采用生物信息學結合CHIP等技術對MYC調控的靶基因進行全基因組探查,列出可能受MYC調控的靶基因集;(4)Ittai Ben-Porath等對上述兩個研究的四個轉錄因子靶基因進行收集整理,并通過工具統(tǒng)一轉換成EntrezGene ID格式。另外,

18、還有polycomb靶基因,共13個基因集,7534個基因。除此之外,還加上了Ittai Ben-Porath等在GO整理出的細胞增殖和細胞周期的基因集。
   結論:通過對來源不同的乳腺癌基因表達譜分析,提取了64個與組織學分級相關的特征基因,這種方法可以提高組織學分級的準確率,具有指導預后的價值。同時,組織學分級與細胞周期、細胞分化以及預后都有著密切的關系。低分化的乳腺癌細胞與正常的胚胎干細胞存在著極高的相似性。這些結果有助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論