基于偏斜t混合模型的流式數(shù)據(jù)細(xì)胞類(lèi)群自動(dòng)識(shí)別算法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩135頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目的:流式細(xì)胞術(shù)是一種對(duì)大量細(xì)胞的物理和化學(xué)特性進(jìn)行快速分析的技術(shù)。通過(guò)將熒光標(biāo)記的抗體與細(xì)胞結(jié)合,并對(duì)細(xì)胞在激光照射下的光學(xué)信息進(jìn)行分析,流式技術(shù)在細(xì)胞癌變?cè)\斷、腫瘤檢測(cè)、艾滋病檢測(cè)、細(xì)胞免疫表型分析、外周血干細(xì)胞移植及育苗研制等眾多領(lǐng)域得到了廣泛應(yīng)用。然而,在目前流式技術(shù)的應(yīng)用中,流式數(shù)據(jù)的分析仍然采用人工分析方式。人工分析數(shù)據(jù)不僅效率較低,浪費(fèi)資源,而且分析結(jié)果的主觀性較強(qiáng),結(jié)果的可靠性和可重復(fù)性低。隨著流式技術(shù)向著多通道、高通量

2、方向發(fā)展,快速自動(dòng)的數(shù)據(jù)分析平臺(tái)已成為流式技術(shù)發(fā)展的迫切需求。
  流式數(shù)據(jù)分析的主要過(guò)程是對(duì)樣本中細(xì)胞群進(jìn)行劃分,即設(shè)門(mén)。人工設(shè)門(mén)方法是將多維數(shù)據(jù)逐次投影到二維空間,然后通過(guò)劃定區(qū)域?qū)⑼活?lèi)細(xì)胞歸為一類(lèi)。人工設(shè)門(mén)主要基于主觀經(jīng)驗(yàn)進(jìn)行區(qū)域設(shè)定,不僅缺乏統(tǒng)一標(biāo)準(zhǔn),而且很難準(zhǔn)確識(shí)別含有多維特征的細(xì)胞類(lèi)群。流式數(shù)據(jù)自動(dòng)設(shè)門(mén)在機(jī)器學(xué)習(xí)領(lǐng)域稱(chēng)為非監(jiān)督聚類(lèi),針對(duì)這一過(guò)程目前雖然提出了一些自動(dòng)聚類(lèi)算法,然而由于流式技術(shù)檢測(cè)樣本的多樣性,許多流式

3、數(shù)據(jù)通常包含了一部分?jǐn)?shù)量稀少且高度非對(duì)稱(chēng)分布的類(lèi)群,對(duì)于這些類(lèi)群,目前的聚類(lèi)算法無(wú)法進(jìn)行準(zhǔn)確識(shí)別。另外,由于流式技術(shù)的多參數(shù)特點(diǎn),流式數(shù)據(jù)通常包含了多個(gè)維度的特征信息。對(duì)于多維度流式數(shù)據(jù),目前的算法主要通過(guò)先將數(shù)據(jù)投影或降維到二維空間,然后進(jìn)行聚類(lèi)分析。降維或投影的過(guò)程不僅可能丟失一部分?jǐn)?shù)據(jù)特征,而且其分析過(guò)程需要人工操作,其屬于一種半自動(dòng)聚類(lèi)算法。
  綜上所述,有必要對(duì)流式數(shù)據(jù)細(xì)胞類(lèi)群自動(dòng)識(shí)別算法進(jìn)行研究,實(shí)現(xiàn)多維流式數(shù)據(jù)的直

4、接聚類(lèi)分析,尤其是數(shù)量稀少且高度非對(duì)稱(chēng)分布類(lèi)群的準(zhǔn)確分析。
  方法:本課題以流式數(shù)據(jù)細(xì)胞類(lèi)群自動(dòng)識(shí)別為目標(biāo),重點(diǎn)解決數(shù)據(jù)中數(shù)量稀少且高度非對(duì)稱(chēng)分布類(lèi)群的識(shí)別,實(shí)現(xiàn)多維流式數(shù)據(jù)的直接聚類(lèi)分析。課題按照算法設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證兩個(gè)過(guò)程展開(kāi)研究,主要進(jìn)行了以下工作:
  (1)針對(duì)數(shù)量稀少且高度非對(duì)稱(chēng)分布類(lèi)群的識(shí)別,提出了偏斜t混合模型聚類(lèi)算法。通過(guò)對(duì)混合模型進(jìn)行研究,確定了偏斜t分布為混合模型的分量密度。通過(guò)分析偏斜正態(tài)分布的定義方

5、法,以及t分布與正態(tài)分布的轉(zhuǎn)化關(guān)系,定義了一種偏斜t分布概率密度。基于混合模型極大似然估計(jì)及其EM算法的研究,對(duì)定義的偏斜t分布混合模型進(jìn)行EM算法推導(dǎo),并得到了EM算法相關(guān)計(jì)算表達(dá)式。針對(duì)EM算法計(jì)算可能出現(xiàn)的局部最優(yōu)解問(wèn)題,提出了一種基于K-means和極大似然的參數(shù)初始化方法,該方法保證EM算法計(jì)算過(guò)程收斂到全局最優(yōu)解。
  (2)針對(duì)目前混合模型方法計(jì)算效率低,無(wú)法識(shí)別不規(guī)則形狀類(lèi)群的問(wèn)題,提出了基于偏斜t混合模型的層次聚

6、類(lèi)算法。該算法通過(guò)類(lèi)群數(shù)量估計(jì)、偏斜t混合模型聚類(lèi)和結(jié)果合并三個(gè)主要步驟完成對(duì)數(shù)據(jù)的聚類(lèi)分析。對(duì)于數(shù)據(jù)中類(lèi)群數(shù)量的估計(jì),要求估計(jì)的類(lèi)群數(shù)必須限制在一個(gè)合理范圍,提出了一種基于直方圖的類(lèi)群數(shù)量快速估計(jì)算法,該算法利用最大后驗(yàn)概率計(jì)算最優(yōu)組數(shù),并通過(guò)直方圖組間頻數(shù)變化趨勢(shì)識(shí)別類(lèi)群峰,實(shí)現(xiàn)了流式數(shù)據(jù)中類(lèi)群數(shù)量的快速估計(jì)。對(duì)偏斜t混合模型冗余的聚類(lèi)結(jié)果,定義了一種類(lèi)群間相似度判斷準(zhǔn)則,該準(zhǔn)則同時(shí)兼顧類(lèi)群間的空間距離和類(lèi)群的空間分布狀態(tài)。對(duì)合并過(guò)

7、程的結(jié)果,采用兩段回歸擬合方法實(shí)現(xiàn)了結(jié)果的最優(yōu)選擇。
  (3)仿真實(shí)驗(yàn)分析。由于前一個(gè)過(guò)程的結(jié)果會(huì)影響后一過(guò)程的計(jì)算時(shí)間,因此,基于流式數(shù)據(jù)的基本屬性(事件數(shù)、類(lèi)群數(shù)和維度),首先仿真3組不同屬性的數(shù)據(jù),分析影響算法時(shí)間復(fù)雜度的主要過(guò)程。然后,在此基礎(chǔ)上,仿真3組不同屬性的數(shù)據(jù),分析影響算法時(shí)間復(fù)雜度的主要因素。接下來(lái),通過(guò)分析兩個(gè)模仿真實(shí)流式數(shù)據(jù)特征的仿真數(shù)據(jù),分別評(píng)價(jià)偏斜t混合模型識(shí)別不同形狀類(lèi)群和算法識(shí)別數(shù)量稀少且高度非對(duì)

8、稱(chēng)分布類(lèi)群的有效性。在此過(guò)程中,分別對(duì)比其他混合模型和非基于概率模型聚類(lèi)算法的分析結(jié)果。最后,通過(guò)分析一個(gè)含有凹形類(lèi)群的仿真數(shù)據(jù),評(píng)價(jià)算法分析不規(guī)則形狀數(shù)據(jù)的有效性。
  (4)生物實(shí)驗(yàn)驗(yàn)證。首先進(jìn)行微生物細(xì)胞活性分析實(shí)驗(yàn),通過(guò)分析酵母菌細(xì)胞活性實(shí)驗(yàn)中的流式數(shù)據(jù),評(píng)價(jià)算法在分析該類(lèi)型數(shù)據(jù)的有效性。然后進(jìn)行淋巴細(xì)胞亞群分析實(shí)驗(yàn),通過(guò)分析CD8+T淋巴細(xì)胞相對(duì)計(jì)數(shù)實(shí)驗(yàn)和NK細(xì)胞與B細(xì)胞相對(duì)計(jì)數(shù)實(shí)驗(yàn)數(shù)據(jù),評(píng)價(jià)算法分析淋巴細(xì)胞亞群數(shù)據(jù)的有

9、效性。三個(gè)實(shí)驗(yàn)數(shù)據(jù)分析過(guò)程中,同時(shí)對(duì)比目前其他基于概率模型的算法和非基于概率模型算法的分析結(jié)果。
  結(jié)果:(1)仿真實(shí)驗(yàn)結(jié)果:通過(guò)對(duì)三組(共30個(gè))不同屬性的數(shù)據(jù)進(jìn)行分析,并記錄三個(gè)過(guò)程的計(jì)算時(shí)間,得出偏斜t混合模型EM算法的計(jì)算時(shí)間占據(jù)了算法計(jì)算的主要時(shí)間,約為97%。通過(guò)采用偏斜t混合模型對(duì)三組(共60個(gè))不同屬性的數(shù)據(jù)進(jìn)行分析,得出偏斜t混合模型EM算法計(jì)算時(shí)間與數(shù)據(jù)中包含的事件數(shù)和類(lèi)群數(shù)成線性關(guān)系,與數(shù)據(jù)的維度成平方關(guān)系

10、。并且,對(duì)于通常條件下的流式數(shù)據(jù)(p<20,g<20,n<50000),算法計(jì)算時(shí)間主要與數(shù)據(jù)中的類(lèi)群數(shù)和事件數(shù)相關(guān)。由于其他基于混合模型的聚類(lèi)算法采用信息準(zhǔn)則識(shí)別類(lèi)群數(shù)量,因此,實(shí)驗(yàn)結(jié)果同時(shí)驗(yàn)證了本文算法相比其他混合模型算法具有更高的計(jì)算效率。在算法有效性評(píng)價(jià)實(shí)驗(yàn)中,偏斜t混合模型分析仿真數(shù)據(jù)結(jié)果的F-measure(F值)為:0.99234,高于其他混合模型分析結(jié)果的F值:0.98281,0.97989,0.98302,驗(yàn)證了本文設(shè)

11、計(jì)的偏斜t混合模型識(shí)別多種分布形狀類(lèi)群的能力。本文算法分析含數(shù)量稀少且高度非對(duì)稱(chēng)分布類(lèi)群的仿真數(shù)據(jù)結(jié)果的F值為0.99899,高于其他算法分析結(jié)果的F值:0.98002,0.98395,0.99264,驗(yàn)證了本文算法識(shí)別數(shù)量稀少且高度非對(duì)稱(chēng)分布細(xì)胞群的能力。通過(guò)分析包含凹形類(lèi)群的仿真數(shù)據(jù),驗(yàn)證了本文算法識(shí)別數(shù)據(jù)中不規(guī)則分布類(lèi)群的能力。
  (2)生物實(shí)驗(yàn)結(jié)果:以直接聚類(lèi)方式對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,本文算法分析酵母菌細(xì)胞活性檢測(cè)實(shí)驗(yàn)數(shù)據(jù)

12、結(jié)果的F值為0.91637,高于其他算法分析結(jié)果的F-measure值(F值):0.78126、0.81928、0.89472、0.76438,驗(yàn)證了本文算法分析該類(lèi)型數(shù)據(jù)的有效性;本文算法分析CD8+T淋巴細(xì)胞亞群相對(duì)計(jì)數(shù)流式數(shù)據(jù)結(jié)果的F值為0.95642,高于其他算法分析結(jié)果的F值:0.78453、0.88642、0.89013、0.89691;本文算法分析B細(xì)胞和NK細(xì)胞相對(duì)計(jì)數(shù)流式數(shù)據(jù)結(jié)果的F值為0.95807,高于其他算法分析

13、結(jié)果的F值:0.80149、0.90826、0.92682、0.93041,驗(yàn)證了本文算法分析淋巴細(xì)胞亞群數(shù)據(jù)的有效性。三個(gè)實(shí)驗(yàn)的結(jié)果驗(yàn)證了本文算法直接分析多維流式數(shù)據(jù)結(jié)果的可靠性。
  結(jié)論:相比基于概率模型的軟聚類(lèi)算法,本文提出的算法不僅能夠準(zhǔn)確識(shí)別數(shù)據(jù)中凹形及不規(guī)則分布類(lèi)群,而且分析時(shí)間少于其他算法。相比非基于概率模型的硬聚類(lèi)算法,本文提出的算法不僅能夠識(shí)別數(shù)量稀少且呈現(xiàn)高度非對(duì)稱(chēng)性的類(lèi)群,而且實(shí)現(xiàn)了多維流式數(shù)據(jù)的直接聚類(lèi)分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論