支持向量機(jī)(SVM)和徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)方法在化學(xué)、環(huán)境化學(xué)和藥物化學(xué)中的應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩197頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、定量結(jié)構(gòu)-性質(zhì)/活性相關(guān)(QSPR/QSAR)研究是計算化學(xué)和化學(xué)信息學(xué)研究中的重要研究熱點(diǎn)之一。它主要應(yīng)用各種統(tǒng)計學(xué)方法和理論計算方法研究有機(jī)化合物的結(jié)構(gòu)與其各種物理化學(xué)性質(zhì)以及生物活性之間的定量關(guān)系。QSPR/QSAR的研究對象包括化合物的各種物理化學(xué)性質(zhì)、生物活性、毒性、藥物的各種代謝動力學(xué)參數(shù)等等,研究領(lǐng)域涉及化學(xué)、化工、環(huán)境化學(xué)、藥物化學(xué)等諸多學(xué)科。建立準(zhǔn)確的定量數(shù)學(xué)模型一直是QSPR/QSAR研究的追求目標(biāo)之一,而建模方法又

2、是決定模型好壞的一個關(guān)鍵因素,因此新方法的發(fā)展一直是QSPR/QSAR研究中的一個重要任務(wù)。本論文在研究小組過去10余年來對神經(jīng)網(wǎng)絡(luò)方法(ANN),包括BP網(wǎng)絡(luò)和RBFNN網(wǎng)絡(luò)的研究基礎(chǔ)上,將支持向量機(jī)(SVM)方法應(yīng)用到化學(xué)、環(huán)境化學(xué)和藥物化學(xué)等領(lǐng)域中,進(jìn)行了1100多種化學(xué)物質(zhì)的性質(zhì)、環(huán)境毒物的毒性和藥物有關(guān)的性質(zhì)的預(yù)測,建立了準(zhǔn)確的定量結(jié)構(gòu)性質(zhì)/活性關(guān)系模型。論文第一章簡述了定量結(jié)構(gòu)性質(zhì)/活性關(guān)系(QSPR/QSAR)的基本原理,

3、研究過程以及研究現(xiàn)狀,其中在研究過程中著重介紹了建模方法。在指出當(dāng)前神經(jīng)網(wǎng)絡(luò)建模方法不足的基礎(chǔ)上,詳細(xì)介紹了一種新的機(jī)器學(xué)習(xí)算法一支持向量機(jī)方法,并概括和展望了其在QSPR/QSAR中的應(yīng)用。 在第二章中,我們將SVM和RBFNN方法應(yīng)用到化學(xué)領(lǐng)域中,主要包括以下幾個方面的研究工作: (1)應(yīng)用多元線性回歸(MLR)和SVM方法建立了預(yù)測364個有機(jī)化合物的范德華常數(shù)的QSPR模型。MLR不僅用來建立線性回歸模型,同時也

4、作為選擇SVM輸入描述符的方法。SVM模型的訓(xùn)練集、交互檢驗(yàn)集、測試集和整個數(shù)據(jù)集的均方誤差(MeanSquareError,MSE)分別為:常數(shù)a:5.96,8.00,6.67和6.65;常數(shù)b:9.56×10-5,3.18×10-4,4.22×10-4和2.33×10-4。 (2)應(yīng)用啟發(fā)式(HM)和SVM方法分別建立了149個易揮發(fā)有機(jī)化合物的氣相色譜保留時間和5個分子描述符之間的線性和非線性QSRR模型。非線性的SVM模

5、型的結(jié)果優(yōu)于線性HM模型的結(jié)果,對于測試集均方誤差MSE分別為1.094和1.644。而且預(yù)測值與實(shí)驗(yàn)值是非常一致的。 (3)用HM和RBFNN方法建立了預(yù)測63個有機(jī)小分子化合物在低密度聚乙烯上的滲透系數(shù)的定量模型。它建立的模型與以往的模型相比,有同樣的可靠性。這就說明本研究所用的方法是聚合物研究領(lǐng)域中可靠且實(shí)用的方法之一。 在第三章中,我們將SVM和RBFNN方法應(yīng)用到環(huán)境化學(xué)領(lǐng)域,主要進(jìn)行了以下幾個方面的研究工作:

6、 (1)應(yīng)用SVM方法對148個N-亞硝基化合物的致癌性進(jìn)行了分類研究。模型中的7個描述符都是通過計算得到,且用前向性逐步線性判別分析(LDA)方法選出作為SVM的輸入。SVM分類模型對訓(xùn)練集的準(zhǔn)確率為97.4%,測試集是86.6%。通過分析,指出了立體和靜電因素是影響此類化合物的致癌性的主要的分子結(jié)構(gòu)因素。該模型對判別N-亞硝基化合物的致癌性提供了簡便、有效的方法。 (2)用SVM和HM方法分別建立了93個多氯二聯(lián)苯二

7、噁英(PCDDs)、多氯二聯(lián)苯呋喃(PCDFs)、多氯聯(lián)苯(PCBs)和AhR(arylhydrocarbonreceptor)的結(jié)合力與它們結(jié)構(gòu)描述符之間的定量結(jié)構(gòu)活性相關(guān)模型。用HM方法建立了線性相關(guān)模型,然后用相同的描述符作為SVM的輸入,建立了非線性的定量結(jié)構(gòu)活性相關(guān)模型。HM模型的測試集的均方根誤差(RootMeanSquareError,RMS)是0.667,相關(guān)系數(shù)是0.845。SVM模型對測試集的均方根誤差RMS為0.3

8、24,相關(guān)系數(shù)是0.928。本工作證明一個單一的QSAR模型就可以用來預(yù)測不同類別的PCDFs、PCDDs和PCBs與AhR的結(jié)合力。 (3)應(yīng)用多種統(tǒng)計方法(LDA,SVM,HM,RBFNN)研究了142個易揮發(fā)有機(jī)化合物的感官刺激性(1ogRD50)。分別建立了此類化合物的分類和回歸模型。最好的分類模型是SVM模型,所得模型對訓(xùn)練集、測試集和整個數(shù)據(jù)集的準(zhǔn)確率分別為96.5%,85.7%和94.4%。非線性的回歸模型分別用S

9、VM和RBFNN建立。所得的SVM模型的統(tǒng)計結(jié)果是:反應(yīng)組的訓(xùn)練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.4415,0.7430和0.514;相對應(yīng)的相關(guān)系數(shù)是0.910,0.874和0759。對非反應(yīng)組的訓(xùn)練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.372,0.452和0.405;相對應(yīng)的相關(guān)系數(shù)是0.900,0.859和0.888。所得RBFNN模型的統(tǒng)計結(jié)果是:(1)反應(yīng)組的訓(xùn)練集、測試集和整個數(shù)據(jù)集的均方根誤差R

10、MS分別是0.4755,0.6342和0.5009;相對應(yīng)的相關(guān)系數(shù)是0.8892,0.8805和0.8770。(2)非反應(yīng)組訓(xùn)練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.2430,0.4798和0.3064;相對應(yīng)的相關(guān)系數(shù)是0.9580,0.8578和0.9340。所建立的模型可以用來估算化合物的不同的環(huán)境行為,不僅可以降低估算化合物環(huán)境行為的成本,節(jié)約時間,而且可以從宏觀和微觀兩個方面增強(qiáng)對于有機(jī)污染物在自然界中分布機(jī)理的

11、理解。 (4)用HM方法建立了100個易揮發(fā)有機(jī)化合物在大鼠血液和空氣中分配系數(shù)的數(shù)學(xué)模型。在計算大量的分子描述符的基礎(chǔ)上,首先用啟發(fā)式方法篩選出5個能代表化合物分子結(jié)構(gòu)的描述符,然后用多元線性回歸方法建立了線性模型。所建模型具有較好的預(yù)測能力,相關(guān)系數(shù)的平方的平均值達(dá)到0.8832。本文提供了一個估計此類化合物分配系數(shù)的簡單、快速、有效方法。 在第四章中,我們將SVM和RBFNN方法應(yīng)用到藥物化學(xué)領(lǐng)域,研究工作的內(nèi)容包

12、括以下兩個方面: (1)用RBFNN和HM建立了預(yù)測74個中性和堿性藥物pKa值的QSPR模型。所得HM模型的統(tǒng)計參數(shù)是:訓(xùn)練集R=0.884,RMS=0.482;測試集R=0.693,RMS=0.987。整個數(shù)據(jù)集的均方根誤差RMS是0.619。而RBFNN模型的參數(shù)是:訓(xùn)練集,R=0.886,RMS=0.458;測試集R=0.737,RMS=0.613。整個數(shù)據(jù)集的均方根誤差RMS是0.493。所建模型可以在藥物發(fā)現(xiàn)過程中預(yù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論