判別分析論文_第1頁(yè)
已閱讀1頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p><b>  判別分析論文</b></p><p>  作 者 鄺淑芳 </p><p><b>  目 錄</b></p><p><b>  第一章 判別分析</b></p><p>  §1.1什么是判別

2、分析3</p><p>  §1.2判別分析的分類.3</p><p>  §1.3判別分析的適用條件3</p><p>  §1.4判別分析的方法3</p><p><b>  第二章 距離判別法</b></p><p>  §2.1什么是距離判別

3、法4</p><p>  §2.2馬氏距離4</p><p>  §2.3兩個(gè)總體的判別4</p><p>  §2.4多個(gè)總體的判別5</p><p>  第三章 貝葉斯判別法</p><p>  §3.1什么是貝葉斯判別法6</p><p>

4、  §3.2貝葉斯判別的方法6</p><p>  §3.3最大后驗(yàn)概率法6</p><p>  §3.4最小期望誤判法6</p><p>  第四章 費(fèi)希爾判別法</p><p>  §4.1什么是費(fèi)希爾判別法6</p><p>  §4.2費(fèi)希爾判別法的基本

5、思想7</p><p>  §4.3費(fèi)希爾判別函數(shù)和準(zhǔn)則7</p><p>  §4.4費(fèi)希爾判別法的步驟8</p><p><b>  第五章 案列分析</b></p><p>  §5.1距離判別法10</p><p>  §5.2貝葉斯判別法

6、13</p><p>  §5.3費(fèi)希爾判別法14</p><p><b>  附錄16</b></p><p><b>  第一章.判別分析</b></p><p>  §1.1什么是判別分析</p><p>  判別分析,是一種統(tǒng)計(jì)判別和分組技術(shù),

7、就一定數(shù)量樣本的一個(gè)分組變量和相應(yīng)的其他多元變量的已知信息,確定分組與其他多元變量信息所屬的樣本進(jìn)行判別分組。用數(shù)學(xué)的語(yǔ)言來(lái)說(shuō),判別問(wèn)題可以表述為:對(duì)于個(gè)樣品,每個(gè)樣品有個(gè)指標(biāo),已知每個(gè)樣品屬于某一類別(總體),對(duì)于每類別其分布函數(shù)分別為,對(duì)于一個(gè)給定樣品,我們要判斷出這個(gè)樣本來(lái)自哪個(gè)總體。判別分析的主要問(wèn)題就是如何尋找最佳的判別函數(shù)和建立判別規(guī)則。</p><p>  §1.2判別分析的分類</

8、p><p>  根據(jù)判別中的組數(shù),可以分為兩組判別分析和多組判別分析;</p><p>  根據(jù)判別函數(shù)的形式,可以分為線性判別和非線性判別;</p><p>  根據(jù)判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;</p><p>  根據(jù)判別標(biāo)準(zhǔn)不同,可以分為距離判別、貝葉斯判別、費(fèi)希爾判別等。</p><p>

9、;  §1.3判別分析的適用條件</p><p>  自變量服從正態(tài)分布。</p><p>  自變量之間沒(méi)有多重共線性。</p><p>  每個(gè)變量在各類中的取值應(yīng)存在顯著差異。</p><p>  §1.4判別分析的方法</p><p> ?。ū疚闹饕榻B三種方法,其它方法暫不討論) <

10、;/p><p><b>  距離判別法。</b></p><p><b>  貝葉斯判別法。</b></p><p><b>  費(fèi)希爾判別法。</b></p><p><b>  .距離判別法</b></p><p>  §

11、2.1什么是距離判別法</p><p>  距離判別法是最為直觀,其想法自然、簡(jiǎn)單,就是計(jì)算新樣品到各組的距離,然后將該樣品判為離它距離最近的一組。</p><p><b>  §2.2馬氏距離</b></p><p>  關(guān)于在判別分析中使用的距離問(wèn)題,因?yàn)闅W式距離未能將變量之間通常存在的相關(guān)性考慮在內(nèi),故不太理想,而馬氏距離卻能很

12、好的彌補(bǔ)這種不足,因此在判別分析中通常使用馬氏距離。</p><p>  對(duì)于一個(gè)均值為μ,協(xié)方差矩陣為Σ的多變量向量,點(diǎn)到總體的平方馬氏距離為:。</p><p>  §2.3兩個(gè)總體的判別</p><p>  ①當(dāng)Σ1=Σ2=Σ時(shí)的判別(Σ是協(xié)方差矩陣):</p><p>  判別規(guī)則:計(jì)算到兩個(gè)組的平方馬氏距離,按距離最近原則

13、判別,則可總結(jié)為:</p><p>  判別函數(shù):為兩組距離判別的判別函數(shù),又稱為線性判別函數(shù),稱為判別系數(shù)向量。,其中是兩個(gè)組均值的平均值,。</p><p>  那么判別規(guī)則可簡(jiǎn)化為:</p><p>  誤判概率:用表示來(lái)自而誤判為的概率;用表示來(lái)自而誤判為的概率;即</p><p>  用表示這兩組之間的馬氏距離,因此兩個(gè)組越是分開(kāi)(

14、即越大),誤判的概率就會(huì)越小,此時(shí)的判別效果越佳。當(dāng)兩個(gè)組很接近時(shí),誤判概率將很大,這時(shí)做判別分析就沒(méi)有什么實(shí)際意義。</p><p> ?、诋?dāng)Σ1≠Σ2時(shí)的判別</p><p>  判別規(guī)則:計(jì)算到兩個(gè)組的平方馬氏距離,按距離最近原則判別,則可總結(jié)為:</p><p>  判別函數(shù): 相應(yīng)的判別規(guī)則為:</p><p>  §2.

15、4多個(gè)總體的判別</p><p>  設(shè)有個(gè)組,它們的均值分別是協(xié)方差矩陣分別是。</p><p>  到的總體平方馬氏距離:. 判別規(guī)則:</p><p><b>  ,判別規(guī)則簡(jiǎn)化為:</b></p><p>  其中.此時(shí)為線性判別函數(shù)。</p>

16、<p>  實(shí)際中一般都是未知的。</p><p><b> ?、贂r(shí),可估計(jì)為,</b></p><p>  的聯(lián)合無(wú)偏估計(jì)為,其中為組數(shù),為每組的樣本個(gè)數(shù),,組的樣本協(xié)方差矩陣。</p><p> ?、诓蝗嗟葧r(shí),,可估計(jì)為,</p><p><b>  的聯(lián)合無(wú)偏估計(jì)為。</b>&l

17、t;/p><p>  第三章.貝葉斯判別法</p><p>  §3.1什么是貝葉斯判別法</p><p>  如果對(duì)多個(gè)總體的判別考慮的不是建立判別式,而是計(jì)算新給樣品屬于各總體的條件概率,比較這個(gè)概率的大小,然后將樣品判歸為來(lái)自概率最大的總體,這種判別方法稱為貝葉斯判別方法。</p><p>  §3.2貝葉斯判別的方法&

18、lt;/p><p><b>  最大后驗(yàn)概率法</b></p><p><b>  最小期望誤判代價(jià)法</b></p><p>  §3.3最大后驗(yàn)概率法</p><p>  基本思想:設(shè)有個(gè)組,且組的概率密度為樣品來(lái)自組的先驗(yàn)概率為滿足。根據(jù)貝葉斯公式,屬于的后驗(yàn)概率(即當(dāng)樣品已知時(shí),它屬于

19、的概率)為.</p><p><b>  判別規(guī)則:.</b></p><p>  §3.4最小期望誤判代價(jià)法</p><p>  最大后驗(yàn)概率法只考慮到了先驗(yàn)概率,忽略了誤判代價(jià),該方法等價(jià)于誤判代價(jià)相同時(shí)的最小期望誤判代價(jià)法,此時(shí)的總誤判概率達(dá)到最小,也可稱為最小總誤判概率法。</p><p>  第四章.

20、費(fèi)希爾判別法</p><p>  §4.1什么是費(fèi)希爾判別法</p><p>  Fisher判別是一種先進(jìn)行高維向低位投影,再根據(jù)距離判別的一種方法。借助方差分析的思想構(gòu)造判別函數(shù)(相當(dāng)于一種投影),使組間區(qū)別最大、組內(nèi)離差最小,然后代入新樣本數(shù)據(jù),將其與判別臨界值比較以確定應(yīng)判為至哪一總體。</p><p>  §4.2費(fèi)希爾判別法的基本思想

21、</p><p>  它的基本思想是通過(guò)將多維數(shù)據(jù)投影到某一方向上,使得投影后類與類之間盡可能的分開(kāi),然后再選擇合適的判別準(zhǔn)則,將待判的樣本進(jìn)行分類判別。而衡量類與類之間是否分開(kāi)的方法是借助于一元方差分析的思想,利用方差分析的思想來(lái)導(dǎo)出判別函數(shù)。</p><p>  §4.3 費(fèi)希爾判別函數(shù)和判別準(zhǔn)則</p><p> ?。ㄔ谝韵掠懻撝校覀冃杓俣ǜ鹘M的協(xié)

22、方差矩陣相同,即.)</p><p>  設(shè)來(lái)自組的維觀測(cè)值為,,,將它們共同投影到某一維常數(shù)向量上,得到的投影點(diǎn)可分別對(duì)應(yīng)線性組合,,。這樣,所有的維觀測(cè)值就簡(jiǎn)化為一維觀測(cè)值。下面我們用表示組中的均值,表示所有組的總均值,即 </p><p><b>  式中。</b></p><p>  的組間平方和:,式中為組間平方和及叉積和矩陣。

23、</p><p>  的組內(nèi)平方和:,式中為組內(nèi)平方和及叉積和矩陣。</p><p>  設(shè)的全部非零特征值依次為,相應(yīng)的特征向量依次記為。當(dāng)時(shí)達(dá)到最大值。所以,選擇投影到上能使各組的投影點(diǎn)最大限度地分離,稱為費(fèi)希爾第一線性判別函數(shù),簡(jiǎn)稱第一判別函數(shù)。</p><p>  有時(shí)僅僅使用第一判別函數(shù)是不夠的,我們應(yīng)該考慮建立第二個(gè)線性組合,我們?cè)诩s束條件下尋找,使得達(dá)

24、到最大。當(dāng)時(shí)達(dá)到最大值,稱為費(fèi)希爾第二線性判別函數(shù),簡(jiǎn)稱第二判別函數(shù)。</p><p>  在約束條件下尋找,使得達(dá)到最大。當(dāng)時(shí)達(dá)到最大值,稱為第判別函數(shù),。</p><p>  表明了第判別函數(shù)對(duì)分離各組的貢獻(xiàn)大小,在所有個(gè)判別函數(shù)中的貢獻(xiàn)率為。</p><p>  而前個(gè)判別函數(shù)的累計(jì)貢獻(xiàn)率為。</p><p>  它表明了能代表進(jìn)行判別

25、的能力。</p><p><b>  判別規(guī)則為:。</b></p><p>  有時(shí)我們也使用中心化的費(fèi)希爾判別函數(shù),即。</p><p>  §4.4 費(fèi)希爾判別的步驟</p><p>  ①由各組樣本資料,計(jì)算各組樣本均值;</p><p><b> ?、谟?jì)算組間矩陣;&

26、lt;/b></p><p><b> ?、塾?jì)算組內(nèi)矩陣;</b></p><p> ?、苡?jì)算矩陣的前特征值;</p><p><b>  ⑤構(gòu)造判別函數(shù)。</b></p><p>  案列分析:1991年30個(gè)省、市、自治區(qū)城鎮(zhèn)居民月平均收人數(shù)據(jù)表</p><p>&

27、lt;b>  單位:元/人</b></p><p>  x1:人均生活費(fèi)收入 x6:人均各種獎(jiǎng)金、超額工資(國(guó)有+集體)</p><p>  x2:人均國(guó)有經(jīng)濟(jì)單位職工工資 x7:人均各種津貼(國(guó)有+集體)</p><p>  x3:人均來(lái)源于國(guó)有經(jīng)濟(jì)單位標(biāo)準(zhǔn)工資

28、 x8:人均從工作單位得到的其他收入</p><p>  x4:人均集體所有制工資收入 x9:個(gè)體勞動(dòng)者收入</p><p>  x5:人均集體所有制職工標(biāo)準(zhǔn)工資</p><p>  變量個(gè)數(shù)p=9,兩類總體各有11個(gè)樣品,即n1=n2=11 ,有2個(gè)待判樣品。一</p><p><b>  一、距離

29、判別法</b></p><p>  用SAS的proc corr程序算出第一、二組的均值和與協(xié)方差矩陣和,詳細(xì)代碼見(jiàn)附錄程序①。</p><p><b>  Σ的聯(lián)合估計(jì)為</b></p><p>  然后利用SAS算出判別函數(shù),詳細(xì)代碼見(jiàn)附錄程序②。</p><p>  于是我們得到判別函數(shù):</p&

30、gt;<p>  那么對(duì)于廣東和西藏兩個(gè)待判地區(qū):</p><p> ?、賹?duì)于廣東,計(jì)算得 所以依據(jù)馬氏距離判別法,應(yīng)該把廣東判為第一組。</p><p> ?、趯?duì)于西藏,計(jì)算得 所以依據(jù)馬氏距離判別法,應(yīng)該把西藏判為第一組。</p><p>  ③回代結(jié)果:從下表可以得知誤判概率為0</p><p> ?、芙徊骝?yàn)證結(jié)果:從

31、下表得知</p><p>  將第一組誤判到第二組的條件概率為:P(2|1)=0.33</p><p>  將第二組誤判到第一組的條件概率為:P(1|2)=0.11</p><p><b>  二、貝葉斯判別法</b></p><p><b>  最大后驗(yàn)概率法</b></p><

32、;p>  假設(shè)兩組的均服從多元正態(tài)分布,依據(jù)上表的信息,我們給出先驗(yàn)概率有了先驗(yàn)概率,我們接下來(lái)要利用SAS算出后驗(yàn)概率,詳細(xì)代碼見(jiàn)附錄程序③。</p><p> ?。◤V東)判為第一組G1,(西藏)判為第一組G1。</p><p>  從上表可以看出當(dāng)先驗(yàn)概率為將第一組誤判到第二組的條件概率為:P(2|1)=0,將第二組誤判到第一組的條件概率為:P(1|2)=0.</p>

33、<p><b>  三、費(fèi)希爾判別</b></p><p>  做費(fèi)希爾判別需要假定兩組的的協(xié)方差矩陣相同,即Σ1=Σ2=Σ。</p><p><b>  本題中。經(jīng)計(jì)算</b></p><p><b>  組間矩陣:</b></p><p>  組內(nèi)矩陣,然后算

34、出,</p><p>  由下表可知,的特征值的個(gè)數(shù)為1,</p><p>  由下表可知,相應(yīng)的標(biāo)準(zhǔn)化特征向量為 </p><p>  所以中心化的費(fèi)希爾判別函數(shù)為:</p><p><b>  判別函數(shù)的組均值為</b></p><p>  將、代入判別函數(shù)得出、,從而求出臨街值。</

35、p><p><b>  代入判別函數(shù)得:</b></p><p><b>  ,.</b></p><p>  所以把(廣東)判為第一組G1,(西藏)判為第一組G1。</p><p>  總結(jié):距離判別法,貝葉斯判別法,費(fèi)希爾判別法都把廣東和西藏判為第一組,所以廣東和西藏應(yīng)該屬于第一組。</p&g

36、t;<p><b>  附錄</b></p><p>  程序①: proc corr data=work.A cov;</p><p><b>  run;</b></p><p>  proc corr data=work.B cov;</p><p><b>  ru

37、n;</b></p><p>  程序②:proc discrim data=work.AB listerr crosslisterr;</p><p><b>  class g;</b></p><p>  var x1-x9;</p><p><b>  run;</b></

38、p><p>  程序③:proc discrim data=work.AB testdata=work.C testlist;</p><p><b>  class g;</b></p><p>  priors '1'=0.5 '2'=0.5;</p><p>  var x1-x9;&l

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論