版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第六章 主成分分析,第一節(jié) 引言,第二節(jié) 主成分的幾何意義及數(shù)學(xué) 推導(dǎo),第三節(jié) 主成分的性質(zhì),第四節(jié) 主成分方法應(yīng)用中應(yīng)注意 的問題,第五節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn),第一節(jié) 引言,多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實(shí)際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相
2、關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想。,,主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就
3、是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。,,我們知道,當(dāng)一個(gè)變量只取一個(gè)數(shù)據(jù)時(shí),這個(gè)變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個(gè)變量取一系列不同數(shù)據(jù)時(shí),我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對(duì)各種場景的“遍歷性”越強(qiáng),提供的信息就更加充分,信
4、息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準(zhǔn)差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個(gè)變量構(gòu)成的p維隨機(jī)向量為X = (X1,…,Xp)′。對(duì)X作正交變換,令Y = T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個(gè)分量的方差是最大的,第二個(gè)分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。,第二節(jié) 主成分的幾何意義及數(shù) 學(xué)推導(dǎo),一 主成分的幾何意義,
5、二 主成分的數(shù)學(xué)推導(dǎo),一、主成分的幾何意義,主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個(gè)坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個(gè)樣品,每個(gè)樣品都測(cè)量了兩個(gè)指標(biāo)(X1,X2),它們大致分布在一個(gè)橢圓內(nèi)如圖6.1所示。事實(shí)上,散點(diǎn)的分布總有可能沿著某一個(gè)方向略顯擴(kuò)張,這個(gè)方向就把它看作橢圓的長軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨(dú)看這n個(gè)點(diǎn)的分量X1和X2,它們沿著x1方向和x2方向都具有
6、較大的離散性,其離散的程度可以分別用的X1方差和X2的方差測(cè)定。如果僅考慮X1或X2中的任何一個(gè)分量,那么包含在另一分量中的信息將會(huì)損失,因此,直接舍棄某個(gè)分量不是“降維”的有效辦法。,,圖6.1 主成分的幾何意義,,,,易見,n個(gè)點(diǎn)在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱它們?yōu)樵甲兞縓1和X2的綜合變量,n個(gè)點(diǎn)y1在軸上的方差達(dá)到最大,即在此方向上包含了有關(guān)n個(gè)樣品的最大量信息。因此,欲將二維空間的點(diǎn)投影
7、到某個(gè)一維方向上,則選擇y1軸方向能使信息的損失最小。我們稱Y1為第一主成分,稱Y2為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān)系,橢圓越是扁平,n個(gè)點(diǎn)在y1軸上的方差就相對(duì)越大,在y2軸上的方差就相對(duì)越小,用第一主成分代替所有樣品所造成的信息損失也就越小。,,考慮兩種極端的情形:一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主成分只含有二維空間點(diǎn)的約一半信息,若僅用這一個(gè)綜合變量,則將損失約50%的
8、信息,這顯然是不可取的。造成它的原因是,原始變量X1和X2的相關(guān)程度幾乎為零,也就是說,它們所包含的信息幾乎不重迭,因此無法用一個(gè)一維的綜合變量來代替。另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成分包含有二維空間點(diǎn)的全部信息,僅用這一個(gè)綜合變量代替原始數(shù)據(jù)不會(huì)有任何的信息損失,此時(shí)的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當(dāng)然沒有信息損失。,二、主成分的數(shù)學(xué)推導(dǎo),,,,,,,,,,,,,,第三
9、節(jié) 主成分的性質(zhì),一 主成分的一般性質(zhì),二 主成分的方差貢獻(xiàn)率,一、主成分的一般性質(zhì),,,,二、主成分的方差貢獻(xiàn)率,,,,第四節(jié) 主成分方法應(yīng)用中應(yīng)注 意的問題,一 實(shí)際應(yīng)用中主成分分析的出發(fā)點(diǎn),二 如何利用主成分分析進(jìn)行綜合評(píng)價(jià),一、實(shí)際應(yīng)用中主成分分析的出發(fā)點(diǎn),,,這里我們需要進(jìn)一步強(qiáng)調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實(shí)際表明,這種差異有時(shí)很大。我們認(rèn)為,如果各指標(biāo)之間
10、的數(shù)量級(jí)相差懸殊,特別是各指標(biāo)有不同的物理量綱的話,較為合理的做法是使用R代替∑。對(duì)于研究經(jīng)濟(jì)問題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標(biāo)準(zhǔn)化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實(shí)經(jīng)濟(jì)意義,不僅便于剖析實(shí)際問題,又可以避免突出數(shù)值大的變量。,,,二、如何利用主成分分析進(jìn)行綜合 評(píng)價(jià),人們?cè)趯?duì)某個(gè)單位或某個(gè)系統(tǒng)進(jìn)行綜合評(píng)價(jià)時(shí)都會(huì)遇到如何選擇評(píng)價(jià)指標(biāo)體系和如何對(duì)這些指標(biāo)進(jìn)行綜合的困難。一般情況下,選擇評(píng)價(jià)指標(biāo)
11、體系后通過對(duì)各指標(biāo)加權(quán)的辦法來進(jìn)行綜合。但是,如何對(duì)指標(biāo)加權(quán)是一項(xiàng)具有挑戰(zhàn)性的工作。指標(biāo)加權(quán)的依據(jù)是指標(biāo)的重要性,指標(biāo)在評(píng)價(jià)中的重要性判斷難免帶有一定的主觀性,這影響了綜合評(píng)價(jià)的客觀性和準(zhǔn)確性。由于主成分分析能從選定的指標(biāo)體系中歸納出大部分信息,根據(jù)主成分提供的信息進(jìn)行綜合評(píng)價(jià),不失為一個(gè)可行的選擇。這個(gè)方法是根據(jù)指標(biāo)間的相對(duì)重要性進(jìn)行客觀加權(quán),可以避免綜合評(píng)價(jià)者的主觀影響,在實(shí)際應(yīng)用中越來越受到人們的重視。對(duì)主成分進(jìn)行加權(quán)綜合。我們
12、利用主成分進(jìn)行綜合評(píng)價(jià)時(shí),主要是將原有的信息進(jìn)行綜合,因此,要充分的利用原始變量提供的信息。將主成分的權(quán)數(shù)根據(jù)它們的方差貢獻(xiàn)率來確定,因?yàn)榉讲钬暙I(xiàn)率反映了各個(gè)主成分的信息含量多少。,,,第五節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn),一 主成分分析實(shí)例,二 利用SPSS進(jìn)行主成分分析,一、主成分分析實(shí)例,表6.1是某市工業(yè)部門13個(gè)行業(yè)的8項(xiàng)重要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù),這8項(xiàng)經(jīng)濟(jì)指標(biāo)分別是:X1:年末固定資產(chǎn)凈值,單位:萬元;X2:職工人數(shù)據(jù),
13、單位:人;X3:工業(yè)總產(chǎn)值,單位:萬元;X4:全員勞動(dòng)生產(chǎn)率,單位:元/人年;X5:百元固定資產(chǎn)原值實(shí)現(xiàn)產(chǎn)值,單位:元;X6:資金利稅率,單位:%;X7:標(biāo)準(zhǔn)燃料消費(fèi)量,單位:噸;X8:能源利用效果,單位:萬元/噸。,,表6.1 某市工業(yè)部門13個(gè)行業(yè)8項(xiàng)指標(biāo),,我們要考慮的是:如何從這些經(jīng)濟(jì)指標(biāo)出發(fā),對(duì)各工業(yè)部門進(jìn)行綜合評(píng)價(jià)與排序?我們先計(jì)算這些指標(biāo)的主成分,然后通過主成分的大小進(jìn)行排序。表6.2和表6.3
14、分別是特征根(累計(jì)貢獻(xiàn)率)和特征向量的信息。利用主成分得分進(jìn)行綜合評(píng)價(jià)時(shí),從特征向量我們可以寫出所有8個(gè)主成分的具體形式:,,表6.2 特征根和累計(jì)貢獻(xiàn)率,,表6.3 特征向量,,表6.4 各行業(yè)主成分得分及排序,,我們以特征根為權(quán),對(duì)8個(gè)主成分進(jìn)行加權(quán)綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。綜合得分的計(jì)算公式是:根據(jù)上式可計(jì)算出各工業(yè)部門的綜合得分,并可據(jù)此排序。從上表可以看出,機(jī)器行業(yè)在
15、該地區(qū)的綜合評(píng)價(jià)排在第一,原始數(shù)據(jù)也反映出機(jī)器行業(yè)存在明顯的規(guī)模優(yōu)勢(shì),另外從前兩個(gè)主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢(shì);而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。,,二、利用SPSS進(jìn)行主成分分析,SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結(jié)果,可以很容易地實(shí)現(xiàn)主成分分析。具體來講
16、,就是利用因子載荷陣和相關(guān)系數(shù)矩陣的特征根來計(jì)算特征向量。即:其中,zij為第j個(gè)特征向量的第i個(gè)元素;aij為因子載荷陣第i行第j列的元素;λj為第j個(gè)因子對(duì)應(yīng)的特征根。然后再利用計(jì)算出的特征向量來計(jì)算主成分。以下是我國2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個(gè)例子,介紹如何利用SPSS軟件實(shí)現(xiàn)主成分分析。,,表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況,,表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況,
17、,(一)利用SPSS進(jìn)行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個(gè)變量分別命名為X1~X5。在SPSS窗口中選擇Analyze→Data Reduction→Factor菜單項(xiàng),調(diào)出因子分析主界面,并將變量X1~X5移入Variables框中,其他均保持系統(tǒng)默認(rèn)選項(xiàng),單擊OK按鈕,執(zhí)行因子分析過程(關(guān)于因子分子在SPSS中實(shí)現(xiàn)的詳細(xì)過程,參見第7章實(shí)例)。得到如表6.6所示的特征根和方差貢獻(xiàn)率表和表6.7所示的因子載荷陣。表
18、6.6中Total列為各因子對(duì)應(yīng)的特征根,本例中共提取兩個(gè)公因子;% of Variance列為各因子的方差貢獻(xiàn)率;Cumulative %列為各因子累積方差貢獻(xiàn)率,由表中可以看出,前兩個(gè)因子已經(jīng)可以解釋79.31%的方差,,圖6.2 因子分析主界面,,表6.6 特征根和方差貢獻(xiàn)率表,,(二)利用因子分析結(jié)果進(jìn)行主成分分析1. 將表6.7中因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。,表6.7 因子載荷陣
19、,,2. 為了計(jì)算第一個(gè)特征向量,點(diǎn)擊菜單項(xiàng)中的Transform→Compute,調(diào)出Compute variable對(duì)話框,在對(duì)話框中輸入等式: z1=a1 / SQRT(2.576) 點(diǎn)擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。再次調(diào)出Compute variable對(duì)話框,在對(duì)話框中輸入等式: z2=a2 /
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- [學(xué)習(xí)]多元統(tǒng)計(jì)分析主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析習(xí)題解答_主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析習(xí)題解答主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析習(xí)題解答主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)報(bào)告之主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)報(bào)告之主成分分析
- 應(yīng)用多元統(tǒng)計(jì)分析因子分析
- [教育]應(yīng)用數(shù)理統(tǒng)計(jì)主成分分析
- [教育]應(yīng)用多元統(tǒng)計(jì)分析-第九章典型相關(guān)分析
- 第3章 主成分分析
- 多元統(tǒng)計(jì)分析論文
- 奇異值與主成分分析pca
- 多元統(tǒng)計(jì)分析論文
- 多元統(tǒng)計(jì)分析實(shí)例
- 奇異值與主成分分析pca
- 多元統(tǒng)計(jì)分析聚類分析講義
- 多元統(tǒng)計(jì)分析聚類分析講義
- 第2章 統(tǒng)計(jì)分析基礎(chǔ)
- 應(yīng)用多元統(tǒng)計(jì)分析課程設(shè)計(jì)
- 應(yīng)用多元統(tǒng)計(jì)分析試題及答案
評(píng)論
0/150
提交評(píng)論