相關(guān)分析_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、相關(guān)分析Correlation Analysis,謝寶煖臺灣大學圖書資訊學系pnhsieh@ntu.edu.tw2006年4月29日,量化研究與統(tǒng)計分析,一個例子,很多時候,我們想要知道一件事物與另一件事物之間的關(guān)係(relationship)而且希望能有個關(guān)係指標(index of relationship)來說明關(guān)係強度,指標小關(guān)係強度低,指標大關(guān)係強度高;換句話說,需要有個「相關(guān)係數(shù)」(coefficient of co

2、rrelation)例如:有一盒玩具兵,我們對玩具兵的身高、體重有興趣,想像所有的玩具兵都是同樣的身形(shape),那麼身高不同體重也就不同,,看看這五個玩具兵,您會怎麼描述他們的身高和體重的關(guān)係?我們可以給個 .00到1.00之間的數(shù)值來描述其關(guān)係強度(strength),同時說明關(guān)係的方向(direction),coefficient of correlation的種類,The rank-difference coeffici

3、ent (?)等級相關(guān)易理解排序資料Spearman rank-difference coefficient of correlationThe product-moment coefficient (r)常用連續(xù)資料Pearson product-moment coefficient,The rank-difference coefficient,將5個玩具兵的身高和體重加以排序?qū)⑾嗤蛭灰跃€段相連,線段形成階梯狀

4、計算每個玩具兵的身高和體重的排序差異(rank difference),請注意,所有的rank difference都是零計算rank-difference coefficient,以?(rho)表示,,?是1減掉分子為排序差異分母為比較的樣本,所以數(shù)值為介於0與1之間,而且排序排異愈大時,可能會產(chǎn)生負的相關(guān)係數(shù),,,負相關(guān)如果換成真人的話,可能就不一定能和玩具兵一樣都有相同的身形,可能矮胖、高瘦,The product-momen

5、t coefficient (r),product-moment的意思其實通常我們不會計算排序差異,而是計算真實的身高和體重,如下表,,,,Concordant,Disconcordant,相關(guān)分析,當變項為一個連續(xù)變數(shù)時,可以次數(shù)分配和圖示來呈現(xiàn)資料的內(nèi)容與特性,或者以平均數(shù)和標準差來描繪資料的集中和離散情形。當兩個變數(shù)皆為連續(xù)變數(shù)時,則需利用相關(guān)(correlation)或迴歸(regression)來分析兩變數(shù)的關(guān)聯(lián)程度,又稱

6、為共變(covariance)關(guān)係。,線性關(guān)性,兩個連續(xù)變數(shù)的共變關(guān)係,可能有很多種形式,其中最簡單也是最常見的關(guān)聯(lián)型態(tài)是線性關(guān)係(linear relationship)。兩個變項的關(guān)聯(lián)關(guān)係可以以一條最具有代表性的直線來表示例如:身高與體重,身高越高,體重也越重Y=bx+a x為身高,y為體重b為斜率,x每變動一個單位, y的變動量 身高每增加一公分,體重增加量當b斜率為正值時,表

7、示兩個變項是正相關(guān)當b斜率為負值時,表示兩個變項是負相關(guān),,,,,,,相關(guān)係數(shù),兩個連續(xù)變項的關(guān)聯(lián)情形可以散布圖來呈現(xiàn)精確的相關(guān)分析所產(chǎn)生的是一個相關(guān)係數(shù)(correlation coefficient),相關(guān)係數(shù)是介於-1與+1之間的數(shù)。若為+1 ,則表示兩變數(shù)具有完全的正線性相關(guān)若為-1,則表示兩變數(shù)具有完全的負線性相關(guān)若相關(guān)係數(shù)趨近於0,則表示兩變數(shù)沒有線性相關(guān)此一係數(shù)最早由Pearson所提出,又稱為皮氏積差相關(guān)係數(shù)

8、。,,Pearson相關(guān)係數(shù),相關(guān)係數(shù)值的大小,可以反應(yīng)兩個變項關(guān)聯(lián)性的強弱,但是相關(guān)係數(shù)是否具有統(tǒng)計上的意義,必須透過統(tǒng)計檢定來判斷。由樣本計算兩變項之相關(guān)係數(shù)Pearson’s r,若要推論到母群? ,必須經(jīng)由統(tǒng)計檢定由考驗其統(tǒng)計意義虛無假設(shè)H0:兩變項X與Y不相關(guān) (相關(guān)係數(shù)為0, ? =0)對立假設(shè)H1:兩變項X與Y相關(guān) (相關(guān)係數(shù)不為0,

9、 ? ?0)當雙尾的機率p小於設(shè)定的顯著水準?(如0.05或0.01)時,則否定虛無假設(shè),即相關(guān)係數(shù)不為零(兩變項相關(guān)),,以籃球得分為例。一個籃球隊獲勝場次與每場的平均得分有關(guān)連嗎?從散佈圖中可看出,它們具有線性關(guān)聯(lián)。我們再從 1994、1995 NBA 球季分析資料得知,Pearson 的相關(guān)係數(shù) (0.581) 在 0.01 水準時是有意義的。於是可能猜想,每季所贏得的場次愈多,則對手的得分愈少。這些變數(shù)為負相關(guān) (0.401

10、),而相關(guān)在 0.05 水準時最顯著。,相關(guān)分析,程序1統(tǒng)計圖?散佈圖X軸放自變項;Y軸放依變項例:X軸為教育程度,Y軸為目前薪資(dataset: employee)由散佈圖可以很明顯地看出兩變數(shù)之相關(guān)程度。再由相關(guān)程序求出兩變數(shù)之相關(guān)係數(shù)程序2分析?相關(guān)? 雙變數(shù),由散佈圖可以很明顯地看出教育程度與目前薪資有正線性相關(guān)。為測量兩變數(shù)之線性相關(guān)程度,以相關(guān)程序求出兩變數(shù)間之相關(guān)係數(shù)。,,,依Pearson相關(guān)係數(shù)可知,教

11、育程度和目前薪資的相 關(guān)係數(shù)為為0.661,P值為0.000。當顯著水準為0.01時,可以得到教育程度與目前薪資有顯著相關(guān)的結(jié)論。,,,,相關(guān)係數(shù)對於定量、常態(tài)分配的變數(shù)而言,請選擇「Pearson」相關(guān)係數(shù)。如果資料不是常態(tài)分配,或已依類別排列,請選擇「Kendall‘s tau-b」或「Spearman」,以便測量等級排列之間的關(guān)聯(lián)。Spearman’s Rho(?)等級相關(guān)係數(shù)(順序變項)Kendall‘s tau-b (

12、?)等級相關(guān)係數(shù)(concordant和諧)相關(guān)係數(shù)範圍的值在 1 (一百分比負關(guān)聯(lián)) 到 +1 (一百分比正關(guān)聯(lián)) 之間。其中,數(shù)值 0表示沒有任何線性關(guān)係。在解析結(jié)果時,請不要因為顯著的相關(guān),而逕下任何跟因果相關(guān)的結(jié)論。,,Concordant:若某一觀察值的兩個變項值皆大於(或皆小於另一觀察值時),則稱此對觀察值為「一致」 (Concordant)。Discordant:若一觀察值的第一變項值大於另一觀察值,而第二變項值小於

13、另一觀察值時,則稱此對觀察值為「不一致」(discordant)。Tied:若兩觀察值的一個變項或兩個變項值相等時,則稱此對觀察值相等(tied)。,相關(guān)係數(shù),皮爾森相關(guān)(Pearson)由於Pearson樣本相關(guān)係數(shù)(?)之機率分配會依配對隨機變數(shù)(X,Y)之機率分配而變,所以沒有固定的分配,因此在做假設(shè)檢定時,一般是假設(shè)(X,Y)具有二元的常態(tài)分配。Pearson相關(guān)係數(shù)之大小,可看出兩變項關(guān)係的密切程度。相關(guān)係數(shù)愈高,兩變項

14、之關(guān)係愈密切,愈低表示愈不相關(guān)。Spearman’s Rho(?)等級相關(guān)係數(shù),,相關(guān)顯著性訊號相關(guān)係數(shù)在 .05 水準顯著時,會以一個星號標示,而在 .01水準顯著時,會以兩個星號標示。,等級觀察值,轉(zhuǎn)換>等級觀察值,,等級變項之相關(guān)係數(shù)為Spearman相關(guān)係數(shù),,多個雙變量相關(guān)分析,負相關(guān),,沒有相關(guān),,淨相關(guān)與部份相關(guān),如果兩個連續(xù)變項之間的關(guān)係,可能受到第三個變項干擾時,也可以以共變分析的做法,將第三個變項進行統(tǒng)計上的控制

15、。淨相關(guān)在計算兩個連續(xù)變項X1和X2的相關(guān)時,將第三變項( X3 )與兩個相關(guān)變項的相關(guān)X13和X23 ,加以排除之後的單純相關(guān),以X12.3來表示。部份相關(guān)淨相關(guān)是將第三個變項與兩個連續(xù)變項X1和X2的相關(guān)完全排除之後,計算的單純相關(guān)。如果在計算排除效果時,只處理第三變項與X1和X2當中的一個變項的相關(guān)時,所計算出來的相關(guān)係數(shù),稱之為部份相關(guān)(partial correlation) ,或稱半淨相關(guān)(semipartial c

16、orrelation)。,,同時測得學生的期中考、期末考成績,以及統(tǒng)計焦慮分數(shù),請問期中考與期末考成績的淨相關(guān)如何?兩個部份相關(guān)又如何?程序:分析>相關(guān)>偏相關(guān)選項>勾選零階相關(guān) 成對排除遺漏值,,,零階相關(guān)係數(shù)期中考與期末考的Pearson相關(guān)為.8219, p=.004達到顯著水準。顯示期中考與期末考成績具有高度相關(guān)。焦慮與期中考的相關(guān)為-.8145,且達到顯著(p=.004);焦慮與期末考的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論