[教育]優(yōu)勢(shì)分析:在多元回歸中比較預(yù)測(cè)因子相對(duì)重要性的新方法_第1頁(yè)
已閱讀1頁(yè),還剩26頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、優(yōu)勢(shì)分析:在多元回歸中比較預(yù)測(cè)因子相對(duì)重要性的新方法,,,在使用多元回歸的過(guò)程中,研究者不僅要得出一個(gè)包含多個(gè)自變量的回歸等式,而且要指出哪個(gè)自變量相對(duì)來(lái)說(shuō)是最重要的,這樣的結(jié)果實(shí)際應(yīng)用中才更有意義。在理想的情況下,各個(gè)自變量之間沒(méi)有相關(guān)(或者相關(guān)極小),那么 ,因?yàn)楦鱾€(gè)回歸系數(shù)都是標(biāo)準(zhǔn)化的,其相對(duì)重要性就是標(biāo)準(zhǔn)化回歸系數(shù)的平方。大多數(shù)情況下,各個(gè)自變量之間存在著不可忽略的相關(guān),這個(gè)時(shí)候重要

2、性的比較就不能簡(jiǎn)單地從標(biāo)準(zhǔn)化回歸系數(shù)得出。對(duì)此,不同的人采用了不同的方法:,,1、將自變量與因變量的零次相關(guān) 或平方相關(guān) 作為評(píng)判自變量重要性的標(biāo)準(zhǔn)。其對(duì)重要性的定義為一個(gè)自變量獨(dú)特、直接的預(yù)測(cè)能力,忽略模型中其他所有的自變量。2、由于不恰當(dāng)?shù)卮_定模型,無(wú)論是遺漏了重要的自變量,或者將不重要的自變量納入到了模型中都會(huì)導(dǎo)致,模型的失真,所以應(yīng)該認(rèn)為,能夠納入到一個(gè)恰當(dāng)模型中的所有自變量都是同等重要的。,,3、自變量的重要性應(yīng)

3、為某個(gè)自變量在控制其他變量不變的情況下其對(duì)于完整模型的貢獻(xiàn):3.1增溢法:考察控制其他變量情況下,某自變量變化一個(gè)單位,導(dǎo)致因變量變化的比例。例如以某自變量的回歸系數(shù)與其數(shù)學(xué)期望乘積的絕對(duì)值作為檢驗(yàn)標(biāo)準(zhǔn)。形象的理解為自變量的彈性。,,3.2方差法:在控制其他變量的情況下,比較各自變量對(duì)于因變量方差貢獻(xiàn)的大小3.2.1由方差的可加性得:即所有自變量對(duì)因變量的貢獻(xiàn)可以分解為各個(gè)自變量在控制其他自變量情況下對(duì)模型貢獻(xiàn),這樣的分解式有

4、 個(gè),而某個(gè)自變量的重要性即為在 個(gè)分解式中它的貢獻(xiàn)的平均值。EG,,3.2.2某自變量的重要性即為其它對(duì)因變量的直接效應(yīng)(與因變量的相關(guān)系數(shù))與總效應(yīng)(標(biāo)準(zhǔn)回歸系數(shù))的乘積。3.2.3某自變量的重要性可量化為其與因變量的相關(guān)的平方,由于自變量之間的相關(guān),所以:即把各自變量的標(biāo)準(zhǔn)化回歸系數(shù)平方中與要考察變量相關(guān)的部分提出來(lái)相加,即乘以其與要考察自變量之間的相關(guān)系數(shù)。,,上述方法的缺陷1、對(duì)于重要性的定義過(guò)于狹窄、模糊

5、甚至有問(wèn)題,限制過(guò)于嚴(yán)格,與人們實(shí)際應(yīng)用相距太遠(yuǎn)。2、不同定義之間難以相容,無(wú)法比較、交流研究結(jié)果,甚至根據(jù)不同的定義得出結(jié)論完全不同。3、很高的模型依賴性,在不同的子模型中得出相對(duì)重要性的結(jié)論可能完全不一樣,所以重要性的檢驗(yàn)應(yīng)該在全模型和子模型中結(jié)論一致。4、重要性的比較應(yīng)該是“凈”的,如果變量之間高度相關(guān),根本不可分,更無(wú)法比較分離出的重要性,那么此時(shí)重要性的比較就沒(méi)有任何意義,所以應(yīng)該首先區(qū)分可以比較和不能比較相對(duì)重要性的模

6、型。,,比較相對(duì)重要性應(yīng)遵循的原則:1、重要性應(yīng)定義為自變量在預(yù)測(cè)因變量時(shí)對(duì)于減少誤差的貢獻(xiàn)。2、應(yīng)該能夠?qū)ψ宰兞康南鄬?duì)重要性作直接比較而非推斷比較。3、重要性應(yīng)該能夠反映直接效應(yīng)(自變量的單獨(dú)效應(yīng))、總效應(yīng)( 納入其他所有變量)、偏效應(yīng)(納入其他部分變量),即要求重要性的結(jié)論在全模型與子模型中保持一致。,,優(yōu)勢(shì)分析的質(zhì)的定義優(yōu)勢(shì)是成對(duì)的關(guān)系,如果全模型包括p個(gè)自變量,那么就有p(p-1)/2對(duì)優(yōu)勢(shì)的比較;確定 和 優(yōu)勢(shì)

7、關(guān)系的充分必要條件是: 代表除要比較的兩個(gè)自變量之外的其他自變量所構(gòu)成的任何子集(包括空集)。,,優(yōu)勢(shì)分析定義的變式:一個(gè)變量比另一個(gè)變量重要即它在任何子模型中對(duì)因變量的預(yù)測(cè)能力都大于另一個(gè)。,,優(yōu)勢(shì)分析的量化:由兩個(gè)自變量的比較推廣到所有自變量的同時(shí)比較時(shí), 是除自身外的其他所有p-1個(gè)變量構(gòu)成的所有子集(包括空集),表示在由k(0<=k<=p-1)個(gè)自變

8、量構(gòu)成 時(shí),該自變量的單獨(dú)貢獻(xiàn)的平均值。將其累加求平均數(shù),即該自變量在所有子模型下的貢獻(xiàn)平均值。,,EG:當(dāng)有3個(gè)自變量時(shí):,,數(shù)據(jù)實(shí)例:,BACK,計(jì)算和樣本理論,根據(jù)優(yōu)勢(shì)方程的定義,對(duì)于要進(jìn)行優(yōu)勢(shì)分析的每一對(duì)變量,每一個(gè)變量都需要和其他許多偏模型進(jìn)行多元相關(guān)系數(shù)平方的比較。如果要包括所有的子模型,則一個(gè)變量要進(jìn)行p(p-1)/2個(gè)配對(duì)比較。因此,計(jì)算一次優(yōu)勢(shì)分析必須先計(jì)算出2p-1個(gè)多元相關(guān)系數(shù)平方值。 讓 p

9、 表示所有子集的多元相關(guān)系數(shù)平方的(2p-1)× 1向量,讓 Aij 表示在進(jìn)行 xi 和 xj 的對(duì)比時(shí),與其有關(guān)進(jìn)行對(duì)照的2p-2個(gè)模型的(2p-2)×(2p -1)矩陣。 Δ ij= Aij p , Δ ij就是包括所有有關(guān)差異的一個(gè)(2p-1)× 1向量。,表4表示的是一個(gè)p=3的例子的計(jì)算。這個(gè)表呈現(xiàn)了向量p,三個(gè)矩陣的比較, A12、A13和 A23,即分別比較了x1和 x2

10、、x1和 x3 、x2和 x3 ,以及向量Δ 12 、Δ 13 、 Δ 23之間的不同。,對(duì)于小樣本模型還沒(méi)有很好的精簡(jiǎn)的推理方法,只有一個(gè)近似的解決方法,即去“jacknife”那個(gè)估計(jì)值。這種方法大致過(guò)程是:每次都忽略一個(gè)觀測(cè)值,這樣我們就可以得到n個(gè)對(duì)所有相關(guān)的多元相關(guān)系數(shù)平方值的偽獨(dú)立估計(jì),通過(guò)對(duì)方差——協(xié)方差矩陣的估計(jì),我們就可以得到近似的置信區(qū)間。,對(duì)大樣本進(jìn)行優(yōu)勢(shì)分析,我們可以用一個(gè)例子來(lái)說(shuō)明。我們用社會(huì)經(jīng)濟(jì)地位(

11、SES)、IQ和成就動(dòng)機(jī)(nAch)來(lái)預(yù)測(cè)大學(xué)的GPA成績(jī)。如圖:,表:樣本中的相關(guān)矩陣和多元回歸系數(shù)平方值的向量。,表6呈現(xiàn)了三對(duì)預(yù)測(cè)變量相比較的95%漸進(jìn)置信區(qū)間值。判斷的標(biāo)準(zhǔn)是如果某對(duì)相比較差值的置信區(qū)間的下限都為非負(fù)的,那么xi D xj ;如果某對(duì)比較的置信區(qū)間的上限都為非正的,那么和 xj D xi ,如果某對(duì)比較的置信區(qū)間跨過(guò)零點(diǎn),那么它們的優(yōu)勢(shì)關(guān)系無(wú)法確定。,接著,我們?cè)賮?lái)看一個(gè)p=4的例子,用取得博士以后的年限(x1)

12、 、出版著作的多少(x2) 、性別(x3)和被引用的頻率(x4)來(lái)預(yù)測(cè)薪水(y) :,從表7和表8來(lái)看,我們可以得出:,由簡(jiǎn)單的相關(guān)系數(shù)我們可以得出:pyx1> pyx4 > pyx2 > pyx3,根據(jù)標(biāo)準(zhǔn)回歸系數(shù)的排序我們可以得出: b1> b4 > b3 > b2,根據(jù)變量的有效性我們可以得出:U(x4)> U(x1)>U(x3)> U(x2),,另: 當(dāng)數(shù)據(jù)不能完

13、全滿足優(yōu)勢(shì)分析條件時(shí),需要確定自變量的重要性關(guān)系,可以考慮采用“理想點(diǎn)”法: 即選取每K值子模型下最大(或者最小)的自變量貢獻(xiàn)平均值,從而構(gòu)建出一組最優(yōu)(或最劣)的理想自變量的貢獻(xiàn)平均值,通過(guò)計(jì)算、比較其他自變量與其的相關(guān)系數(shù)大小,從而確定它們的重要性關(guān)系。TO,小結(jié)——,回歸分析可以分成三個(gè)步驟:,選擇模型 在許多驗(yàn)證性因素分析中,研究者要在前人的理論和研究上來(lái)建立一個(gè)正確的模型,研究者都努力提出對(duì)Y最有預(yù)測(cè)效度

14、的預(yù)測(cè)量。 完成建立模型并不意味著可以馬上進(jìn)行優(yōu)勢(shì)分析,因?yàn)閮?yōu)勢(shì)分析必須在一個(gè)正確模型的條件下進(jìn)行。如果這個(gè)方程模型不正確,則優(yōu)勢(shì)分析的結(jié)果也會(huì)出現(xiàn)錯(cuò)誤。這樣會(huì)帶來(lái)一定的問(wèn)題,尤其是從模型中不正當(dāng)?shù)貏h除一些預(yù)測(cè)變量時(shí)。 前文中提到,往方程中添加一些不相關(guān)的變量是不會(huì)影響到優(yōu)勢(shì)分析的結(jié)果的,但是如果把方程中的一些變量刪除掉,則會(huì)引起回歸系數(shù)的估計(jì)產(chǎn)生偏差。,變量間質(zhì)的關(guān)系的確定有一套關(guān)于把與每對(duì)預(yù)測(cè)變量相關(guān)的

15、模型合并起來(lái)的嚴(yán)格標(biāo)準(zhǔn)。這種方法有兩個(gè)很明顯的優(yōu)點(diǎn):(a)優(yōu)勢(shì)分析的操作性定義更符合“優(yōu)勢(shì)”的直接含義;(b)它排除了許多由于不同變量之間和不同子模型之間的不一致帶來(lái)的混亂。 回歸分析和優(yōu)勢(shì)分析中有一個(gè)最大的不同就是對(duì)結(jié)果的描述和推論。我們經(jīng)??梢钥吹揭粋€(gè)研究者在尋找最佳的方程模型時(shí)會(huì)報(bào)告無(wú)數(shù)個(gè)檢驗(yàn)顯著,并從對(duì)樣本的估計(jì)中進(jìn)行推論。但是在一定樣本中,如果xi 優(yōu)于xj并不能保證在其他的樣本中也能得到同樣的結(jié)論(例如表6)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論