版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第5章 自變量的選擇與逐步回歸,,,5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響5.2 所有子集回歸5.3 逐步回歸5.4 本章小結(jié)與評(píng)注,§第5章 自變量選擇與逐步回歸,,,從20世紀(jì)60年代開(kāi)始,關(guān)于回歸自變量的選擇成為統(tǒng)計(jì)學(xué)中研究的熱點(diǎn)問(wèn)題。統(tǒng)計(jì)學(xué)家們提出了許多回歸選元的準(zhǔn)則,并提出了許多行之有效的選元方法。 本章從回歸選元對(duì)回歸參數(shù)估計(jì)和預(yù)測(cè)的影響開(kāi)始,介紹自變量選擇常用的幾個(gè)準(zhǔn)則;扼要介紹所有子集
2、回歸選元的幾個(gè)方法;詳細(xì)討論逐步回歸方法及其應(yīng)用。,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,一、全模型和選模型,設(shè)研究某一實(shí)際問(wèn)題涉及到對(duì)因變量有影響的因素共有m個(gè),回歸模型為:y=β0+β1x1+β2x2+…+βmxm+ε (5.1)稱(chēng)為全回歸模型。 如果我們從所有可供選擇的m個(gè)變量中挑選出p個(gè),記為x1,x2,…,xp,構(gòu)成的回歸模型為:y=β0p+β1px1+β2px2+…+βppxp+ε
3、p (5.2) 稱(chēng)模型(5.2)式為選模型。,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,一、全模型和選模型,模型選擇不當(dāng)會(huì)給參數(shù)估計(jì)和預(yù)測(cè)帶來(lái)什么影響?下面我們將分別給予討論。 為了方便,我們把模型(5.1)式的參數(shù)估計(jì)向量 和σ2的估計(jì)記為:,,,,把模型(5.2)式的參數(shù)估計(jì)向量記為,,,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,二、自變量選擇對(duì)預(yù)測(cè)的影響,關(guān)于自變量選擇對(duì)預(yù)
4、測(cè)的影響可以分成兩種情況:第一種情況是全模型正確而誤用了選模型;第二種情況是選模型正確而誤用了全模型式。,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(一)
5、全模型正確而誤用選模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(一)全模型正確而誤用選模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(二)選模型正確而誤用全模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(二)選模型正確而誤用全模型的情況,§5.1 自變量選擇對(duì)估計(jì)和預(yù)測(cè)的影響,,,(二)選模型正確而誤用全模型的情況,上述結(jié)論告訴我們,一個(gè)好的回歸模型,并不是考慮的自
6、變量越多越好。在建立回歸模型時(shí),選擇自變量的基本指導(dǎo)思想是“少而精”。哪怕我們丟掉了一些對(duì)因變量y還有些影響的自變量,由選模型估計(jì)的保留變量的回歸系數(shù)的方差,要比由全模型所估計(jì)的相應(yīng)變量的回歸系數(shù)的方差小。而且,對(duì)于所預(yù)測(cè)的因變量的方差來(lái)說(shuō)也是如此。丟掉了一些對(duì)因變量y有影響的自變量后,所付出的代價(jià)是估計(jì)量產(chǎn)生了有偏性。然而,盡管估計(jì)量是有偏的,但預(yù)測(cè)偏差的方差會(huì)下降。另外,如果保留下來(lái)的自變量有些對(duì)因變量無(wú)關(guān)緊要,那么,方程中包括這些
7、變量會(huì)導(dǎo)致參數(shù)估計(jì)和預(yù)測(cè)的有偏性和精度降低。,§5.2 所有子集回歸,,,一、所有子集的數(shù)目,,有m個(gè)可供選擇的變量x1,x2,…,xm,由于每個(gè)自變量都有入選和不入選兩種情況,這樣y關(guān)于這些自變量的所有可能的回歸方程就有2m-1個(gè)。 從另一個(gè)角度看,§5.2 所有子集回歸,,,二、關(guān)于自變量選擇的幾個(gè)準(zhǔn)則,從數(shù)據(jù)與模型擬合優(yōu)劣的直觀(guān)考慮出發(fā),認(rèn)為殘差平方和SSE最小的回歸方程就是最
8、好的。還曾用復(fù)相關(guān)系數(shù)R來(lái)衡量回歸擬合的好壞。然而這兩種方法都有明顯的不足,這是因?yàn)椋?§5.2 所有子集回歸,,,準(zhǔn)則1 自由度調(diào)整復(fù)相關(guān)系數(shù)達(dá)到最大,,§5.2 所有子集回歸,,,準(zhǔn)則1 自由度調(diào)整復(fù)相關(guān)系數(shù)達(dá)到最大,,從另外一個(gè)角度考慮回歸的擬合效果,回歸誤差項(xiàng)方差σ2的無(wú)偏估計(jì)為:,,此無(wú)偏估計(jì)式中也加入了懲罰因子n-p-1,§5.2 所有子集回歸,,,準(zhǔn)則1 自由度
9、調(diào)整復(fù)相關(guān)系數(shù)達(dá)到最大,,,§5.2 所有子集回歸,,,準(zhǔn)則2 赤池信息量AIC達(dá)到最小,,AIC準(zhǔn)則是日本統(tǒng)計(jì)學(xué)家赤池(Akaike)1974年根據(jù)極大似然估計(jì)原理提出的一種較為一般的模型選擇準(zhǔn)則,人們稱(chēng)它為Akaike信息量準(zhǔn)則 (Akaike Information Criterion,簡(jiǎn)記為AIC)。AIC準(zhǔn)則既可用來(lái)作回歸方程自變量的選擇,又可用于時(shí)間序列分析中自回歸模型的定階上。由于該方法的廣泛應(yīng)用,使得
10、赤池乃至日本統(tǒng)計(jì)學(xué)家在世界的聲譽(yù)大增。,§5.2 所有子集回歸,,,準(zhǔn)則2 赤池信息量AIC達(dá)到最小,,設(shè)回歸模型的似然函數(shù)為L(zhǎng)(θ,x), θ的維數(shù)為p,x為樣本,在回歸分析中樣本為y=(y1,y2,…yn)′,則AIC定義為:,§5.2 所有子集回歸,,,準(zhǔn)則2 赤池信息量AIC達(dá)到最小,,假定回歸模型的隨機(jī)誤差項(xiàng)ε遵從正態(tài)分布,即,ε~N(0,σ2),對(duì)數(shù)似然函數(shù)為,,,§5.2
11、 所有子集回歸,,,準(zhǔn)則2 赤池信息量AIC達(dá)到最小,,帶入公式,中,這里似然函數(shù)中的未知參數(shù)個(gè)數(shù)為p+2,略去與p無(wú)關(guān)的常數(shù),得回歸模型的AIC公式為,AIC=nln(SSE)+2p,對(duì)每一個(gè)回歸子集計(jì)算AIC,其中AIC最小者所對(duì)應(yīng)的模型是“最優(yōu)”回歸模型,§5.2 所有子集回歸,,,準(zhǔn)則4 Cp統(tǒng)計(jì)量達(dá)到最小,1964年馬勒斯 (Mallows)從預(yù)測(cè)的角度提出一個(gè)可以用來(lái)選擇自變量的統(tǒng)計(jì)量————C
12、p統(tǒng)計(jì)量。根據(jù)性質(zhì)5,即使全模型正確,但仍有可能選模型有更小的預(yù)測(cè)誤差。Cp正是根據(jù)這一原理提出來(lái)的。,§5.2 所有子集回歸,,,準(zhǔn)則4 Cp統(tǒng)計(jì)量達(dá)到最小,考慮在n個(gè)樣本點(diǎn)上,用選模型(5.2)式作回報(bào)預(yù)測(cè)時(shí),預(yù)測(cè)值與期望值的相對(duì)偏差平方和為:,,§5.2 所有子集回歸,,,準(zhǔn)則4 Cp統(tǒng)計(jì)量達(dá)到最小,可以證明,Jp的期望值是,,略去無(wú)關(guān)的常數(shù)2,據(jù)此構(gòu)造出Cp統(tǒng)計(jì)量為,,§5.2
13、 所有子集回歸,,,準(zhǔn)則4 Cp統(tǒng)計(jì)量達(dá)到最小,§5.2 所有子集回歸,,,例5.1 y表示某種消費(fèi)品的銷(xiāo)售額,x1表示居民可支配收入,x2表示該類(lèi)消費(fèi)品的價(jià)格指數(shù),x3表示其他消費(fèi)品平均價(jià)格指數(shù)。表5.1給出了某地區(qū)18年某種消費(fèi)品銷(xiāo)售情況資料,試建立該地區(qū)該消費(fèi)品銷(xiāo)售額預(yù)測(cè)方程。,§5.2 所有子集回歸,,,表5.1,§5.2 所有子集回歸,,,這個(gè)例子中,n=
14、18,m=3,所有的自變量子集有2m-1=7個(gè),即有7個(gè)回歸子集。,,表5.2,§5.2 所有子集回歸,,,由表5.2的3項(xiàng)指標(biāo)均可看到x1,x2,x3是“最優(yōu)”子集,x1,x3是“次優(yōu)”子集?;貧w方程分別為,§5.2 所有子集回歸,,,三、用SAS軟件尋找最優(yōu)子集,SAS軟件共有三個(gè)基本窗口,分別為:(1)程序編輯窗(PROGRAM EDITOR),用來(lái)編輯程序。(2)日志窗(LOG),顯示已
15、執(zhí)行的語(yǔ)句和系統(tǒng)信息,包括錯(cuò)誤信息。(3)輸出窗(OUTPUT)顯示程序運(yùn)行結(jié)果。 用主菜單的Window命令可以實(shí)現(xiàn)在三個(gè)窗口間的轉(zhuǎn)換。,§5.2 所有子集回歸,,,data data1;input x1-x12 y;cards;1.94 4.5 154.45 207.33 246.87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 2
16、3840.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202…;proc reg;model y=x1-x12/selection=adjrsq;run;,§5.2 所有子集回歸,,,以下是部分輸出結(jié)果:,Adjusted R-square Variables in
17、 Model R-square In 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.823667
18、78 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X11…,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思想,自變量的所有可能子集構(gòu)成2m-1個(gè)回歸方
19、程,當(dāng)可供選擇的自變量不太多時(shí),用前邊的方法可以求出一切可能的回歸方程,然后用幾個(gè)選元準(zhǔn)則去挑出“最好”的方程,但是當(dāng)自變量的個(gè)數(shù)較多時(shí),要求出所有可能的回歸方程是非常困難的。為此,人們提出了一些較為簡(jiǎn)便、實(shí)用、快速的選擇“最優(yōu)”方程的方法。人們所給出的方法各有優(yōu)缺點(diǎn),至今還沒(méi)有絕對(duì)最優(yōu)的方法,目前常用的方法有“前進(jìn)法”、“后退法”、“逐步回歸法”,而逐步回歸法最受推崇。,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思
20、想,在后邊的討論中,無(wú)論我們從回歸方程中剔除某個(gè)自變量,還是給回歸方程增加某個(gè)自變量都要利用(3.42)式的偏F檢驗(yàn),這個(gè)偏F檢驗(yàn)與(3.40)式的t檢驗(yàn)是等價(jià)的,F(xiàn)檢驗(yàn)的定義式的統(tǒng)計(jì)意義更為明了,并且容易推廣到對(duì)多個(gè)自變量的顯著性檢驗(yàn),因而采用F檢驗(yàn)。,§5.3 逐步回歸,,,一、前進(jìn)法,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思想,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思想,
21、依上述方法接著做下去。直至所有未被引入方程的自變量的F值均小于Fα(1,n-p-1)時(shí)為止。這時(shí),得到的回歸方程就是最終確定的方程。 每步檢驗(yàn)中的臨界值Fα(1,n-p-1)與自變量數(shù)目p有關(guān),在用軟件計(jì)算時(shí),我們實(shí)際使用的是顯著性P值(或記為sig)做檢驗(yàn)。,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思想,例5.4 對(duì)例3.1國(guó)際旅游外匯收入y對(duì)第三產(chǎn)業(yè)的12個(gè)變量做回歸的數(shù)據(jù),用前進(jìn)法做變量選擇,
22、取顯著性水平α進(jìn)=0.05。 首先進(jìn)入線(xiàn)性回歸對(duì)話(huà)框,將y與x1至x12分別選入各自的變量框,然后在Method對(duì)話(huà)框中點(diǎn)選前進(jìn)法Forward,點(diǎn)選Options選項(xiàng)看到默認(rèn)的顯著性水平α進(jìn)正是0.05。部分運(yùn)行結(jié)果如下:,§5.3 逐步回歸,,,§5.3 逐步回歸,,,§5.3 逐步回歸,,,§5.3 逐步回歸,,,一、問(wèn)題的提出及逐步回歸的思想,§5.3 逐步回歸
23、,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,續(xù)例5.4 對(duì)例3.1國(guó)際旅游外匯收入y對(duì)第三產(chǎn)業(yè)的12個(gè)變量做回歸的數(shù)據(jù),用后退法做變量選擇,取顯著性水平α出=0.10。 首先進(jìn)入線(xiàn)性回歸對(duì)話(huà)框,將y與x1至x12分別選入各自的變量框,然后在Method對(duì)話(huà)框中點(diǎn)選后退法Backward,點(diǎn)選Options選項(xiàng)看到默認(rèn)的顯著性水平α出正是0.10。部分運(yùn)
24、行結(jié)果見(jiàn)表5.4:,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,二、后退法,§5.3 逐步回歸,,,三、逐步回歸法,逐步回歸的基本思想是“有進(jìn)有出”。具體做法是將變量一個(gè)一個(gè)引入,當(dāng)每引入一個(gè)自變量后,對(duì)已選入的變量要進(jìn)行逐個(gè)檢驗(yàn),當(dāng)原引入的變量由于后面變量的引入而變得不再顯著時(shí),要將其剔除。這個(gè)過(guò)程反復(fù)進(jìn)行,直到既無(wú)顯著的自變量選入回歸
25、方程,也無(wú)不顯著自變量從回歸方程中剔除為止。這樣就避免了前進(jìn)法和后退法各自的缺陷,保證了最后所得的回歸子集是“最優(yōu)”回歸子集。,§5.3 逐步回歸,,,三、逐步回歸法,在逐步回歸中需要注意的一個(gè)問(wèn)題是引入自變量和剔除自變量的顯著性水平α值是不相同的,要求α進(jìn)<α出否則可能產(chǎn)生“死循環(huán)”。也就是當(dāng)α進(jìn)≥α出時(shí),如果某個(gè)自變量的顯著性P值在α進(jìn)與α出之間,那末這個(gè)自變量將被引入、剔除、再引入、再剔除、…,循環(huán)往復(fù),以至
26、無(wú)窮。,§5.3 逐步回歸,,,三、逐步回歸法,續(xù)例5.4 對(duì)例3.1國(guó)際旅游外匯收入y對(duì)第三產(chǎn)業(yè)的12個(gè)變量做回歸的數(shù)據(jù),用逐步回歸法做變量選擇,取顯著性水平α進(jìn)=0.05,α出=0.10。 首先進(jìn)入線(xiàn)性回歸對(duì)話(huà)框,將y與x1至x12分別選入各自的變量框,然后在Method對(duì)話(huà)框中點(diǎn)選逐步回歸法Stepwise,點(diǎn)選Options選項(xiàng)看到默認(rèn)的顯著性水平正是α進(jìn)=0.05,α出=0.10。部分運(yùn)行結(jié)果見(jiàn)表
27、5.5:,§5.3 逐步回歸,,,三、逐步回歸法,§5.3 逐步回歸,,,§5.4 本章小結(jié)與評(píng)注,,,一、逐步回歸實(shí)例分析,例5.5 為了研究香港股市的變化規(guī)律,此例以恒生指數(shù)為例,建立回歸方程,分析影響股票價(jià)格趨勢(shì)變動(dòng)的因素。這里我們選了6個(gè)影響股票價(jià)格指數(shù)的經(jīng)濟(jì)變量: x1(百萬(wàn)$) —成交額, x2—九九金價(jià)($/兩), x3—港匯指數(shù),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)缺失及相關(guān)因素對(duì)逐步回歸變量篩選的影響.pdf
- 篩選逐步回歸方法的改進(jìn)研究.pdf
- 自變量與應(yīng)變量的關(guān)系
- 小波分析與非線(xiàn)性逐步回歸預(yù)測(cè)方法的實(shí)現(xiàn)與應(yīng)用.pdf
- 基于逐步回歸預(yù)測(cè)模型的話(huà)務(wù)管理系統(tǒng)設(shè)計(jì).pdf
- 基于逐步回歸的新馬海峽航行風(fēng)險(xiǎn)模型研究.pdf
- 第1章 雙變量回歸分析
- 考慮自變量個(gè)數(shù)先驗(yàn)分布的貝葉斯變量選擇.pdf
- 基于決策樹(shù)的逐步回歸算法及在股票預(yù)測(cè)上的應(yīng)用
- 基于逐步回歸分析的六分量校準(zhǔn)系統(tǒng).pdf
- 逐步回歸在中國(guó)糧食總產(chǎn)量分析和預(yù)測(cè)中的應(yīng)用
- 基于逐步回歸分析的組合神經(jīng)網(wǎng)絡(luò)股指預(yù)測(cè)研究.pdf
- 自變量為區(qū)間刪失型數(shù)據(jù)的線(xiàn)性回歸分析.pdf
- 14200.幾種逐步變量選擇算法的探索與推廣
- 基于決策樹(shù)的逐步回歸算法及在股票預(yù)測(cè)上的應(yīng)用.pdf
- 基于逐步回歸方法對(duì)甘肅省投資環(huán)境落后的原因分析.pdf
- 基于逐步回歸分析的多年調(diào)節(jié)水庫(kù)年末消落水位確定.pdf
- Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf
- 因變量 自變量 控制變量 調(diào)節(jié)變量 介入變量
- 自變量和因變量的確定
評(píng)論
0/150
提交評(píng)論