版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、本文旨在充分利用這些約束條件和已知活躍協(xié)變量信息,繼而提高參數(shù)估計(jì)和變量選擇的效果,降低協(xié)變量之間相關(guān)性對特征篩選的影響。
在本文第二章中,我們研究了高維模型中參數(shù)約束下的變量選擇問題。參數(shù)約束是實(shí)際研究過程中常見的假設(shè)條件,研究者們根據(jù)問題背景和經(jīng)驗(yàn)常識可以確定參數(shù)滿足一定的限制條件。例如Fan et al.(2012)考慮證券投資組合問題,研究如何分配資金投資p個不同的證券以達(dá)到最大的回報(bào)。這個問題中就暗含有一個線性等式參
2、數(shù)約束∑pj=1βj=1。合理利用參數(shù)的約束條件,可以提高參數(shù)估計(jì)和變量選擇的效果,比如經(jīng)典統(tǒng)計(jì)中的約束最小二乘方法。首先,我們考慮X為列滿秩矩陣情形,忽略不影響優(yōu)化求解的常數(shù),根據(jù)拉格朗日對偶理論得到lcg-lasso的對偶問題為minu,ξ,η Q(u,ξ,η),s.t.||u||∞≤λ,ξκ≥0,其中Q(u,ξ,η)=1/2(r-DTu+CTξ+ETη)TS-1(r-DTu+CTξ+ ETη)-dTξ-fTη,S=XTX,r=XT
3、y,||u||∞表示u的∞-范數(shù)。而且,我們還得到原始解(β)和對偶解(u),(ξ),(η)之間的關(guān)系,(β)=S-1(r-DT(u)+CT(ξ)+ET(η)).很顯然,lcg-lasso的對偶問題是標(biāo)準(zhǔn)二次規(guī)劃。而且與原問題相比,其對偶問題所含的未知參數(shù)個數(shù)少,所有的約束條件也都是簡單的箱約束,所以我們能夠很方便地用2.4節(jié)中簡單有效的坐標(biāo)下降法進(jìn)行求解。另一方面,我們還研究了約束廣義Lasso的自由度問題,并通過最小化風(fēng)險(xiǎn)估計(jì)選擇最
4、優(yōu)調(diào)和參數(shù)。首先,我們根據(jù)對偶問題的KKT條件,定義了對偶解邊界集u={i:|(u)i|=λ}和C={k:(ξ)k=0},并按照對偶解和原始解的關(guān)系,得到原始解的邊界集A和B,其中A是D(β)不等于0的下標(biāo)集合,B是不等式約束等號成立的下標(biāo)集合。通過對偶解的邊界集及其性質(zhì),我們得到了對偶解的精確表達(dá)式,繼而得到原始解(β)和擬合(μ)=X(β)的表達(dá)式。我們在2.3節(jié)中證明了對偶解的邊界集和(β)分別是關(guān)于y的局部常數(shù)函數(shù)和連續(xù)函數(shù),以
5、及(μ)的一致Lipschtiz性,最終得到(μ)做為y的函數(shù)是連續(xù)且?guī)缀跆幪幙晌⒌摹R虼?,根?jù)Stein引理(Stein,1981),我們證明得到,當(dāng)y服從正態(tài)分布時(shí),對于任意的D,C,E和λ≥0,(μ)=X(β)的自由度表達(dá)式,df((μ))=E{nullity(G)},其中矩陣G表示(DT-u(y),-CTc(y),-ET)T或者(DT-A(y),-CTB(y),-ET)T。nullity(G)表示G的零空間的維數(shù)。但是,在實(shí)際應(yīng)
6、用中,設(shè)計(jì)矩陣X不一定滿足列滿秩的條件。在這種情形下,上述方法不再適用。因此,在第二章中,我們提出用簡單的類Elastic Net方法來處理非列滿秩設(shè)計(jì)矩陣問題。我們在原問題leg-lasso上額外增加一個l2懲罰項(xiàng),即minβ1/2||y-Xβ||22+λ||Dβ||1+γ||β||22, s.t Cβ≥d,Eβ=f,其中γ>0為一較小的正數(shù)。假設(shè)(β)*是上述優(yōu)化問題的解,我們得到(μ)=Xβ*的自由度df(μ)=E{nullity
7、(G)-γtr[(Ip-PG)S-1γ]},其中Sγ=XTX+γIp, PG=S-1/2γGT(GS-1γGT)+GS-1/2γ。得到lcg-lasso的自由度后,我們就可以通過最小化風(fēng)險(xiǎn)估計(jì)來選擇最優(yōu)的調(diào)和參數(shù)。鑒于Mallows'Cp準(zhǔn)則和AIC/BIC準(zhǔn)則之間的關(guān)系,我們定義如下BIC類型的準(zhǔn)則,BIC((μ);wn)=||y-(μ)||22/nσ2+wn/ndf((μ)),其中Wn是一個可選常數(shù)。當(dāng)wn=2,上述準(zhǔn)則為Mallo
8、ws'Cp準(zhǔn)則或者AIC準(zhǔn)則,當(dāng)Wn=log(n),BIC-類型準(zhǔn)則即為通常的BIC準(zhǔn)則。于是,我們可以選擇使得上述BIC類型準(zhǔn)則達(dá)到最小值的λ為約束廣義Lasso(lcg-lasso)的最優(yōu)調(diào)和參數(shù)。
在第三章,我們研究了已知部分活躍協(xié)變量或者強(qiáng)相關(guān)的預(yù)測變量條件下的超高維參數(shù)模型的特征篩選問題。Fan and Lv(2008)首次強(qiáng)調(diào)了特征篩選在超高維數(shù)據(jù)分析中的重要性,建議兩階段變量選擇來提高變量選擇和參數(shù)估計(jì)的效率,即
9、先對超高維數(shù)據(jù)進(jìn)行粗略的大幅度降維(特征篩選,feature screening),再進(jìn)行精細(xì)的變量選擇。自Fanand Lv(2008)提出SIS(Sure Independence Screening)特征篩選方法這一開創(chuàng)性工作以來,大量文獻(xiàn)就開始致力于超高維數(shù)據(jù)中特征篩選問題的研究。大多數(shù)的特征篩選方法都是通過排序邊際效應(yīng)進(jìn)行篩選,例如預(yù)測變量與響應(yīng)變量的邊際相關(guān)性。但是,簡單的邊際效應(yīng)特征篩選方法深受預(yù)測變量之間相關(guān)性的影響,例
10、如舍棄了隱藏型重要變量,錯誤選入了與活躍預(yù)測變量強(qiáng)相關(guān)的非活躍預(yù)測變量。在現(xiàn)實(shí)應(yīng)用中,基于一些預(yù)先研究和經(jīng)驗(yàn)常識,研究者們能夠事先確定一些與所研究的響應(yīng)變量相關(guān)的預(yù)測變量。
在第四章,我們主要考慮超高維多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)的特征篩選問題?,F(xiàn)有的特征篩選方法主要是針對回歸模型中均值函數(shù)的活躍預(yù)測變量。但是,方差函數(shù)在統(tǒng)計(jì)理論和應(yīng)用中有著至關(guān)重要的地位。雖然Zhu et al.(2011)和Lin etal.(20
11、13)在沒有模型結(jié)構(gòu)的條件下,篩選得到活躍預(yù)測變量集合的估計(jì),但是不能具體區(qū)分哪些活躍預(yù)測變量是屬于均值函數(shù),哪些活躍預(yù)測變量是屬于方差函數(shù)。在本文第四章,我們主要研究如下超高維多指標(biāo)異方差模型,Y=gμ(XTβ1,…,XTβK)+gv(XTθ1,…,XTθL)ε,其中g(shù)μ(·)和gv(·)表示未知的光滑函數(shù),X為p維的預(yù)測變量向量,ε與預(yù)測變量獨(dú)立,其均值為E(ε)=0,方差為E(ε2)=1。顯然,很多流行的半?yún)?shù)回歸模型都是上述多指
12、標(biāo)模型的特例,例如部分線性模型,單指標(biāo)模型和部分線性單指標(biāo)模型等等。首先,我們證明了文中第三章中的CMELR-CSIS可以自然拓展到多指標(biāo)同方差模型或者多指標(biāo)異方差模型中均值函數(shù)的特征篩選。這是因?yàn)?,在一定正則條件下,我們證明下列等價(jià)條件成立,j∈D∩ Aμ當(dāng)且僅當(dāng)E{[Xj-E(Xj|XTCβC)]Y}≠0,其中Aμ表示均值函數(shù)的活躍指標(biāo)集。于是,我們根據(jù)條件邊際經(jīng)驗(yàn)似然比得到了目標(biāo)集合D∩Aμ的估計(jì)(D∩A)μγn={j∈D:(lj
13、)≥γn},其中γn為預(yù)先給定的閾值參數(shù),(lj)是條件邊際經(jīng)驗(yàn)似然比lj=2∑ni=1log{1+λgij}的估計(jì)值,gij=[xij-E(Xj|XTiCβC)]Yi,λ表示滿足等式0=∑ni=1 gij(1+λgij)-1的拉格朗日乘子。為了不產(chǎn)生混淆,我們稱針對多指標(biāo)模型中均值函數(shù)的這種條件特征篩選方法為EL-CFS。另一方面,關(guān)于異方差模型中方差函數(shù)的特征篩選,由于E{[Xj-E(Xj|XTCβC)]Y2}=E{Xj-E(Xj|
14、XTCβC)][g2μ(Z1,…,ZK)+g2v(W1,…,WL)]}其中Zk=XTAμkβAμk,Wl=XTAvlθavl。則知中心化變量xj-E(Xj|XTCβC)與響應(yīng)變量的平方Y(jié)2之間相關(guān)性同時(shí)包含均值函數(shù)和方差函數(shù)的指標(biāo)信息。而且,在正則條件下,我們證明了j∈D∩A當(dāng)且僅當(dāng)E{[Xj-E(Xj|XTCβC)]Y2}≠0,其中A=Aμ∪Av是上述異方差模型的活躍指標(biāo)集,集合Av表示模型中方差函數(shù)的活躍指標(biāo)集。因此,我們可用(D∩
15、A)(γ)n={j∈D:(lμv,j)≥(γ)n}作為目標(biāo)集合D∩A的估計(jì),其中(γ)n是預(yù)先確定的閾值參數(shù),(lμv,j)=2∑ni=1 log{1+(λgij)}。需要注意的是,此時(shí)(gij)是gij=[Xij-E(Xj|XTiCβC)]Y2i的估計(jì)。由于此條件特征篩選方法是EL-CFS的修正版,所以我們簡稱之為mEL-CFS。顯然,(D∩Av)=(D∩Aγ)n\(D∩A)γn可以做為異方差模型中方差函數(shù)的活躍指標(biāo)集D∩Av的估計(jì)。
16、而且,我們證明了集合(D∪A)v是方差函數(shù)活躍指標(biāo)集D∩Av的一個相合估計(jì)。
因此,通過EL-CFS和mEL-CFS兩步條件特征篩選,我們能夠分別得到多指標(biāo)異方差模型中均值函數(shù)和方差函數(shù)活躍指標(biāo)集的相合估計(jì)。EL-CFS和mEL-CFS避免了多指標(biāo)異方差模型中未知的link函數(shù)gμ和gv的非參數(shù)估計(jì),而且在強(qiáng)相關(guān)的協(xié)變量情況下,依然能很好的工作。理論結(jié)果表明當(dāng)模型維數(shù)以樣本容量的指數(shù)級增長時(shí),條件特征篩選方法EL-CFS和mE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高維線性模型的變量選擇.pdf
- 若干高維模型變量選擇和模型重建問題的研究.pdf
- 高維特征篩選和時(shí)間序列下的模型選擇.pdf
- 高維部分線性Logistic模型的同時(shí)變量選擇和參數(shù)估計(jì).pdf
- 46150.高維部分線性cox模型的變量選擇
- 高維數(shù)據(jù)變量選擇的幾點(diǎn)研究.pdf
- 高維基因數(shù)據(jù)中的變量選擇.pdf
- 高維數(shù)據(jù)情形下半?yún)?shù)可加風(fēng)險(xiǎn)模型的變量選擇與估計(jì)
- 51853.含內(nèi)生協(xié)變量的高維半?yún)?shù)模型的廣義矩估計(jì)與變量選擇
- 23570.高維共線性統(tǒng)計(jì)模型的參數(shù)估計(jì)與變量選擇
- 面向高維異構(gòu)數(shù)據(jù)的特征選擇方法.pdf
- 面向高維數(shù)據(jù)的特征選擇算法研究.pdf
- 高維數(shù)據(jù)的特征選擇與特征提取研究.pdf
- 高維多重共線性數(shù)據(jù)的變量選擇問題.pdf
- 乘積模型的變量選擇.pdf
- 高維的強(qiáng)相關(guān)數(shù)據(jù)的模型選擇.pdf
- 高維面板數(shù)據(jù)模型中協(xié)變量選擇和異方差檢驗(yàn).pdf
- 基于條件信息熵的超高維分類數(shù)據(jù)特征篩選.pdf
- 基于PLS的變量選擇及其在高維數(shù)據(jù)中的應(yīng)用.pdf
- 基于遺傳算法的高維數(shù)據(jù)特征選擇和特征子集的組合分析.pdf
評論
0/150
提交評論