2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、特征選擇通常作為歸納學(xué)習(xí)的一個(gè)預(yù)處理操作,它旨在從原始數(shù)據(jù)的特征空間中選擇一個(gè)最優(yōu)的特征子集,使得在原始特征空間上的操作可以很好地在該特征子集空間上的操作來表示。特征選擇預(yù)處理過程可以獲得一個(gè)精簡而高效的特征子集,籍此簡化模式的表示和分類器的模型;同時(shí)較少的特征數(shù)量可以減輕因訓(xùn)練數(shù)據(jù)過少所引起的過度擬合問題(Over-fitting)。 盡管特征選擇很早就得劍了廣泛的研究,但是特征選擇理論和方法仍然面臨高維數(shù)據(jù)的挑戰(zhàn)(如文本分類

2、等領(lǐng)域包含高達(dá)數(shù)萬維特征的數(shù)據(jù)),存在著效率上和性能上的缺陷。為了獲得最優(yōu)特征子集,大部分的特征選擇方法需要對特征子集進(jìn)行完全搜索,并計(jì)算在給定的評價(jià)標(biāo)準(zhǔn)下特征子集的的表現(xiàn),因此搜索過程和評價(jià)過程需要耗費(fèi)大量的計(jì)算時(shí)間,以目前的計(jì)算能力在數(shù)萬維特征空間進(jìn)行完全特征子集搜索是不可行的。根據(jù)國內(nèi)外最新研究狀況以及不斷涌現(xiàn)出來的具有高維特征空間新領(lǐng)域的趨勢,為了解決文本信息處理中的特征選擇及其應(yīng)用問題,主要在以下幾個(gè)方面等進(jìn)行了相關(guān)的研究。

3、 首先,從優(yōu)化分類器模型的基本假設(shè)的角度出發(fā),文本分類的概率統(tǒng)計(jì)模型通常假設(shè)特征之間是獨(dú)立的,比如信息檢索中常用的樸素貝葉斯分類,貝葉斯分類由于簡單、高效的特性,應(yīng)用菲常普遍,常常作為基準(zhǔn)算法與其他分類方法相比較。然而,在大規(guī)模的文本中,由于把詞條作為特征,字詞之間比較密切的語義關(guān)聯(lián)導(dǎo)致了特征之間存在一定的依賴關(guān)系,這在一定程度上違反了貝葉斯假設(shè),分類精確度受到影響。因此通過利用Chi2檢驗(yàn)方法來度量特征的獨(dú)立性和依賴性,以尋找最

4、大化滿足基本假設(shè)的特征子集為目標(biāo),提取那些與類最相關(guān)、相互依賴度最小的特征子集,獲得類別域上的最佳特征子集,從根本上改善分類器的基本假設(shè)。 其次,通過分析特征之間存在著依賴關(guān)系,根據(jù)特征相關(guān)性理論將特征劃分為四種類別:強(qiáng)相關(guān)、弱相關(guān)、無關(guān)和冗余特征,強(qiáng)相關(guān)特征和部分弱相關(guān)特征是特征選擇的目標(biāo)所在,面無關(guān)特征、冗余特征以及部分弱相關(guān)特征是要剔除的。通過Chi2檢驗(yàn)統(tǒng)計(jì)方法,建立了Markov Blanket理論和特征楣關(guān)性之間的聯(lián)

5、系,理論上證明了強(qiáng)相關(guān)特征不存在Markov Blanket。提出了一種基于前向選擇的近似Markov Blanket的特征選擇算法,算法首先從構(gòu)建一個(gè)包含強(qiáng)相關(guān)特征的目標(biāo)特征子集開始,依次尋找其他特征是否在目標(biāo)特征子集中存在Markov Blanket并剔除冗余特征,在尋找MarkovBlanket時(shí),本文采用了啟發(fā)式的近似方法,獲得近似最優(yōu)的特征子集。 再次,對于大部分特征選擇方法要對特征進(jìn)行離散化以后才能處理連續(xù)型數(shù)值特征

6、的問題,提出了基于特征抽取進(jìn)行特征選擇的方法,對線性判別分析(LDA)方法施加特定的限制,將特征選擇問題轉(zhuǎn)換為LDA的優(yōu)化問題。與LDA相同的是,提出的方法尋找一個(gè)具有最大化類間判別能力的特征子集,其計(jì)算復(fù)雜度呈線性并且容易計(jì)算和理解;與LDA不同的是,本文方法不轉(zhuǎn)換或組合特征,也不需要計(jì)算散布矩陣的特征向量來獲得最優(yōu)判別向量,因此不要求散布矩陣的非奇異性質(zhì)。 最后,WWW客戶端的緩沖反映了用戶豹最近興趣,對Web Cache的

7、緩沖機(jī)制進(jìn)行分析并對Web鏈接結(jié)構(gòu)做出分析假設(shè),充分利用Web頁面的鏈接信息,將WWW客戶端緩沖頁面建模為圖模型,同時(shí)對文本信息進(jìn)行特征選擇,提出了基于幽鏈接的興趣鏈接聚類算法,獲得用戶興趣聚類。由于目前的用戶興趣剖像表示方法無法實(shí)現(xiàn)搜索的查詢擴(kuò)展,因此本文提出一種新的用戶興趣剖像特征表示一一關(guān)聯(lián)規(guī)則組合的方法,關(guān)聯(lián)規(guī)則考慮了詞條和詞條間的語義關(guān)聯(lián)關(guān)系,而關(guān)聯(lián)組合克服了關(guān)聯(lián)規(guī)則中的無用規(guī)則,可以有效的被利用來進(jìn)行查詢擴(kuò)展,最后提出一個(gè)基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論