2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩69頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)是一種用來分析大規(guī)模文檔的概率主題模型,它從文檔的單詞表示中抽取出語義相關(guān)的主題集合,將文檔從單詞空間變換到主題空間,得到文檔在低維主題空間中的表達。然而LDA的使用者往往會遇到兩個問題:一是公用詞和停用詞幾乎占據(jù)了所有的主題,LDA的主題分布向高頻詞傾斜,能夠代表主題的關(guān)鍵詞被少量的高頻詞掩蓋,從而導(dǎo)致較差的主題可解釋性;二是如何改善基于主題特征的低維空

2、間表示,以提高檢索、聚類和分類準確率。針對這兩個問題,我們從連續(xù)特征、非對稱先驗和稀疏約束這三個方面對LDA進行分析。
  LDA使用離散的詞頻特征作為輸入,假設(shè)語料庫中單詞的重要程度只與詞頻相關(guān)。連續(xù)特征考慮不同位置單詞的區(qū)別,并給予在部分文檔中出現(xiàn)頻率高而在語料庫的其它文檔中出現(xiàn)頻率低的單詞一個較高的值,而給予在整個語料庫所有文檔中出現(xiàn)頻率都很高的單詞一個較低的值。停用詞和公用詞的特征值得到降低,使得主題分布中這些詞的概率值變

3、小,得到連貫的主題表示。因為公用詞對LDA參數(shù)推理和估計也有一部分貢獻,所以連續(xù)特征對改善主題空間低維表示的效果并不是十分顯著。
  LDA的先驗通常啟發(fā)性地設(shè)定為對稱的固定值,然而,利用每次迭代得到的主題信息去估計先驗將會更加接近于真實值。對稱先驗使公用詞和停用詞以相同的可能性分配給所有的主題,而非對稱先驗會使停用詞以較大的可能性分配給有較高先驗的主題,讓停用詞集中出現(xiàn)在少數(shù)幾個主題中。在模型的訓(xùn)練過程中,通過對先驗的學(xué)習(xí),提高

4、了模型的后驗概率,使主題特征的低維空間表示更加精確。
  通常越稀疏的信息就能越清晰的反映出它所表示的意義,停用詞和公用詞往往出現(xiàn)在多個主題中,它們的主題表示有較低的稀疏度,而一些反映主題意義的關(guān)鍵詞的主題表示則有較高的稀疏度。在模型參數(shù)估計和推理的過程中增加稀疏限定,去鼓勵那些有較高主題稀疏度的單詞,懲罰有較低主題稀疏度的單詞。從而解決LDA中停用詞和公用詞的問題,并改善主題特征的低維空間表示。
  本文在LDA模型的基礎(chǔ)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論