基于云模型的中文面向查詢多文檔自動文摘研究.pdf_第1頁
已閱讀1頁,還剩151頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)上包含著海量的并且時刻在增加的信息。針對用戶輸入的一個簡單查詢,搜索引擎一般會返回用戶可能需要的一系列經(jīng)過排序的網(wǎng)頁,其中有大量不相關(guān)的、重復(fù)的數(shù)據(jù),需要用戶耗費(fèi)很多精力來自己查找有用的結(jié)果。面向查詢的多文檔自動文摘技術(shù)將大量的查詢相關(guān)文檔中的內(nèi)容提煉、重組為一定長度的簡短摘要,加速用戶的信息獲取,通常要求摘要的內(nèi)容簡潔、組織良好、冗余低、滿足個性化需求。面向查詢的多文檔自動文摘技術(shù)能夠減小從海量數(shù)據(jù)中獲取信息的

2、難度,提高信息獲取及理解的速度,進(jìn)而提高用戶獲取以及利用信息的效率,提高使用者在信息社會中的競爭實(shí)力。
   云模型是李德毅院士提出的一種處理不確定性概念中模糊性、隨機(jī)性及其關(guān)聯(lián)性的定性定量轉(zhuǎn)換模型。云模型從研究自然語言概念的不確定性入手,展開對不確定性人工智能的研究。雖然云模型發(fā)端于自然語言中的概念,但遺憾的是,就目前搜集到的論文情況看來,將云模型直接應(yīng)用在自然語言處理領(lǐng)域本身的工作還比較少見。
   本論文針對中文語

3、料中的面向查詢多文檔自動文摘展開了研究.首先構(gòu)建可以用于公開評測的評測語料、人工摘要;在此基礎(chǔ)上利用云模型進(jìn)行文摘內(nèi)容選取、句子修剪、句子排序,力圖生成滿足用戶需求的聚焦度高、內(nèi)容精練、可讀性好的連貫摘要;最后采用修改后的ROUGE工具進(jìn)行中文文摘自動評測。
   本文主要研究工作和研究成果概括如下:
   一、提出了一種基于云模型的文摘單元選取方法,利用云模型,全面考慮文摘單元的隨機(jī)性和模糊性,提高面向查詢的多文檔自動

4、文摘系統(tǒng)的性能。首先計(jì)算文摘單元和查詢條件的相關(guān)性,將文摘單元和各個查詢詞的相關(guān)度看成云滴,通過對云的不確定性的計(jì)算,找出與查詢條件真正意義相關(guān)的文摘單元。隨后利用文檔集合重要度對查詢相關(guān)的結(jié)果進(jìn)行修正,將文摘句和其他各文摘句的相似度看成云滴,利用云的數(shù)字特征計(jì)算句子重要度,找出能夠概括盡可能多的文檔集合內(nèi)容的句子,避免片面地只從某一個方面回答查詢問題。為了證明文摘單元選取方法的有效性,在英文大規(guī)模公開語料上進(jìn)行了實(shí)驗(yàn),并參加了國際自動

5、文摘公開評測,取得了較好的成績。
   二、構(gòu)建了中文自動文摘評測語料庫及中文自動評測工具,并以此為基礎(chǔ),構(gòu)建了一種基于云模型的中文面向查詢多文檔自動文摘系統(tǒng)。中文自動文摘評測語料庫由1000篇文檔、100個文檔集合和查詢條件、400篇人工摘要構(gòu)成.通過修改英文文摘評測工具ROUGE的源程序,實(shí)現(xiàn)了中文自動文摘的ROUGE自動評測。首先將50個文檔集合作為訓(xùn)練語料,采用哈工大最新共享的語言技術(shù)平臺進(jìn)行句子切分、分詞;隨后利用中文

6、自動評測工具,在測試語料中進(jìn)行參數(shù)訓(xùn)練;最后采用基于云模型的文摘單元選取方法生成中文摘要,就此搭建了中文云摘要系統(tǒng).
   三、提出了一種基于多維云和依存分析的中文句子修剪方法,進(jìn)一步提高文摘質(zhì)量。首先制定基于依存分析的句子修剪規(guī)則,對每個候選文摘句進(jìn)行句子修剪,從而產(chǎn)生多候選句;隨后利用多維云,綜合考慮詞語在句子、文檔集合中的分布以及和查詢條件的相關(guān)性,對各修剪句進(jìn)行打分,在云的疊加過程中實(shí)現(xiàn)了不確定性的有效傳遞;最后選取那些

7、包含信息量最大、長度最短的修剪句替換候選文摘句,構(gòu)成自動摘要,從而使文摘包含更多的有效信息。
   四、提出了一種基于云模板的文摘句排序方法,使生成的中文云摘要更加連貫。云模板的方法將文檔集合中的每一篇文檔都看成模板,利用云模型將各篇文檔的排序結(jié)果綜合到一起,既避免了單一模板方法對于單個文檔的依賴,也避免了多數(shù)次序方法只能兩兩排序的缺點(diǎn)。首先利用基于復(fù)雜網(wǎng)絡(luò)的自適應(yīng)增量聚類方法對文檔集合進(jìn)行聚類,找出那些包含有一個或多個文摘句的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論