版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、互聯(lián)網(wǎng)的發(fā)展提供了越來越豐富的信息,但這種信息海洋也使得用戶在獲得有效信息的同時(shí),被越來越多的冗余信息所困擾,因此迫切需要一個(gè)幫助人們快速瀏覽的工具,自動(dòng)文摘是解決這一問題的一種非常有效的技術(shù)。單文檔自動(dòng)文摘是根據(jù)用戶需求按照字?jǐn)?shù)或百分比等方式從原文件中提煉出最重要信息生成文摘的過程,其結(jié)果為足以代表該原始文件的精簡版本。單文檔自動(dòng)文摘在問答、搜索引擎、信息系統(tǒng)以及醫(yī)療、金融等領(lǐng)域都有廣泛的應(yīng)用。
單文檔自動(dòng)文摘系統(tǒng)主要包
2、括相似度的計(jì)算算法、聚類分析算法兩個(gè)核心算法,本文對單文檔文摘系統(tǒng)進(jìn)行設(shè)計(jì)的基礎(chǔ)上,重點(diǎn)對這兩種算法進(jìn)行了研究和實(shí)現(xiàn)。本文所作的主要工作如下:
1)介紹了單文檔文摘系統(tǒng)的國內(nèi)外研究現(xiàn)狀,實(shí)現(xiàn)技術(shù)以及經(jīng)典處理流程,并引出單文檔文摘系統(tǒng)的兩個(gè)關(guān)鍵技術(shù):句子間相似度計(jì)算和聚類分析。
2)句子間相似度的計(jì)算是進(jìn)行抽取的前提,為文摘的后續(xù)聚類以及中心句抽取的準(zhǔn)確性提供保證,同時(shí)它也是自動(dòng)問答系統(tǒng)和機(jī)器翻譯領(lǐng)域很重要的基
3、礎(chǔ)。本文把句子相似度算法進(jìn)行分析分成了兩類:基于詞表面的算法和基于語義和句法的算法。本文實(shí)現(xiàn)了第一類中的基于字符串匹配的算法和基于詞串粒度和權(quán)值的算法。并在這兩個(gè)算法上進(jìn)行了實(shí)驗(yàn)和對比分析。
3)本文介紹了單文檔文摘系統(tǒng)中的多種聚類分析算法,并實(shí)現(xiàn)了其中部分算法,包括:基于最短距離的聚類方法、基于最長距離的方法、基于平均距離的方法和基于局部主題的方法,并分析各聚類方法的優(yōu)缺點(diǎn)。最后通過對各種算法的實(shí)現(xiàn)過程進(jìn)行了論述,并對算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究.pdf
- 面向主題的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究.pdf
- 中文單文檔自動(dòng)文摘技術(shù)研究.pdf
- 面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究.pdf
- 中文多文檔文摘關(guān)鍵技術(shù)研究.pdf
- 中文自動(dòng)文摘關(guān)鍵技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于本體的BLOG文檔自動(dòng)摘要關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 文檔管理系統(tǒng)關(guān)鍵技術(shù)研究
- 文檔管理系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 摘錄式單文檔中文自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于領(lǐng)域本體的Web文檔自動(dòng)摘要關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 多郵件自動(dòng)文摘的關(guān)鍵技術(shù)研究.pdf
- 中文自動(dòng)分詞關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 基于主題的多文檔自動(dòng)文摘技術(shù)研究與實(shí)現(xiàn).pdf
- 圖像自動(dòng)分割關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 文檔安全保護(hù)系統(tǒng)中防主動(dòng)泄密關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 智能文檔關(guān)鍵技術(shù)研究.pdf
- 自動(dòng)測試系統(tǒng)中的關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 中文網(wǎng)頁自動(dòng)分類系統(tǒng)及關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 異常文檔圖像處理的關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
評論
0/150
提交評論