版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web已蘊(yùn)含著海量的豐富資源,包羅萬(wàn)象,是人類(lèi)一筆寶貴的知識(shí)財(cái)產(chǎn)。Web按其所蘊(yùn)涵信息的深度可分為Surface Web和Deep Web。據(jù)統(tǒng)計(jì),99%的互聯(lián)網(wǎng)數(shù)據(jù)是屬于Deep Web數(shù)據(jù),并且其中很多都公開(kāi)免費(fèi)使用的。面對(duì)如此巨大的網(wǎng)絡(luò)資源,如何有效地,方便地訪(fǎng)問(wèn)和利用Deep Web中的資源,成為一個(gè)重要的話(huà)題。
本論文以Deep Web數(shù)據(jù)自動(dòng)抽取系統(tǒng)為目標(biāo),針對(duì)于某一個(gè)領(lǐng)域,解決了De
2、ep Web數(shù)據(jù)自動(dòng)抽取中的主要問(wèn)題,包括入口查找,查詢(xún)提交,詳細(xì)頁(yè)面定位及結(jié)果抽取等主要關(guān)鍵技術(shù)問(wèn)題。具體如下:
基于決策樹(shù)的入口查找:針對(duì)于Deep Web查詢(xún)?nèi)肟谧R(shí)別問(wèn)題,本章利用決策樹(shù)算法來(lái)生成有效入口規(guī)則,對(duì)面向某一領(lǐng)域的入口進(jìn)行判斷,該算法可以挖掘潛在的入口識(shí)別規(guī)則,可以避免常用的啟發(fā)式規(guī)則具有的缺陷;
Deep Web交互技術(shù)研究:Deep Web數(shù)據(jù)抽取中,如何有效的與Deep Web所對(duì)應(yīng)的
3、數(shù)據(jù)庫(kù)接口進(jìn)行交互,是能否從Deep Web中抽取到數(shù)據(jù)和抽取到有效數(shù)據(jù)的重要技術(shù),本章對(duì)現(xiàn)存的交互技術(shù)進(jìn)行實(shí)驗(yàn)分析,為各種不同的用途提供交互技術(shù)選擇參考;
基于聚類(lèi)算法的查詢(xún)結(jié)果定位:Deep Web查詢(xún)結(jié)果定位問(wèn)題是一個(gè)常常被忽視的問(wèn)題。大多數(shù)研究的抽取是針對(duì)于Deep Web響應(yīng)頁(yè)面,然后響應(yīng)頁(yè)面只提供摘要信息,并沒(méi)有很詳細(xì)的信息。而Deep Web詳細(xì)頁(yè)面則是一個(gè)信息完整的頁(yè)面,包含著Deep Web主題的主要信息
4、。本章使用Simple K Means聚類(lèi)算法來(lái)訓(xùn)練模型,通過(guò)增加權(quán)值米對(duì)距離公式進(jìn)行調(diào)整,使得定位結(jié)果得到進(jìn)一步提高;
基于樹(shù)匹配的查詢(xún)結(jié)果頁(yè)面抽?。篋eep Web詳細(xì)頁(yè)面雖然具有統(tǒng)一模式,但結(jié)構(gòu)復(fù)雜,內(nèi)容復(fù)雜。相對(duì)于摘要頁(yè)面來(lái)說(shuō),更具有挑戰(zhàn)性,本章在樹(shù)匹配的基礎(chǔ)上,對(duì)詳細(xì)頁(yè)面數(shù)據(jù)進(jìn)行抽取,采用詞頻計(jì)算法對(duì)抽取結(jié)果中的噪音進(jìn)行處理,使得抽取結(jié)果可以更豐富一些;
本文對(duì)于提出的各種方法、模型和算法都進(jìn)行了相
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 特定領(lǐng)域的Deep Web數(shù)據(jù)抽取與語(yǔ)義標(biāo)注研究.pdf
- 面向特定領(lǐng)域的Deep Web數(shù)據(jù)獲取技術(shù)研究.pdf
- 特定領(lǐng)域的Deep Web查詢(xún)集成及結(jié)果抽取.pdf
- 面向Deep Web數(shù)據(jù)集成的數(shù)據(jù)抽取研究.pdf
- 面向deep web的數(shù)據(jù)抽取與結(jié)果聚合技術(shù)研究.pdf
- 面向Deep Web的數(shù)據(jù)抽取與語(yǔ)義標(biāo)注技術(shù)研究.pdf
- 用于Deep Web數(shù)據(jù)集成的數(shù)據(jù)抽取技術(shù).pdf
- 面向領(lǐng)域的Web數(shù)據(jù)集成中數(shù)據(jù)抽取的研究.pdf
- 基于視覺(jué)信息和DOM樹(shù)的Deep Web數(shù)據(jù)自動(dòng)抽取.pdf
- 特定領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法的研究.pdf
- 特定領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的自動(dòng)抽取.pdf
- Deep Web數(shù)據(jù)抽取及語(yǔ)義標(biāo)注研究.pdf
- Deep Web查詢(xún)轉(zhuǎn)換和數(shù)據(jù)抽取的研究.pdf
- 面向領(lǐng)域的Deep Web的增量爬取.pdf
- Deep Web數(shù)據(jù)抽取及集成技術(shù)研究.pdf
- 面向領(lǐng)域的Deep Web查詢(xún)接口發(fā)現(xiàn)研究.pdf
- 基于Hadoop的Deep Web查詢(xún)結(jié)果自動(dòng)抽取研究.pdf
- Deep Web數(shù)據(jù)抽取關(guān)鍵技術(shù)研究.pdf
- 基于結(jié)果模式的Deep Web數(shù)據(jù)抽取機(jī)制的研究.pdf
- 面向Deep Web數(shù)據(jù)集成的數(shù)據(jù)融合問(wèn)題研究.pdf
評(píng)論
0/150
提交評(píng)論