基于軍事應(yīng)用的網(wǎng)絡(luò)情報智能搜索技術(shù).pdf_第1頁
已閱讀1頁,還剩92頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、情報的收集、處理與研究工作關(guān)系到國家各方面的發(fā)展與進(jìn)步。評定一個國家軍隊?wèi)?zhàn)斗力的強(qiáng)弱,除戰(zhàn)略、戰(zhàn)術(shù)、技術(shù)裝備、武器裝備、教育水平等因素之外,情報工作的收集能力之強(qiáng)弱,是評價標(biāo)準(zhǔn)的重要組成部份,尤其在高度信息化的“第三波戰(zhàn)爭”時代,情報工作的高科技化及杰出的收集能力,已成為國防現(xiàn)代化最主要的努力方向。隨著世界各國在各個領(lǐng)域的競爭日趨激烈,情報收集、研究工作也受到各個國家越來越多的重視。 情報搜集是情報研究工作的基礎(chǔ)和前提,是情報分

2、析的物質(zhì)基礎(chǔ),對公開軍事情報資料的搜集是軍事情報搜集不可缺少的組成部分。隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,從互聯(lián)網(wǎng)上獲取公開的情報信息成為情報收集的一個重要途徑,受到各國情報部門的普遍重視。但由于互聯(lián)網(wǎng)具有自由、異構(gòu)的特點(diǎn),使得人們直接在互聯(lián)網(wǎng)上搜集有價值的情報資料時,面臨著巨大的困難,必須求助于相應(yīng)的工具軟件。搜索引擎技術(shù)的出現(xiàn)使得這一困難在某種程度上得到了緩解,但同時搜索引擎又帶來了許多新的問題,如“信息過載”、“相關(guān)度差”等。

3、 本課題將以網(wǎng)絡(luò)標(biāo)準(zhǔn)搜索引擎為依托,采用元搜索、網(wǎng)頁信息提取與噪聲消除、中文分詞與歧義剔除和向量空間模型(Vector Space Model, VSM)等技術(shù),開發(fā)基于軍事應(yīng)用的智能化網(wǎng)絡(luò)搜索工具。該工具以用戶自定義關(guān)鍵詞為基礎(chǔ),自動進(jìn)行多引擎調(diào)度,搜集Internet 上的公開情報資料,通過搜尋、分類、去重、排序等綜合性自動處理、將具有高相關(guān)度的公開情報信息以鏈接的形式存入情報數(shù)據(jù)庫并反饋給用戶作為最新情報信息資料。

4、本論文的主要工作如下: 1 搜索技術(shù) 在分析搜索引擎結(jié)構(gòu)框架的基礎(chǔ)上,提出并開發(fā)基于元搜索引擎技術(shù)的網(wǎng)絡(luò)情報搜集系統(tǒng)(NISF)。以不間斷運(yùn)行、定時搜索的方式,進(jìn)行網(wǎng)絡(luò)公開情報資料的收集。NISF 元搜索系統(tǒng)包括用戶接口、標(biāo)準(zhǔn)搜索引擎分配和調(diào)用機(jī)制以及搜索結(jié)果處理與返回三個主要方面。 在用戶接口設(shè)計上,構(gòu)建情報用戶需求模型,提出了基于關(guān)鍵詞列表和用戶反饋的情報用戶模型,通過不斷收集用戶的反饋信息,調(diào)整關(guān)鍵詞權(quán)重,

5、使用戶模型逐漸趨向于用戶真實需求,提高情報信息搜索的準(zhǔn)確性。 在對標(biāo)準(zhǔn)搜索引擎分配調(diào)用機(jī)制上,提出了分配系數(shù)的概念和數(shù)學(xué)模型,針對用戶搜索主題描述,利用分配系數(shù)評判標(biāo)準(zhǔn)搜索引擎在該類主題上的搜索性能,選擇最優(yōu)的標(biāo)準(zhǔn)搜索引擎完成搜索任務(wù)。 在搜索結(jié)果處理與返回上,采用數(shù)據(jù)庫技術(shù)剔除搜索結(jié)果中標(biāo)題或URL相同的信息,使用VSM 分析計算搜索結(jié)果與用戶需求模型之間的相關(guān)度,在此基礎(chǔ)上提出了一種改進(jìn)的基于用戶反饋的文本自適應(yīng)過濾

6、算法。在搜索信息提取上提出了基于HTML 標(biāo)記符號和關(guān)鍵詞的主題鏈接、主題文本內(nèi)容提取算法以及Web 頁面文本內(nèi)容提取結(jié)果評價方法與數(shù)學(xué)模型。 2 情報處理技術(shù) 本文對情報文檔處理的主要任務(wù)是實現(xiàn)情報分檔自動分類。由于目前計算機(jī)還不能完全理解自然語言,因此常用抽取文檔高頻詞的方法描述文檔。 本文在抽取高頻詞上提出一種基于詞典和詞頻的中文分詞方法。在比較向量空間模型和集合運(yùn)算模型的基礎(chǔ)上,采用向量空間模型計算文檔相

7、似度;在描述文檔距離上,比較了余弦公式與歐氏距離的性能,最終采用余弦公式計算文檔間的距離。在分類算法上采用一種VSM、KNN 和SVM 相結(jié)合的文檔分類算法。最后將分類結(jié)果存入數(shù)據(jù)庫。 3 軟件系統(tǒng)開發(fā)與實現(xiàn) 基于以上技術(shù),在Microsoft WindowsXP 系統(tǒng)上,采用Borland Delphi7.0開發(fā)基于軍事應(yīng)用的網(wǎng)絡(luò)情報搜集系統(tǒng)(Network Intelligence Search Finder,NIS

8、F)。 結(jié)論: 1 基于關(guān)鍵詞和用戶反饋的用戶需求模型可以量化用戶需求,比較真實地反映用戶的檢索請求。 2 分配系數(shù)能夠很好地評價標(biāo)準(zhǔn)搜索引擎在搜索某個關(guān)鍵詞上的性能,為元搜索系統(tǒng)調(diào)用標(biāo)準(zhǔn)搜索引擎提供了依據(jù)。 3 改進(jìn)的基于用戶反饋的自適應(yīng)文本過濾算法能夠使用戶得到相關(guān)度更高的情報信息。 4 Web 頁面信息提取技術(shù)在Web 頁面鏈接和文本內(nèi)容提取上有很好的表現(xiàn),主題信息率的提出為評價Web 頁面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論