2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Lucene初級教程初級教程2007122615:24點擊次數(shù):0次1lucene簡介1.1什么是luceneLucene是一個全文搜索框架,而不是應(yīng)用產(chǎn)品。因此它并不像或者googleDesktop那么拿來就能用,它只是提供了一種工具讓你能實現(xiàn)這些產(chǎn)品。2lucene的工作方式lucene提供的服務(wù)實際包含兩部分:一入一出。所謂入是寫入,即將你提供的源(本質(zhì)是字符串)寫入索引或者將其從索引中刪除;所謂出是讀出,即向用戶提供全文搜索服務(wù)

2、,讓用戶可以通過關(guān)鍵詞定位源。2.1寫入流程源字符串首先經(jīng)過analyzer處理,包括:分詞,分成一個個單詞;去除stopwd(可選)。將源中需要的信息加入Document的各個Field中,并把需要索引的Field索引起來,把需要存儲的Field存儲起來。將索引寫入存儲器,存儲器可以是內(nèi)存或磁盤。2.2讀出流程用戶提供搜索關(guān)鍵詞,經(jīng)過analyzer處理。對處理后的關(guān)鍵詞搜索索引找出對應(yīng)的Document。用戶根據(jù)需要從找到的Docu

3、ment中提取需要的Field。3一些需要知道的概念3.1analyzerAnalyzer是分析器,它的作用是把一個字符串按某種規(guī)則劃分成一個個詞語,并去除其中的無效詞語,這里說的無效詞語是指英文中的“of”、“the”,中文中的“的”、“地”等詞語,這些詞語在文章中大量出現(xiàn),但是本身不包含什么關(guān)鍵信息,去掉有利于縮小索引文件、提高效率、提高命中率。分詞的規(guī)則千變?nèi)f化,但目的只有一個:按語義劃分。這點在英文中比較容易實現(xiàn),因為英文本身就

4、是以單詞為單位的,已經(jīng)用空格分開;而中文則必須以某種方法將連成一片的句子劃分成一個個詞語。具體劃分方法下面再詳細介紹,這里只需了解分析器的概念即可。3.2document用戶提供的源是一條條記錄,它們可以是文本文件、字符串或者數(shù)據(jù)庫表的一條記錄等等。一條記錄經(jīng)過索引之后,就是以一個Document的形式存儲在索引文件中的。用戶進行搜索,也是以Document列表的形式返回。3.3field一個Document可以包含多個信息域,例如一篇

5、文章可以包含“標題”、“正文”、“最后修改時間”等信息域,這些信息域就是通過Field在Document中存儲的。Field有兩個屬性可選:存儲和索引。通過存儲屬性你可以控制是否對這個Field進行存儲;通過索引屬性你可以控制是否對該Field進行索引。這看起來似乎有些廢話,事實上對這兩個屬性的正確組合很重要,下面舉例說明:還是以剛才的文章為例子,我們需要對標題和正文進行全文搜索,所以我們要把索引屬性設(shè)置為真,同時我們希Fieldfie

6、ld=newField(“content“newFileReader(file))這里的file就是該文本文件。該構(gòu)造函數(shù)實際上是讀去文件內(nèi)容,并對其進行索引,但不存儲。Lucene2教程教程Lucene是apache組織的一個用java實現(xiàn)全文搜索引擎的開源項目。其功能非常的強大,api也很簡單??偟脕碚f用Lucene來進行建立和搜索和操作數(shù)據(jù)庫是差不多的(有點像),Document可以看作是數(shù)據(jù)庫的一行記錄,F(xiàn)ield可以看作是數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論