職位信息并行抽取系統(tǒng)設計與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著招聘網站不斷的增多,通過網絡查找招聘信息已成為目前求職者的主要求職方式。每天都會有成千上萬的職位信息發(fā)布在不同的招聘網站上,這些職位信息量大且冗雜。求職者想要準確而全面地獲取所需職位信息,就不得不在各大網站間查詢或者通過搜索工具搜尋。在各大網站間查詢,存在難以全面獲取所需職位信息和切換網站查詢工作量大等問題。而使用通用搜索工具,雖然獲得的信息相較于前者更加豐富全面,但又會存在信息冗余度大和選擇困難等問題。
  文中通過研究分布

2、式系統(tǒng)并行化抽取職位信息的結構與方法解決職位信息的快速抽取問題;通過研究基于正則化的提取方法解決職位信息分布散且雜的問題;通過研究一種高效地去除冗余信息的方法解決職位信息冗雜的問題。最終達到抽取的職位信息全而重復信息量少的目的,為用戶提供友好的交互接口,方便用戶快捷方便地獲取所需要的職位信息。論文主要工作如下:
 ?。?)職位信息并行抽取系統(tǒng)的總體設計。為定位信息抽取的數(shù)據來源,需對各站點的職位信息鏈接進行爬取;為獲取具體的職位信

3、息,需根據鏈接相對應頁面中的職位信息進行抽??;由于抽取的職位信息中存在冗余,需對抽取的信息去重后方可入庫;為方便用戶獲取職位信息,需提供信息搜索服務。因此,系統(tǒng)主要包括職位信息爬蟲模塊、抽取模塊、去重模塊和搜索模塊。
 ?。?)職位信息并行抽取系統(tǒng)的詳細設計與實現(xiàn)。針對職位信息分散且量大的問題,在爬蟲模塊采用分布式Nutch進行網絡爬蟲以達到職位信息鏈接快速爬取的目的。為獲得結構化的職位信息,采用基于正則化的抽取方法抽取職位信息,

4、該方法能準確解析復雜的信息結構,同時為了提高職位信息抽取效率,采用具有高效性的并行計算框架實現(xiàn)職位信息并行化抽取,從而達到準確高效地抽取信息的目的。為了解決職位信息存在冗余的問題,在去重模塊中采用MD5算法結合Spark進行職位信息迭代去重,由于Spark的內存計算方式優(yōu)化了迭代工作負載,從而提高職位信息去重時間上的效率。此外,對去重的職位信息創(chuàng)建索引,提供搜索功能。
 ?。?)對職位信息并行抽取系統(tǒng)進行相關功能及性能測試。職位信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論