基于Web客戶端數(shù)據(jù)的個(gè)性化推薦技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著網(wǎng)絡(luò)信息的迅速膨脹,人們從Web上獲取感興趣信息越來越困難。因此,為用戶提供感興趣信息的個(gè)性化推薦技術(shù)獲得了廣泛關(guān)注。目前個(gè)性化推薦技術(shù)多數(shù)是基于Web服務(wù)器端數(shù)據(jù)的,無法從根本上解決用戶難以較好地獲取感興趣信息的問題。而Web客戶端數(shù)據(jù)包含單個(gè)用戶對多個(gè)網(wǎng)站的上網(wǎng)記錄,其數(shù)據(jù)能更好地反映用戶興趣,因此本文主要研究了基于Web客戶端數(shù)據(jù)的個(gè)性化推薦技術(shù)。
   首先,研究了Web客戶端的用戶個(gè)性化信息提取。Web客戶端的用戶

2、個(gè)性化信息主要從IE緩存、IE歷史記錄、收藏夾等獲取,其中IE緩存上網(wǎng)記錄較多、數(shù)據(jù)冗余較大等特點(diǎn)加大了用戶個(gè)性化信息的提取難度。針對這一問題,本文研究了基于網(wǎng)頁分塊的網(wǎng)頁正文信息提取方法,實(shí)現(xiàn)了從IE緩存中提取用戶個(gè)性化信息。該方法引入網(wǎng)頁分塊的思想,通過使用正則表達(dá)式,實(shí)現(xiàn)了網(wǎng)頁內(nèi)容塊抽取及其正文信息提取。實(shí)驗(yàn)結(jié)果表明,該方法能夠較準(zhǔn)確地抽取用戶個(gè)性化信息,且具有較強(qiáng)的通用性。
   其次,本文分析比較了現(xiàn)有幾種基于空間向量

3、模型(VSM)表示的用戶興趣模型,將互信息和層次聚類方法應(yīng)用于用戶興趣建模。互信息的引入使用戶興趣模型中興趣特征之間能夠相互關(guān)聯(lián),而基于互信息的興趣特征層次聚類又更好的將關(guān)聯(lián)關(guān)系比較強(qiáng)的興趣特征聚集在一起。實(shí)驗(yàn)結(jié)果表明,該用戶興趣模型能夠較好地匹配用戶感興趣的信息。
   最后,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)以用戶為中心的基于客戶端數(shù)據(jù)的個(gè)性化推薦原型系統(tǒng)。測試結(jié)果表明,該原型系統(tǒng)能夠從異構(gòu)的Web客戶端數(shù)據(jù)中提取用戶個(gè)性化信息,并根據(jù)用戶個(gè)性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論