面向電子商務(wù)海量數(shù)據(jù)的智能挖掘技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、伴隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,Internet已經(jīng)融入到人們?nèi)粘I钪械母鱾€(gè)方面,它在不知不覺(jué)間影響著現(xiàn)今社會(huì)人們的生活習(xí)慣。隨著Web2.0 時(shí)代的到來(lái),使得互聯(lián)網(wǎng)信息的創(chuàng)建和傳播變得越來(lái)越容易。海量的網(wǎng)絡(luò)信息使用戶的信息需求得到了滿足。
  但是,信息量過(guò)多也絕對(duì)不是什么好事,人們也在承受著信息過(guò)載(information overload)帶來(lái)的困擾。在這個(gè)時(shí)代,無(wú)論是信息需求者還是信息供應(yīng)者都面臨著巨大的挑戰(zhàn):對(duì)于信息

2、需求者,從海量的互聯(lián)網(wǎng)信息中找到自己感興趣的信息將是一件相當(dāng)困難的事情;對(duì)于信息供應(yīng)者,讓自己供應(yīng)的信息脫穎而出,得到廣大網(wǎng)民的認(rèn)可,也是一件相當(dāng)困難的事情。
  眾所周知,為了解決信息過(guò)載的問(wèn)題,在不同的時(shí)期人們提出了許多不同的方法??偨Y(jié)起來(lái),分為三個(gè)主要發(fā)展階段,即導(dǎo)航、檢索和推薦。導(dǎo)航,隨著互聯(lián)網(wǎng)網(wǎng)站數(shù)量的指數(shù)級(jí)增加,導(dǎo)航已經(jīng)逐漸退出歷史舞臺(tái),目前我們常見(jiàn)的分類目錄網(wǎng)站就屬于這一類,如國(guó)內(nèi)的Hao123、國(guó)外的Yahoo 和

3、DMOZ 等。檢索,百度、谷歌等搜索引擎皆屬于此類,人們只要在搜索框中輸入相應(yīng)的關(guān)鍵詞,就可獲取自己想要的信息。但很多時(shí)候人們并不知道自己的明確需求,此時(shí),就需要進(jìn)行推薦。推薦,根據(jù)用戶的歷史行為,為用戶建立興趣模型,從而主動(dòng)地為用戶提供他們想要的信息。
  隨著Internet 的發(fā)展及國(guó)家相關(guān)政策的支持,電子商務(wù)網(wǎng)站如雨后春筍般涌現(xiàn)出來(lái)。傳統(tǒng)商店受經(jīng)營(yíng)場(chǎng)所面積及貨架成本制約,不能將所有的商品展示出來(lái)。但電子商務(wù)網(wǎng)站不受這些因素

4、影響,能夠用比較低成本展示并出售更多的商品。如何從海量的同質(zhì)商品中選出自己滿意的商品,這是用戶比較關(guān)注的問(wèn)題;如何讓用戶從海量的商品中選擇自己的產(chǎn)品,也成為影響電子商務(wù)網(wǎng)站發(fā)展的重要因素。將推薦系統(tǒng)應(yīng)用于電子商務(wù)網(wǎng)站,不僅能提高電子商務(wù)網(wǎng)站的業(yè)績(jī),也能對(duì)用戶提供較好的服務(wù),從而避免用戶流失。因此,電子商務(wù)網(wǎng)站的推薦系統(tǒng)成為了當(dāng)前學(xué)術(shù)界及產(chǎn)業(yè)界的研究熱點(diǎn)。
  本文首先對(duì)當(dāng)前常用推薦算法分類進(jìn)行了介紹,并通過(guò)簡(jiǎn)單的示例描述了各個(gè)推薦

5、算法的原理,接合亞馬遜電子商務(wù)網(wǎng)站說(shuō)明了推薦系統(tǒng)在實(shí)際環(huán)境中的應(yīng)用。
  其次,本文針對(duì)HTML文檔開發(fā)了一套信息采集抽取系統(tǒng)。系統(tǒng)利用開源的網(wǎng)絡(luò)爬蟲Heritrix 對(duì)電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)進(jìn)行爬取,然后采用開源的JSoup 進(jìn)行信息抽取。為驗(yàn)證系統(tǒng)的性能,我們對(duì)國(guó)內(nèi)最大的B2C電子商務(wù)網(wǎng)站天貓商城及國(guó)內(nèi)最大的B2B 子商務(wù)網(wǎng)站阿里巴巴的銷售記錄進(jìn)行了采集抽取,并得到了良好的實(shí)驗(yàn)結(jié)果。
  再次,傳統(tǒng)的基于物品的協(xié)同過(guò)濾算法和

6、基于用戶的協(xié)同過(guò)濾算法存在矩陣稀疏的問(wèn)題,一旦將稀疏矩陣補(bǔ)全,則又會(huì)出現(xiàn)存儲(chǔ)空間過(guò)大及計(jì)算時(shí)間過(guò)長(zhǎng)的問(wèn)題。針對(duì)該情況,本文對(duì)隱語(yǔ)義模型LFM(Latent Factor Model)進(jìn)行了研究,結(jié)合目前常見(jiàn)的標(biāo)簽系統(tǒng),提出了基于標(biāo)簽的推薦算法。根據(jù)標(biāo)簽的生成方式,一般分為兩種:一種是由專業(yè)的編輯對(duì)物品打有限的標(biāo)簽;另一種是讓用戶根據(jù)自己的感知給物品打上相應(yīng)標(biāo)簽,即UGC(UserGenerated Content,用戶生成的內(nèi)容)。這樣

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論