面向推薦系統(tǒng)的關鍵問題研究及應用.pdf_第1頁
已閱讀1頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)近年來在國內外爆炸式的發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)、信息以前所未有的速度瘋狂增長。因此怎樣從海量數(shù)據(jù)中發(fā)現(xiàn)自己希望尋找的內容已經(jīng)成為越來越多的用戶面臨的一大難題,也成為大量專家學者研究的熱門課題。
  用戶從互聯(lián)網(wǎng)上發(fā)現(xiàn)并獲取數(shù)據(jù)信息,一般看來經(jīng)歷了三個階段:1,最初始是各類門戶網(wǎng)站的建立,如sina、sohu、yahoo等,他們幫助用戶梳理、組織各類常用的熱門的資源、信息,供用戶發(fā)現(xiàn)、瀏覽。但一方面梳理整合的信息畢竟是有限的,

2、用戶的需求不一定包含其中;另一方面隨著數(shù)據(jù)的爆炸式增長,太多的數(shù)據(jù)會使得門戶網(wǎng)站變得雜亂臃腫,因此這些網(wǎng)站也只能選擇相對重要的信息檢索。2,然后是搜索引擎的出現(xiàn),如google,baidu等,用戶能通過搜索引擎檢索自己希望獲取的內容;然而檢索結果的準確性極依賴于用戶對問題的描述,同時一般用戶的描述通常是不夠準確的,這會直接導致檢索結果出現(xiàn)偏差,用戶很難完全準確的找到自己所需的結果。3,最近則是推薦系統(tǒng)的產(chǎn)生,用戶不再需要主動搜索,而系統(tǒng)

3、會智能的通過用戶的屬性信息,用戶的歷史記錄,為用戶推薦用戶可能會需要的信息,如taobao、netflix等會智能的為用戶推薦商品、電影,這在用戶需求不夠明確時,能為用戶精簡信息。值得注意的是以上三個階段不是一個進化的過程,而是一個相互補充,互相協(xié)作的關系。
  由于推薦系統(tǒng)能很好的解決互聯(lián)網(wǎng)“信息過載”的問題,因此廣受用戶歡迎,也因此被越來越多的網(wǎng)站、公司使用,而與之相應的推薦算法也越來越受到學術界的重視,成為一個重要的研究領域

4、。然而面對不同種類的數(shù)據(jù)與越來越復雜的應用場景,推薦系統(tǒng)會面臨不同的問題,如冷啟動問題和可擴展性等常規(guī)問題;又如應用場景的區(qū)別、數(shù)據(jù)分布的不一致會使得同樣的算法在不同場景、數(shù)據(jù)上得到的結果相差很遠;同時存在的是某些推薦算法問題的求解困難等新問題。針對以上推薦系統(tǒng)中存在的問題,本文深入研究推薦系統(tǒng),做了以下幾點研究工作:
  (1)基于非參數(shù)統(tǒng)計的相似度模型研究。
  協(xié)同過濾算法是推薦系統(tǒng)最基本也是最主流的算法,被成功的運用

5、于大量商業(yè)模型中,取得了很好的效果。該算法主要由兩步組成,其中相似度的計算是第一步也是最為關鍵的一步。然而1,不同應用場景的數(shù)據(jù)會有各自的特點,具有明顯的差異性、分布明顯不同,使用同樣的相似度度量模型是不夠準確的;2,傳統(tǒng)的歐氏距離、皮爾遜相關度、余弦相似度等都有各自的局限性,已經(jīng)不能直接應用于越來越復雜的場景;3,對于稀疏的數(shù)據(jù),算出的相似度置信概率極低,直接用于推薦會降低推薦精度?;谝陨显?,本文提出了一種基于非參數(shù)統(tǒng)計的相似度模

6、型,基于非參數(shù)統(tǒng)計的思想,該模型能將不同場景的數(shù)據(jù)映射到統(tǒng)一的空間,去除不同數(shù)據(jù)間的差異,將其統(tǒng)一到相同的標準。同時由于投影后的空間具有良好的線性性,相似度度量能很好的使用線性相似度方式計算,解決上述幾點問題,提高推薦精度。
  (2)基于時間回溯的特征預測模型研究。
  數(shù)據(jù)量的不足往往是各種機器學習模型面臨的最大問題之一,大量的研究表明,數(shù)據(jù)對于模型結果的重要性遠遠大于算法對于模型的重要性。在推薦系統(tǒng)中,用戶的歷史行為是

7、最主要的模型數(shù)據(jù)來源。傳統(tǒng)的推薦系統(tǒng)可以根據(jù)用戶的歷史行為預測他們的屬性(如愛好、年齡、性別等),也可以直接通過歷史行為找到類似的用戶進而進行推薦。然而一直以來的研究中,對用戶歷史行為的使用都是樸素、簡單的,并沒有注重歷史行為的時間維度。本文提出了一種基于時間回溯的特征預測模型,使歷史數(shù)據(jù)的利用率大大增大,從某種意義上數(shù)倍的豐富了數(shù)據(jù)量,提高預測精度。并且,本文在taobao的真實數(shù)據(jù)上使用該方法預測用戶孩子的年齡,結果表明預測精度大大

8、高于傳統(tǒng)方法。
  (3)基于演化博弈的全局優(yōu)化算法研究。
  大量的推薦算法問題,甚至數(shù)據(jù)挖掘問題,在模型的求解過程中,都會規(guī)約到求解全局優(yōu)化問題。因此求解全局優(yōu)化問題是推薦系統(tǒng)中的一個重點問題,也是難點問題。目前,常用的算法,如梯度下降法、隨機梯度下降法或者牛頓法,只適合求解凸函數(shù)最優(yōu)化(凸優(yōu)化)問題。而本文提出的基于演化博弈的全局優(yōu)化算法嘗試求解連續(xù)域上的全局優(yōu)化問題,剔除掉凸函數(shù)這一強限制條件。同時在求解的過程中,基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論