版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在線社交網(wǎng)站已逐漸成為人們生活中不可或缺的交往方式之一。不同于現(xiàn)實中的社交網(wǎng)絡(luò),信息在在線社交網(wǎng)絡(luò)中的傳播速度更快,覆蓋人群更多,交互更頻繁。
微博是一種已經(jīng)被廣泛應(yīng)用的信息傳播載體,是人們互動交流的重要方式。隨著時間的發(fā)展,微博平臺產(chǎn)生多種不同性質(zhì)的用戶,包括僵尸賬戶、馬甲賬戶、垃圾賬戶等,它們出于不同的目的,擾亂著微博秩序。作為衡量微博用戶知名度及受歡迎程度的重要指標,粉絲數(shù)的真實性越發(fā)受
2、到人們的關(guān)注。投機者受到經(jīng)濟利益的驅(qū)使,制造大量的機器用戶,引發(fā)信任危機。機器用戶作為僵尸用戶的進化,它與僵尸用戶具有許多相似之處:同樣是利用程序產(chǎn)生的賬戶,一樣主要以“買賣粉絲”為存在的目的。不同的是這類進化的僵尸用戶更具活性,它們的行為更加接近正常用戶,以至于新浪微博不能檢測出這類賬戶,面對其封號。如何快速有效的識別機器用戶,已成為維護微博平臺正常秩序亟待解決的問題。
為了探究這一問題,采用機器學習的方法,以新浪微博為例,
3、對中文微博用戶特征進行了深入研究,并且對相關(guān)的分類算法進行了詳細學習及分析,提出了一種最優(yōu)分類模型,具體工作如下:
1、數(shù)據(jù)采集。介紹了本研究數(shù)據(jù)采集的步驟,首先分別基于熱門話題及“買粉”獲得非機器用戶集和機器用戶集,又詳細介紹了新浪API的調(diào)用原理,最后通過本文提出的多方法組合的數(shù)據(jù)提取方案,得到用戶和微博的基本信息,構(gòu)成了本研究的原始數(shù)據(jù)集。
2、特征分析。首先結(jié)合新浪微博的特點,獲得13項原始特征。再通過分析用
4、戶關(guān)系特征、用戶行為特征、微博內(nèi)容特征,對原始特征進行再加工,得到9項有效特征,將其表示成向量,作為分類器的輸入。最后用累積分布函數(shù)圖對這些特征進行特征分析。
3、最優(yōu)分類模型。本文首先運用SVM算法驗證了特征組合的有效性,用BP神經(jīng)網(wǎng)絡(luò)和決策樹兩種曾經(jīng)運用在用戶分類中的分類算法進行分類,其結(jié)果與SVM比較以期得到更好的分類效果。在結(jié)果不令人滿意的情況下,創(chuàng)造性的引入隨機森林算法,提高了分類效果。然后,為了進一步提高分類效率,
5、采用剔減特征法得到最優(yōu)特征組合,提出了本研究的最優(yōu)分類模型SBS-Random Forest。
4、實例驗證。本文隨機選取一個用戶,采用多方法組合的數(shù)據(jù)提取方案獲取其粉絲的信息,生成粉絲用戶的特征集,用SBS-Random Forest分類模型對這些用戶進行分類,再與人工投票結(jié)果進行比較,最終發(fā)現(xiàn)分類效果在接受范圍內(nèi),得到了用戶的機器用戶粉絲的比例,再與其他方法進行比較,證明本研究提出的分類模型有效可行,對機器用戶的甄別有積極
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 在線社交網(wǎng)絡(luò)用戶的分類及采樣研究
- 在線社交網(wǎng)絡(luò)異常用戶的檢測與控制.pdf
- 在線社交網(wǎng)絡(luò)用戶的分類及采樣研究.pdf
- 在線社交網(wǎng)絡(luò)異常用戶的檢測與控制
- 基于機器學習的社交網(wǎng)絡(luò)用戶特征分析
- 基于機器學習的社交網(wǎng)絡(luò)用戶特征分析.pdf
- 基于社交網(wǎng)絡(luò)的垃圾用戶檢測方法分析與實現(xiàn).pdf
- 在線社交網(wǎng)絡(luò)用戶使用動機研究.pdf
- 基于用戶屬性和行為特征的社交網(wǎng)絡(luò)SYBIL群體檢測.pdf
- 社交網(wǎng)絡(luò)服務(wù)的用戶群體特征分析與組織探測研究.pdf
- 基于網(wǎng)絡(luò)結(jié)構(gòu)的在線社交網(wǎng)絡(luò)用戶行為研究.pdf
- 基于用戶特征的社交網(wǎng)絡(luò)數(shù)據(jù)挖掘研究.pdf
- 基于位置的社交網(wǎng)絡(luò)用戶行為分析與研究.pdf
- 社交網(wǎng)絡(luò)中基于用戶特征的專家推薦研究.pdf
- 基于信任計算的社交網(wǎng)絡(luò)惡意用戶檢測.pdf
- 基于社交網(wǎng)絡(luò)的用戶通信行為分析.pdf
- 基于用戶特征的社交網(wǎng)絡(luò)信息傳播的研究.pdf
- 基于用戶特征的社交網(wǎng)絡(luò)信息傳播的研究
- 在線社交網(wǎng)絡(luò)中基于用戶的知識組織模式研究.pdf
- 基于在線社交網(wǎng)絡(luò)信息傳播的重要用戶發(fā)現(xiàn).pdf
評論
0/150
提交評論