清華大學(xué)-中文web信息檢索論壇_第1頁(yè)
已閱讀1頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SEWM2006中文網(wǎng)頁(yè)分類(lèi)評(píng)測(cè)清華大學(xué)參賽隊(duì)報(bào)告,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室徐舒xus05@mails.tsinghua.edu.cn,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁(yè)分類(lèi)策略未來(lái)工作及建議參考文獻(xiàn),數(shù)據(jù)預(yù)處理-總體設(shè)計(jì),zlib壓縮存儲(chǔ)處理全部200G數(shù)據(jù)保留原始網(wǎng)頁(yè)的頁(yè)面信息和鏈接關(guān)系中間數(shù)據(jù)可用于對(duì)網(wǎng)頁(yè)分類(lèi)的進(jìn)一步的研究,數(shù)據(jù)預(yù)處理-HTML解析(1),網(wǎng)頁(yè)分類(lèi)需要注意的

2、幾個(gè)問(wèn)題:直接應(yīng)用純文本分類(lèi)策略效果很差通常包含具有豐富語(yǔ)義信息的Tag通常含有大量噪聲可能包含多媒體信息而無(wú)確切的文本內(nèi)容提取HTML中如下標(biāo)簽和屬性: (keywords,description,etc), (Surrounding text)頁(yè)面正文信息實(shí)現(xiàn)方法:基于Python的HTMLParser類(lèi),重載其中部分接口,數(shù)據(jù)預(yù)處理-HTML解析(2),編碼轉(zhuǎn)換:常用網(wǎng)頁(yè)編碼格式:GBK/GB18030/

3、GB2312(簡(jiǎn)體)BIG-5(繁體)UTF8/UTF16(通用) 只處理BIG5,GBK和UTF-8三種編碼統(tǒng)一轉(zhuǎn)碼成為GBK編碼(編碼轉(zhuǎn)換庫(kù)Libiconv)05年訓(xùn)練集中的編碼數(shù)量統(tǒng)計(jì):BIG5:53,UTF-8:6,GBK:15457,數(shù)據(jù)預(yù)處理-信息抽取和去噪(1),在解析HTML的基礎(chǔ)上進(jìn)行表征同一網(wǎng)頁(yè)的不同形式頁(yè)面內(nèi)部信息標(biāo)題META信息頁(yè)面正文頁(yè)面鏈接文本W(wǎng)eb結(jié)構(gòu)信息 鏈入文本聚合,過(guò)濾

4、廣告噪聲(基于規(guī)則)無(wú)鏈接文字(AnchorText)鏈接文字周?chē)鷽](méi)有非鏈接的文字鏈接文字中出現(xiàn)了給定的過(guò)濾關(guān)鍵詞,例如“下一頁(yè)”,“圖鈴”等缺乏可靠的抑制噪聲的措施不直接刪除廣告信息,而是給出標(biāo)記,由后續(xù)程序進(jìn)一步判斷,數(shù)據(jù)預(yù)處理-信息抽取和去噪(2),數(shù)據(jù)預(yù)處理-并行化,海量數(shù)據(jù),無(wú)進(jìn)程間通信,易于并行處理申請(qǐng)使用清華大學(xué)計(jì)算機(jī)集群系統(tǒng)128臺(tái)rx2600服務(wù)器作為計(jì)算節(jié)點(diǎn) ,256 安騰CPU RedHat L

5、inux操作系統(tǒng) 每秒13300億次的峰值浮點(diǎn)運(yùn)算能力 實(shí)際使用:12節(jié)點(diǎn),預(yù)處理用時(shí):28小時(shí),數(shù)據(jù)預(yù)處理-中間數(shù)據(jù)格式,.IDCWT200G-DFHR23224.URLhttp://adminabc.bdwm.net/.METADATA@title:北大未明.ANCHORDATA首頁(yè)聯(lián)系我們.LINKSIN@link:http://edu.sina.com @anchortext:北大未明 @su

6、rroundingtext:點(diǎn)擊進(jìn)入北大為名網(wǎng)站 @Use:Y.LINKSOUT@link:http://adminabc.bdwm.net/about.html @anchortext:關(guān)于我們@surroundingtext:@Use:Y.CONTENT歡迎來(lái)到北大未明網(wǎng)站.CLASSID,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁(yè)分類(lèi)策略未來(lái)工作及建議參考文獻(xiàn),分類(lèi)策略-綜述,基于純文本分類(lèi)策略向量空間模型采

7、用SVM(libSVM)作為試驗(yàn)中統(tǒng)一使用的分類(lèi)器特征的選擇遠(yuǎn)比分類(lèi)器本身重要良好的泛化能力由于訓(xùn)練后模型只需考慮支持向量,分類(lèi)速度快特征和權(quán)重二元串(Bigram)作為特征TF*IDF權(quán)重CHI-square進(jìn)行特征選擇,70000維,分類(lèi)策略-多特征融合,多個(gè)來(lái)源,獨(dú)立表征網(wǎng)頁(yè)的信息的融合采用線性加權(quán)的方法融合使用插值法貪婪搜索確定各個(gè)特征的權(quán)重最終采用的融合策略(向量級(jí)特征融合):,分類(lèi)策略-鏈接分析(1),網(wǎng)

8、頁(yè)間存在鏈接:主題存在一定關(guān)聯(lián)分類(lèi)完成基礎(chǔ)上,簡(jiǎn)單的標(biāo)簽傳播算法進(jìn)行refine(20G),Step1:給出20G目標(biāo)網(wǎng)頁(yè)集合中所有的網(wǎng)頁(yè)分類(lèi)標(biāo)簽,并給出分類(lèi)的置信度。Step2:對(duì)于那些進(jìn)行了歸一化之后分類(lèi)置信度很低的網(wǎng)頁(yè),我們認(rèn)為這些網(wǎng)頁(yè)的分類(lèi)結(jié)果是不可靠的, Step3:對(duì)于上述所有置信度很低的網(wǎng)頁(yè),觀察指向該網(wǎng)頁(yè)的所有網(wǎng)頁(yè)的分類(lèi)結(jié)果,如果這些網(wǎng)頁(yè)均為分類(lèi)置信度很高的網(wǎng)頁(yè),并且在分類(lèi)結(jié)果上有很強(qiáng)的內(nèi)聚性,則將當(dāng)前頁(yè)面的分類(lèi)標(biāo)

9、簽更換為指向其的那些網(wǎng)頁(yè)的分類(lèi)結(jié)果。,分類(lèi)策略-鏈接分析(2),,,,,8類(lèi)上的傳播效果,11類(lèi)上的傳播效果,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁(yè)分類(lèi)策略未來(lái)工作及建議參考文獻(xiàn),未來(lái)工作,更加有效的頁(yè)面去噪方法(VIPS,摘要等)更大規(guī)模的數(shù)據(jù)集上進(jìn)行鏈接分析改進(jìn)標(biāo)簽傳播的算法,一些感想和建議,8類(lèi)的分類(lèi)體系有些過(guò)于重疊:如娛樂(lè)和時(shí)尚用戶調(diào)查(User Study)的結(jié)果:在05年的1100篇測(cè)試集上進(jìn)行標(biāo)注比較8類(lèi)

10、分類(lèi)器的機(jī)器分類(lèi)結(jié)果和用戶標(biāo)注存在用戶和機(jī)器標(biāo)注不一致但都合理的情況上述情形在分類(lèi)置信度存在雙峰時(shí)尤為突出:(73/1100)層次分類(lèi)(Google Directory)?多標(biāo)簽?,內(nèi)容提綱,CWT200G數(shù)據(jù)預(yù)處理網(wǎng)頁(yè)分類(lèi)策略未來(lái)工作及建議參考文獻(xiàn),參考文獻(xiàn),[1] G.R. Xue, Q, Yang H.J Zeng, Y,Yu and Z.Chen. Exploiting the Hierarchical Struc

11、ture for Link Analysis The 28th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2005), July 2005.[2] D. Cai, X. F. He, J. R. Wen and W.Y. Ma. Block-level Link An

12、alysis. The 27th Annual International ACM SIGIR conference on Research and Development in Information Retrieval (SIGIR'2004), July 2004. [3] Y.H.Hu and G.M.Xin. Title Extraction from Bodies of HTML Documents and its

13、 application to Web Page Retrieval[4].J.Glover. Using Web Structure for Classifying and Describing Web Pages, www2002.[5] J. F¨urnkranz. Exploiting structural information for text classification on the WWW. In Int

14、elligent Data Analysis, pages 487–498, 1999.[6] S. Chakrabarti, B. Dom, and P. Indyk. Enhanced hypertext categorization using hyperlinks. SIGMOD Record (ACM Special Interest Group on Management of Data), 27(2):307–318,

15、June 1998.[7] A. Blum and T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, MorganKaufmann Publishers, 1998.[8] Y. Yang, S. Slatt

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論