版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本挖掘核心技術(shù)及其應(yīng)用,,,2,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,3,文本挖掘步驟,文本挖掘的一般處理過(guò)程,,,,,4,文本源,原始數(shù)據(jù),,預(yù)處理,過(guò)濾虛詞,合并詞根,分詞,,特征表示,計(jì)算權(quán)值,合并特征,過(guò)濾特征,,特征提取,權(quán)值調(diào)整,特征約減,,文本挖掘,文本分類,文本聚類,關(guān)聯(lián)分析,,模式提取,分類模式,聚類模式,關(guān)聯(lián)規(guī)則,,結(jié)果展示,展示界面,,,,,,,文本挖掘步驟,5,文本挖掘主要功能及應(yīng)用,,,,,,,,,
2、,,,文本挖掘,應(yīng)用,實(shí)現(xiàn)功能,自動(dòng)分詞,文檔歸類,自動(dòng)分類,自動(dòng)聚類,信息抽取,文本相似性檢索,,,自動(dòng)摘要,輿情監(jiān)控,,,垃圾郵件過(guò)濾,企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng),電子商務(wù),客戶自動(dòng)問(wèn)答,,6,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,7,自動(dòng)分詞,,,8,自動(dòng)分類,莫言對(duì)話楊振寧:來(lái)生學(xué)物理,當(dāng)下夢(mèng)飛天,時(shí)政,社會(huì),軍事,評(píng)論,文化,國(guó)際,歷史,,9,自動(dòng)聚類,自動(dòng)對(duì)大量無(wú)類別的文檔進(jìn)行歸類,把內(nèi)容相近的文檔歸為一類,并自動(dòng)為該類生
3、成主題詞,為用戶確定類目名稱提供方便。,文本1文本2文本3文本4文本5……,,……,,類別1:關(guān)鍵詞: 比賽、賽季、聯(lián)賽、球隊(duì)、比分、太陽(yáng)、NBA、球員隊(duì)員、領(lǐng)先,類別2:關(guān)鍵詞:旅游、黃金、游客、記者、旅行社、中國(guó)、國(guó)家、假日、北京、線路,類別3:關(guān)鍵詞:公司、企業(yè)、招聘、面試、求職、專業(yè)、職業(yè)、學(xué)生、大學(xué)、人才,10,信息抽取,信息抽取是從文本中抽取指定的一類信息(事件、事實(shí))并將其形成結(jié)構(gòu)化的數(shù)據(jù),填入一個(gè)
4、數(shù)據(jù)庫(kù)中以供用戶查詢使用。,11,信息抽取,12,文本相似性檢索,文本相似性檢索式對(duì)一篇文檔到索引庫(kù)中查找與其內(nèi)容重復(fù)率高的文檔和相似的文檔。目前應(yīng)用最廣的是論文查重。,,13,自動(dòng)摘要,對(duì)文章中的所有句子進(jìn)行權(quán)值運(yùn)算,對(duì)所有的句子按權(quán)值排列,提取出權(quán)值大的作為關(guān)鍵句,進(jìn)而形成摘要。,,,,14,目錄,文本挖掘步驟文本挖掘功能文本挖掘應(yīng)用,15,應(yīng)用,——文檔自動(dòng)歸類,,文本源,原始數(shù)據(jù),,預(yù)處理,過(guò)濾虛詞,合并詞根,分詞,,特
5、征表示,計(jì)算權(quán)值,合并特征,過(guò)濾特征,,特征提取,權(quán)值調(diào)整,特征約減,,文本挖掘,文本分類,,模式提取,分類模式,,結(jié)果展示,展示界面,,,,,,,16,應(yīng)用,——文檔自動(dòng)歸類,17,應(yīng)用,——垃圾郵件過(guò)濾,商家利用電子郵件傳播大量廣告垃圾郵件持續(xù)攀升逐一查看郵件浪費(fèi)時(shí)間,面臨的問(wèn)題,對(duì)垃圾郵件進(jìn)行過(guò)濾對(duì)郵件進(jìn)行歸類郵件自動(dòng)回復(fù),關(guān)鍵需求,18,,應(yīng)用,——網(wǎng)絡(luò)輿情監(jiān)控,互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)輿論熱點(diǎn)層出不窮;民意表達(dá)向網(wǎng)絡(luò)傾斜;
6、網(wǎng)絡(luò)輿論一旦被錯(cuò)誤控制和引導(dǎo),影響社會(huì)穩(wěn)定;,面臨的挑戰(zhàn),輿情信息的采集與提取話題發(fā)現(xiàn)與追蹤網(wǎng)絡(luò)輿情傾向性分析,關(guān)鍵需求,20,,論壇,,新聞,,引擎,,垂直頁(yè)面,,采集和提取,,博客,,應(yīng)用,——網(wǎng)絡(luò)輿情監(jiān)控,難點(diǎn),熱點(diǎn)分析,21,應(yīng)用,——網(wǎng)絡(luò)輿情監(jiān)控,,,,,?,所采集的網(wǎng)絡(luò)范圍內(nèi)重復(fù)程度最高的話題,22,應(yīng)用,——網(wǎng)絡(luò)輿情監(jiān)控,網(wǎng)絡(luò)輿情摘要,,,,,?,提取出幾條最重要的新聞,自動(dòng)生成摘要,生成簡(jiǎn)報(bào)。,23,傾向性分析,
7、自動(dòng)聚合網(wǎng)絡(luò)新聞并自動(dòng)進(jìn)行褒貶傾向性的分析。 對(duì)文章的觀點(diǎn)進(jìn)行傾向性分析和統(tǒng)計(jì),識(shí)別正負(fù)面信息。,應(yīng)用,——網(wǎng)絡(luò)輿情監(jiān)控,24,,,通過(guò)對(duì)網(wǎng)絡(luò)信息中的犯罪信息量的分析計(jì)算來(lái)反映網(wǎng)民的安全感,并進(jìn)行分級(jí);,通過(guò)對(duì)政府工作相關(guān)語(yǔ)料的褒貶分析計(jì)算來(lái)描述公眾對(duì)政府工作的滿意程度,并進(jìn)行分級(jí)。,——網(wǎng)絡(luò)輿情監(jiān)控,應(yīng)用,25,應(yīng)用,——企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng),企業(yè)情報(bào)采集效率低和實(shí)時(shí)性差信息孤島,缺少跨部門情報(bào)資源共享情報(bào)內(nèi)容存在重復(fù)性,資源
8、沒有得到有效整合,面臨的問(wèn)題,自動(dòng)化收集商業(yè)信息對(duì)情報(bào)內(nèi)容進(jìn)行統(tǒng)一管理根據(jù)情報(bào)內(nèi)容,確定潛在威脅,及時(shí)預(yù)警,并制定相應(yīng)策略,關(guān)鍵需求,26,應(yīng)用,——企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng),伊利作為中國(guó)乳業(yè)巨頭之一,面臨多方競(jìng)爭(zhēng),必須密切關(guān)注對(duì)手動(dòng)態(tài),其最大的競(jìng)爭(zhēng)對(duì)手是蒙牛,因此,蒙牛公司的動(dòng)態(tài)對(duì)伊利公司有很大的影響。采集2010年6月至11月蒙牛官網(wǎng)的信息,對(duì)其進(jìn)行分析。,激增詞頻警報(bào),遞增詞頻警報(bào),27,發(fā)現(xiàn)共線詞關(guān)系:君樂寶—低溫;華北;蒙牛—奶
9、源,奶源—君樂寶,警情:蒙牛整合君樂寶,實(shí)現(xiàn)戰(zhàn)略合作,警情分析:整合事件極大程度轉(zhuǎn)變蒙牛低溫市場(chǎng)地位,并提升蒙牛競(jìng)爭(zhēng)力,對(duì)伊利構(gòu)成極大威脅;提升蒙牛在華北地位,威脅伊利華北市場(chǎng)戰(zhàn)略地位;極大提升蒙牛奶源優(yōu)勢(shì),對(duì)伊利在奶源的競(jìng)爭(zhēng)造成威脅。,應(yīng)用,——企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng),28,——電子商務(wù)網(wǎng)站,應(yīng)用,數(shù)據(jù)激增,且有大量的非結(jié)構(gòu)化數(shù)據(jù)如何從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的客戶挖掘其內(nèi)在規(guī)律,面臨的問(wèn)題,分析商品之間的內(nèi)在關(guān)聯(lián)發(fā)現(xiàn)有價(jià)值客戶
10、對(duì)用戶行為進(jìn)行預(yù)測(cè),關(guān)鍵需求,——電子商務(wù)網(wǎng)站,應(yīng)用,,網(wǎng)站產(chǎn)品評(píng)論挖掘:IT168網(wǎng)站是中國(guó)指導(dǎo)IT產(chǎn)品采購(gòu)的知名媒體品牌,是國(guó)內(nèi)最大、最權(quán)威的導(dǎo)購(gòu)咨詢網(wǎng)站之一。從IT168網(wǎng)站下載三種產(chǎn)品的評(píng)論,分別是:諾基亞5320XM的206篇評(píng)論、諾基亞5800XM的205篇評(píng)論和富士S5205EXR的72篇評(píng)論。如,以下是諾基亞5320XM的一篇評(píng)論:,步驟:,,文本源,原始數(shù)據(jù),,預(yù)處理,詞性標(biāo)注,去除停用詞,分詞,,,,特征識(shí)別,特征標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 核心技術(shù)
- comsol 核心技術(shù)與應(yīng)用—廣州
- google核心技術(shù)
- 節(jié)能核心技術(shù)
- 核心技術(shù)kt
- 金融工程的核心技術(shù)及其應(yīng)用研究報(bào)告
- cpu核心技術(shù)揭密
- 核心技術(shù)是根本
- 物聯(lián)網(wǎng)核心技術(shù)
- 微波消解核心技術(shù)
- google的核心技術(shù)
- 淺論機(jī)電一體化的核心技術(shù)及其應(yīng)用
- 行動(dòng)學(xué)習(xí)選題核心技術(shù)
- 到底誰(shuí)在掌握核心技術(shù)
- 四大核心技術(shù)
- 金達(dá)威核心技術(shù)
- 節(jié)能核心技術(shù)有哪些
- 超市經(jīng)營(yíng)的核心技術(shù)
- 大數(shù)據(jù)核心技術(shù)a卷
- 熱流道模核心技術(shù)
評(píng)論
0/150
提交評(píng)論