版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代,文本數(shù)據(jù)是人們傳播和接受信息的重要途徑之一。企業(yè)利用文本數(shù)據(jù)發(fā)布招聘和優(yōu)惠廣告,新聞機構(gòu)利用文本數(shù)據(jù)描述正在發(fā)生的事件,公眾利用文本數(shù)據(jù)表達觀點抒發(fā)情感等。對于企業(yè)和個人而言,文本數(shù)據(jù)蘊含了大量價值。分析提取文本數(shù)據(jù)中蘊含的價值,是大數(shù)據(jù)時代取得競爭優(yōu)勢的重要途徑。研究基于文本數(shù)據(jù)的預(yù)測方法則是文本數(shù)據(jù)價值提取的途徑之一。但自然語言特征、非精確性等不確定性特征阻礙了利用文本數(shù)據(jù)進行預(yù)測,有必要尋找處理不確定性特征的合適理論并
2、開發(fā)相應(yīng)預(yù)測方法。軟集合理論是處理不確定性特征的先進理論之一。它源于對近似描述問題的研究,以尋找近似解為構(gòu)建理念,使用參數(shù)化集族的方式描述問題,著眼于建立非精確模型解決問題,并得到相應(yīng)的近似解。從理論構(gòu)建理念、問題描述方式和解決路徑來看,軟集合理論適于作為研究不確定性預(yù)測方法的基礎(chǔ)理論。因此,尋找基于文本數(shù)據(jù)的預(yù)測問題和軟集合理論的結(jié)合點,構(gòu)建基于文本數(shù)據(jù)的軟集合預(yù)測方法,能夠在發(fā)現(xiàn)、提取文本數(shù)據(jù)蘊含價值的過程中為企業(yè)和個人提供可靠工具
3、。
本文以三個方面為切入點研究基于文本數(shù)據(jù)的軟集合預(yù)測方法。
①基于文本數(shù)據(jù)的軟集合特征選擇方法研究。特征選擇階段是基于文本數(shù)據(jù)預(yù)測的重要階段。本文針對該階段以及特征間非精確關(guān)系構(gòu)建了基于文本數(shù)據(jù)的軟集合特征選擇方法(FSST)。該方法提出了新的基于等價類的軟集合模型,即成對關(guān)系軟集合模型(PRSS),并進一步構(gòu)建了近似軟集合、依賴度軟集合和不可分辨關(guān)系軟集合用以處理特征間非精確關(guān)系。成對關(guān)系軟集合模型消除了以往基于
4、等價類軟集合模型(NSS)的冗余,將衡量特征間依賴程度的運算轉(zhuǎn)化為矩陣計算方式,提升了運算效率。使用算例分析詳細介紹了FSST的執(zhí)行過程。使用16個樣本數(shù)據(jù)庫分析比較了FSST與基于NSS的特征選擇方法。結(jié)果說明FSST保持了分類精度和可擴展性,提高了運行效率。
?、诨谖谋緮?shù)據(jù)的軟依賴預(yù)測方法研究。與以往預(yù)測方法相比,該方法利用了軟概率、軟條件概率和軟依賴處理自然語言特征和非精確性的優(yōu)點,即能夠處理整個預(yù)測過程、隨數(shù)據(jù)庫更新動
5、態(tài)變化、不需要提供嚴格的概率穩(wěn)定性假設(shè)、構(gòu)建非精確模型獲取近似解等。首先介紹了軟概率、軟條件概率、軟估計和軟依賴等基礎(chǔ)理論,然后介紹了方法所解決的預(yù)測問題,并構(gòu)建了基于文本數(shù)據(jù)的軟依賴預(yù)測模型、特征軟集合模型以及依賴軟集合模型。依據(jù)這些模型,構(gòu)建了基于文本數(shù)據(jù)的軟依賴預(yù)測方法。軟依賴預(yù)測模型建立起不考慮時間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測問題與軟依賴之間的聯(lián)系。軟依賴預(yù)測模型的具體實現(xiàn)依賴于特征軟集合模型和依賴軟集合模型。特征軟集合模
6、型整合了FSST方法,能夠處理特征間非精確關(guān)系并將文本數(shù)據(jù)轉(zhuǎn)化為向量空間表示形式。依賴軟集合模型計算軟估計,完成預(yù)測任務(wù)。同時針對依賴軟集合模型中存在的空集問題和預(yù)測過程中特征過多問題,提出了尋找近似事件和采用啟發(fā)式算法的解決方案。為了對軟估計的效果進行評估,定義了三種軟估計誤差度量,即誤差軟映射、單次誤差軟映射和總誤差,并介紹了計算軟估計誤差度量所需的點與集合之間誤差度量,即基于Hausdorff距離的Theil不等系數(shù)和基于最小Ma
7、nhattan距離的Theil不等系數(shù)。算例分析中介紹了基于文本數(shù)據(jù)的軟依賴預(yù)測方法執(zhí)行過程。應(yīng)用分析中使用該方法預(yù)測10家公司8-K報告對當期股價波動的影響,分析了方法的優(yōu)劣勢并與其他預(yù)測方法做了定性比較。結(jié)果說明,基于文本數(shù)據(jù)的軟依賴預(yù)測方法能夠為不考慮時間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測任務(wù)提供支持。
?、刍谖谋緮?shù)據(jù)的軟序列依賴預(yù)測方法研究。該方法利用軟序列概率、軟序列條件概率和軟序列依賴,解決了基于文本數(shù)據(jù)的軟依賴預(yù)
8、測方法無法處理時間滯后效應(yīng)的問題。由于軟序列依賴是軟依賴在處理樣本序列上的擴展,軟序列依賴擁有與軟依賴相同的處理自然語言特征和非精確性的優(yōu)勢。首先根據(jù)軟序列概率、軟序列條件概率定義了軟序列估計和軟序列依賴,而后介紹了方法所解決的預(yù)測問題,構(gòu)建了基于文本數(shù)據(jù)的軟序列依賴預(yù)測模型和序列依賴軟集合模型。依據(jù)這些模型,構(gòu)建了基于文本數(shù)據(jù)的軟序列依賴預(yù)測方法?;谖谋緮?shù)據(jù)的軟序列依賴預(yù)測模型建立起考慮時間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測問題與軟
9、序列依賴之間的聯(lián)系。軟序列依賴預(yù)測模型的具體實現(xiàn)依賴于特征軟集合模型和序列依賴軟集合模型。特征軟集合模型將文本數(shù)據(jù)轉(zhuǎn)化為向量空間表示形式。序列依賴軟集合模型計算軟序列估計,完成預(yù)測任務(wù)。同時針對序列依賴軟集合模型中存在空集和特征過多問題,分別構(gòu)建了尋找近似事件的方法和啟發(fā)式算法。定義了序列誤差軟映射、序列單次誤差軟映射及序列總誤差對軟序列估計進行評估。算例分析中介紹了基于文本數(shù)據(jù)的軟序列依賴預(yù)測方法執(zhí)行過程,應(yīng)用分析中使用該方法預(yù)測10
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于文本數(shù)據(jù)的鐵路道岔故障預(yù)測.pdf
- 基于WWW的文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的文本數(shù)據(jù)挖掘的研究.pdf
- 內(nèi)存鏡像中文本數(shù)據(jù)提取方法研究.pdf
- 文本數(shù)據(jù)挖掘中基于云模型的特征選擇方法研究.pdf
- Web文本數(shù)據(jù)挖掘研究.pdf
- 基于XML的Web文本數(shù)據(jù)挖掘的研究.pdf
- 文本數(shù)據(jù)流的概念漂移檢測方法研究.pdf
- 面向圖流和文本數(shù)據(jù)分類的哈希方法研究.pdf
- 基于空間文本數(shù)據(jù)的k近鄰連接研究.pdf
- 中文文本數(shù)據(jù)分類研究.pdf
- 基于層次語義結(jié)構(gòu)的流式文本數(shù)據(jù)挖掘.pdf
- 基于主題的文本數(shù)據(jù)采集系統(tǒng)的研究與實現(xiàn).pdf
- 基于軟集合理論的外貿(mào)出口量預(yù)測方法研究.pdf
- 基于文本數(shù)據(jù)挖掘技術(shù)的用戶需求分析研究.pdf
- 文本數(shù)據(jù)庫的知識發(fā)現(xiàn)研究.pdf
- 基于神經(jīng)網(wǎng)的文本數(shù)據(jù)庫挖掘.pdf
- 大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)相似重復(fù)記錄檢測方法研究.pdf
- 基于海量文本數(shù)據(jù)的實體關(guān)系抽取及挖掘.pdf
評論
0/150
提交評論