多類型數(shù)據(jù)的事件因果關(guān)系研究.pdf_第1頁
已閱讀1頁,還剩171頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、因果關(guān)系的研究在于揭示自然和人類社會(huì)發(fā)展的本質(zhì)及其規(guī)律,以解釋現(xiàn)象、控制存在、預(yù)測(cè)未來,對(duì)人類長(zhǎng)久以來的生產(chǎn)生活和科學(xué)研究有著非常重要的作用。數(shù)值數(shù)據(jù)和時(shí)事文本的事件因果關(guān)系研究,將因果關(guān)系實(shí)體的每一次發(fā)生看作是一個(gè)事件,利用計(jì)算科學(xué)領(lǐng)域的知識(shí)和技術(shù),通過分析處理不同研究領(lǐng)域的數(shù)值數(shù)據(jù)或新聞報(bào)道等文本數(shù)據(jù),以獲取醫(yī)學(xué)、經(jīng)濟(jì)、政治、軍事、環(huán)境、科技等領(lǐng)域發(fā)生的事件間的因果關(guān)系,實(shí)現(xiàn)對(duì)熱點(diǎn)目標(biāo)事件或目標(biāo)變量的因果分析和預(yù)測(cè)。該研究將計(jì)算科學(xué)

2、應(yīng)用于時(shí)政分析領(lǐng)域,將因果關(guān)系研究引入文本挖掘,為因果關(guān)系研究提供了一個(gè)新的研究思路。
  目前,因果關(guān)系的研究受到前所未有的廣泛關(guān)注,但仍存在諸多困難和挑戰(zhàn)。至今人們對(duì)因果關(guān)系的認(rèn)識(shí)仍存在不足甚至謬誤,因果關(guān)系問題本身及問題環(huán)境都十分復(fù)雜。由于環(huán)境、人為因素的復(fù)雜多變并且不可控,真實(shí)環(huán)境下的因果關(guān)系發(fā)現(xiàn)更具挑戰(zhàn)性。而現(xiàn)有的因果發(fā)現(xiàn)、推理算法復(fù)雜,算法性能受限于計(jì)算能力和具體應(yīng)用領(lǐng)域,真實(shí)復(fù)雜環(huán)境下的算法性能評(píng)估更加困難。

3、  針對(duì)以上問題,我們對(duì)因果關(guān)系進(jìn)行了系統(tǒng)性研究,涉及因果關(guān)系的本質(zhì)、性質(zhì)及其分類、因果作用的物理機(jī)制、要素、生命周期以及初始變量等問題,以及因果關(guān)系發(fā)現(xiàn)和預(yù)測(cè)方法。基于這些研究和Pearl等人開創(chuàng)的因果關(guān)系經(jīng)典理論和方法,我們提出了性能更高、魯棒性更強(qiáng)的用于多類型數(shù)值數(shù)據(jù)系統(tǒng)的事件因果關(guān)系的研究框架(ICIC_Framework)、因果關(guān)系發(fā)現(xiàn)方法(ICIC_Discovery)、分析方法(ICIC_Analysis)、預(yù)測(cè)方法(IC

4、IC_Prediction)和驗(yàn)證方法。其中事件因果關(guān)系發(fā)現(xiàn)方法ICIC_Discovery無需預(yù)先設(shè)定因果結(jié)構(gòu)(如設(shè)定為無圈結(jié)構(gòu)),利用初始變量和初始團(tuán)樹,在判定邊和方向之前對(duì)變量進(jìn)行粗略地排序,提高了因果關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)性能。ICIC_Discovery方法不僅在理論上具有有效性、穩(wěn)定性,在多數(shù)據(jù)集、多評(píng)估體系下與多種已有方法比較同樣具有優(yōu)越的性能。本文提出的事件因果關(guān)系分析方法ICIC_Analysis利用ICIC_Discovery

5、發(fā)現(xiàn)的全局或局部網(wǎng)絡(luò),通過為多類型數(shù)值數(shù)據(jù)系統(tǒng)建立事件因果激勵(lì)/抑制模型、分析系統(tǒng)的原因合作競(jìng)爭(zhēng)機(jī)制、因果演化機(jī)制以及隱含變量結(jié)構(gòu)等,以抽象地表示和解釋系統(tǒng)的因果作用機(jī)制,為事件因果關(guān)系預(yù)測(cè)獲取了更多有用信息。本文提出的事件因果關(guān)系預(yù)測(cè)方法ICIC_Prediction不同于以往僅利用馬爾科夫毯來預(yù)測(cè)目標(biāo)事件的模式,而是綜合以上因果發(fā)現(xiàn)與分析的結(jié)果和結(jié)論,從當(dāng)前數(shù)值系統(tǒng)的全局特性出發(fā),利用當(dāng)前采樣數(shù)據(jù)預(yù)測(cè)目標(biāo)事件的發(fā)生。
  本文

6、研究了時(shí)事文本的事件因果預(yù)測(cè)分析,涉及了因果關(guān)系研究、數(shù)據(jù)挖掘、時(shí)政分析等的多學(xué)科交叉領(lǐng)域。時(shí)事文本的事件因果關(guān)系研究通常面臨極其復(fù)雜的真實(shí)環(huán)境的挑戰(zhàn),時(shí)事事件涉及領(lǐng)域廣泛,數(shù)據(jù)稀疏。本文提出的時(shí)事文本的事件因果關(guān)系預(yù)測(cè)方法ICIC_Prediction_NewsEvent利用自然語言處理工具提取文本中的時(shí)間、地點(diǎn)、事件、涉及人物或機(jī)構(gòu)組織等關(guān)鍵信息,并將這些信息編碼為因果關(guān)系發(fā)現(xiàn)方法可以處理的地點(diǎn)、事件和人物組織三類數(shù)值序列。這些由真

7、實(shí)環(huán)境的文本序列轉(zhuǎn)換而來的數(shù)值序列往往非常稀疏,我們將時(shí)事文本的關(guān)鍵信息按同義詞和近義詞聚類為不同的事件類,以此克服稀疏導(dǎo)致的概率失效問題。計(jì)算得到事件類之間的因果關(guān)系后,按時(shí)間、地點(diǎn)等信息進(jìn)行過濾和排序以獲得具體事件的因果關(guān)系結(jié)構(gòu)。在已有因果關(guān)系結(jié)構(gòu)上,ICIC_Prediction_NewsEvent根據(jù)歷史數(shù)據(jù)和當(dāng)前時(shí)間、地點(diǎn)等環(huán)境信息來預(yù)測(cè)某類事件的發(fā)生。維基百科年度事件數(shù)據(jù)集上的實(shí)驗(yàn)表明,ICIC_Prediction_New

8、sEvent方法具備一定的時(shí)事事件自動(dòng)預(yù)測(cè)能力。
  真實(shí)復(fù)雜環(huán)境下的因果關(guān)系研究方法和結(jié)果的評(píng)估驗(yàn)證是一個(gè)非常困難和迫切需要解決的問題。目前已有的評(píng)估指標(biāo)和數(shù)據(jù)集大多針對(duì)實(shí)驗(yàn)室的模擬數(shù)據(jù),領(lǐng)域局限性大、費(fèi)用昂貴,對(duì)未知領(lǐng)域的方法和結(jié)果評(píng)估缺乏指導(dǎo)性。針對(duì)這些問題,本文采用了理論分析、實(shí)驗(yàn)對(duì)比和事實(shí)驗(yàn)證相結(jié)合的評(píng)估方法,以驗(yàn)證ICIC方法在因果關(guān)系研究領(lǐng)域中的多項(xiàng)性能。本文從理論和實(shí)驗(yàn)上論證了ICIC_Discovery方法的有效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論