統(tǒng)計(jì)自然語言處理基本概念_第1頁(yè)
已閱讀1頁(yè),還剩71頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)自然語言處理基本概念,模型,,,,,真實(shí)世界中的系統(tǒng),模型1,Input,,,Output,,模型2,,Output1,Output2,如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認(rèn)為模型1比模型2好,,,,,,,真實(shí)系統(tǒng),,,,模型1,,模型2,Input,Output,,模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,

2、……舉架高度:供熱方式:地?zé)??暖氣片?目錄,樣本空間(Sample Space)估計(jì)器(Estimator)和隨機(jī)過程(Stochastic Process)信息論(Information Theory)數(shù)據(jù)集分類(Data Set Classification)性能評(píng)價(jià)(Performance Measure),樣本空間(Sample Space),,試驗(yàn)(Experiment),試驗(yàn)一個(gè)可觀察結(jié)果的人工或自然的過程

3、,其產(chǎn)生的結(jié)果可能不止一個(gè),且不能事先確定會(huì)產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個(gè)試驗(yàn)的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣?={HH, HT, TH, TT}, H:面朝上; T:面朝下,事件(Event),事件一個(gè)試驗(yàn)的一些可能結(jié)果的集合,是樣本空間的一個(gè)子集舉例:連擲兩次硬幣A: 至少一次面朝上B: 第二次面朝下A={HT, TH, HH}, B={HT, TT},事件的概率,事件的概率重復(fù)m試驗(yàn)

4、,如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計(jì)解釋頻率的穩(wěn)定性又稱為經(jīng)驗(yàn)大數(shù)定理舉例:連擲兩次硬幣A: 至少一次面朝上B: 第二次面朝下P(A)=3/4, P(B)=1/2當(dāng)試驗(yàn)不能重復(fù)時(shí),概率失去其頻率解釋的含義,此時(shí)概率還有其他解釋:貝葉斯學(xué)派和信念學(xué)派一個(gè)人出生時(shí)的體重,一個(gè)人只能出生一次,舉例,舉例:連續(xù)三次擲硬幣樣本空間?={HHH,HHT,HTH,HTT,THH

5、,THT,TTH,TTT}事件A:恰好兩次面朝下A={HTT,THT,TTH}做1000次試驗(yàn),計(jì)數(shù)得386次為兩次面朝下估計(jì):P(A)=386/1000=0.386繼續(xù)做7組試驗(yàn),得:373,399,382,355,372,406,359,共8組試驗(yàn)計(jì)算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累計(jì):P(A)=(386+373+…)/8000=3032/8000=0.379統(tǒng)一的分布假設(shè)為:3/

6、8=0.375,概率空間,概率空間的三個(gè)公理P(A)?0P(?)=1P(A?B)=P(A)+P(B) if A?B=?這三條公理也是概率的原始定義推論:P(?)=0; A ? B?P(A)<P(B); P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率,概率空間圖示,,,,?,A,B,A?B,聯(lián)合事件,A和B兩個(gè)事件的聯(lián)合概率就是A和B兩個(gè)事件同時(shí)出現(xiàn)的概率A和B的聯(lián)合

7、概率表示為:P(A, B)或P(A ?B)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件A ?B={HT},條件概率,在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗(yàn)總次數(shù)舉例:兩次擲硬幣問題事件A:第一次面朝

8、上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}A ?B={HT}P(A|B)=1/2條件概率可以被視為從另外一個(gè)樣本空間產(chǎn)生,概率的乘法原理,P(A,B)=P(A|B)?P(B)=P(B|A)?P(A)Chain RuleP(A1,A2,…,An)=P(A1)?P(A2|A1)?P(A3|A1,A2) ? …?P(An|A1,A2,…,An)舉例1:詞性標(biāo)注P(det,adj,n)=P(det)?P(ad

9、j|det)?P(n|det,adj)舉例2:計(jì)算一個(gè)句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1),獨(dú)立和條件獨(dú)立,獨(dú)立定義:P(A,B)=P(A)?P(B)?P(A|B)=P(A), P(B|A)=P(B)條件獨(dú)立定義:P(A,B|C)=P(A|B,C)?P(B|C)=P(A|C)?P(B|C) ?P(A|B,C)=P(A|C), P(B|A,C)=P(B|C)Na

10、9;ve Baiysian:假定各特征之間條件獨(dú)立P(A1,A2,…,An|B)=?i=1,…,nP(Ai|B)避免一個(gè)錯(cuò)誤:P(A|B,C)=P(A|B)? P(A|C),獨(dú)立和條件獨(dú)立,獨(dú)立不意味著條件獨(dú)立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)?P(B)P(A,B|C) ? P(A|C)?P(B|C)條件獨(dú)立不意味著獨(dú)立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)?P

11、(買雪茄|吸煙)P(肺癌,買雪茄)?P(肺癌)?P(買雪茄),Bayes’ Rule,根據(jù)乘法原理:P(A,B)=P(A)?P(B|A)=P(B)?P(A|B)得到貝葉斯原理:P(A|B)=P(A)?P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B) =argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是

12、特征,B是結(jié)論P(yáng)(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=?i=1,nP(Ai|B),Bayes舉例,應(yīng)用3英漢統(tǒng)計(jì)機(jī)器翻譯P(CW1,…,CWm|EW1,…,EWn)= P(EW1,…,EWn|CW1,…,CWm)?P(CW1,…,CWm)/P(EW1,…,EWn)漢語句子CW1,…,CWm英語句子EW1,…,EWm翻譯模型: P

13、(EW1,…,EWn|CW1,…,CWm)目標(biāo)語語言模型: P(CW1,…,CWm),隨機(jī)變量(Random Variable),隨機(jī)變量是一個(gè)函數(shù)X:??R。?是樣本空間,R是實(shí)數(shù)集合人們常常關(guān)心和樣本點(diǎn)有關(guān)的數(shù)量指標(biāo)數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT} ;[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=df

14、P(Ax), Ax={a??:X(a)=x},通常簡(jiǎn)寫作P(x),期望Expectation,期望是隨機(jī)變量的均值E(X)=?x ?X(?)x?PX(x)(對(duì)于離散值)E(X)=?RxP(x)dx(對(duì)于連續(xù)值)舉例:六面擲骰子問題:E(X)=3.51?1/6+ 2?1/6+3?1/6+4?1/6+5?1/6+6?1/6=3.5兩次六面擲骰子得到的點(diǎn)數(shù)和:E(X)=72?1/36+3?2/36+4?3/36+……=7方差(

15、Variance)E((X-E(X))2)= ?x ?X(?)(x-E(X))2?PX(x) (對(duì)于離散值)E((X-E(X))2) =?R(x-E(X))2P(x)dx(對(duì)于連續(xù)值)王勵(lì)勤和王皓的期望接近,王勵(lì)勤的方差大,概率分布,多項(xiàng)式分布(Multinomial Distribution)P(n1, ? ? ?,nm)=n!/(n1! ? ? ? nm!)?p1n1? ? ?pmnm?ini=n,做n次試驗(yàn)輸出第i種結(jié)

16、果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項(xiàng)式分布(Binomial Distribution)輸出:0或1做n次試驗(yàn)關(guān)心的是試驗(yàn)成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個(gè)元素中任意取出r個(gè)元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n,協(xié)方差和相關(guān)系數(shù),協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(Cor

17、relation Coefficient)?xy=Cxy/(?x?y)?x是隨機(jī)變量X的方差?y是隨機(jī)變量Y的方差-1?? ?1,?>0正相關(guān),?<0負(fù)相關(guān),?=0不相關(guān),參數(shù)估計(jì)Parameter Estimation,,參數(shù)估計(jì),研究對(duì)象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計(jì)的任務(wù):已經(jīng)知道總體的一部分個(gè)體的指標(biāo)變量值,以此為出發(fā)點(diǎn)來推斷總體分布的性質(zhì)簡(jiǎn)單樣本(simple sample

18、)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨(dú)立同分布的隨機(jī)變量(向量),估計(jì)器,設(shè)(X1,X2,…,Xn)為一個(gè)樣本,它的一個(gè)與總體分布無關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個(gè)統(tǒng)計(jì)量(statistics)舉例:擲硬幣問題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計(jì)器(Estimator)根據(jù)樣本計(jì)算參數(shù)一個(gè)估計(jì)器是隨機(jī)變量的函數(shù),同時(shí)其自身也可以視為一個(gè)隨機(jī)

19、變量估計(jì)器的準(zhǔn)確率依賴于采樣數(shù)據(jù)的大小,參數(shù)估計(jì),所有參數(shù)都是從一個(gè)有限的樣本集合中估計(jì)出來的一個(gè)好的估計(jì)器的標(biāo)準(zhǔn):無偏(unbias):期望等于真實(shí)值有效(efficient) :方差小一致(consistent):估計(jì)的準(zhǔn)確性隨樣板數(shù)量的增加而提高一些常用的估計(jì)方法極大似然估計(jì)最小二成估計(jì)貝葉斯估計(jì),極大似然估計(jì),極大似然估計(jì)Maximum Likelihood Estimation(MLE)選擇一組參數(shù)?,使

20、似然函數(shù)L(?)達(dá)到最大L(?)=f(x1,x2,…,xn|?)=?i=1,nf(xi|?)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項(xiàng)分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率

21、大的:p=3/4,黑球多,隨機(jī)過程,隨機(jī)過程(Stochastic Process)X(t), t?TX是一組隨機(jī)變量T是過程的索引集合,例如時(shí)間或位置如果T是可數(shù)集,則X(t)是離散時(shí)間過程舉例:詞性標(biāo)注C(t),C是詞性,t是位置C(1)=noun, C(2)=verb,…,C(n)=pron,馬爾可夫過程,馬爾可夫過程,也稱馬爾可夫鏈Marcov Chain離散時(shí)間,離散狀態(tài)無后效性:已知現(xiàn)在狀態(tài),則未來和過去

22、無關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1) =P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書](輸,淑,叔,舒,……)P(書|一,本)=P(書|本),信息論,,信息,控制論創(chuàng)始人(維納 Norbert Wiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時(shí)以及在感知外部世界時(shí)而作出協(xié)調(diào)時(shí)與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng) Clause Shannon)信息就是能夠用

23、來消除不確定性的東西,是一個(gè)事件發(fā)生概率的對(duì)數(shù)的負(fù)值Robert M. Losee信息可以被定義為一個(gè)處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國(guó)總統(tǒng)(熟知,信息量?。R其頓總統(tǒng)遇難(新知,信息量大),信息論,1948年美國(guó)Shannan香農(nóng)“通信的數(shù)學(xué)理論”,用概率測(cè)度和數(shù)理統(tǒng)計(jì)的方法,系統(tǒng)地討論了通信的基本問題,奠定了信息論的基礎(chǔ)信息的度

24、量有三個(gè)基本方向:結(jié)構(gòu)的、統(tǒng)計(jì)的和語義的香農(nóng)所說的信息是狹義的信息,是統(tǒng)計(jì)信息,依據(jù)是概率的不確定性度量,自信息量,自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小,互信息Mutual Information,I(x,y)=log2p(x,y)/(p(x)p(y))比如計(jì)算兩個(gè)詞的搭配I(偉大,祖國(guó))=log2p(偉大,祖國(guó))/(p(偉大)p(祖國(guó)))

25、此值較高,說明“偉大”和“祖國(guó)”是一個(gè)比較強(qiáng)的搭配I(的,祖國(guó))=log2p(的,祖國(guó))/(p(的)p(祖國(guó)))此值較低,因?yàn)閜(的)太高,“的”和“祖國(guó)”不是一個(gè)穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強(qiáng)度大I(x,y)=0:x和y無關(guān)I(x,y)<<0:x和y具有互補(bǔ)的分布,熵(Entropy),熵(Entropy)Chaos(混沌),無序物理學(xué):除非施加能量,否則熵不會(huì)降低舉例:把房間弄亂很

26、容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實(shí)驗(yàn)中得到的信息量越大,熵的公式,熵H(X)=-?x??p(x)logxp(x)假設(shè)PX(x)是隨機(jī)變量X的分布基本輸出字母表是?單位:bits熵是X的平均信息量,是自信息量的期望E(X)=?x?? p(x) xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))= ?x??

27、 p(x)(-log2p(x)) = H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX),熵的例子,擲均勻硬幣,?={H,T}p(H)=.5, p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均勻骰子,擲骰子H(p)=-32((1/32)log2(1/32))=5事實(shí)上,21=2, 25=32(perplexity)擲不均勻硬幣p(H)=0.2, p(T)=0.8, H(

28、p)=0.722p(H)=0.01, p(T)=0.99, H(p)=0.081,好書店,差書店,,什么時(shí)候H(p)=0?試驗(yàn)結(jié)果事先已經(jīng)知道即:?x??, p(x)=1; ?y??, p(y)=0 if y?x熵有沒有上限?沒有一般的上限對(duì)于|?|=n,H(p)?log2n均衡分布的熵是最大的,,等概率分布2個(gè)輸出的等概率分布,H(p)=1bit32個(gè)輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H

29、(p)=32bits非等概率分布32個(gè)輸出,2個(gè)0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”,混亂度Perplexity,混亂度G(p)=2H(p)平均每次試驗(yàn)有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預(yù)測(cè),熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小,聯(lián)合熵和條件熵,兩個(gè)隨機(jī)變量:X(空間是?),Y(?)聯(lián)合熵(Joint Entropy)(X,Y)被視

30、為一個(gè)事件H(X,Y)=-?x?? ? y??p(x,y)log2p(x,y)條件熵(Conditional Entropy)H(Y|X)=-?x?? ? y??p(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒有條件的,條件熵,H(Y|X)=?x??p(x)H(Y|X=x) = ?x??p(x)(-? y??p(y|x)log2p(y|x))=-?x?? ? y??p(y|x)p(x)log2p(y|x)= -

31、?x?? ? y??p(x,y)log2p(y|x),熵的性質(zhì),熵的非負(fù)的H(X)?0Chain RuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)?H(X)+H(Y),X和Y獨(dú)立時(shí)相等H(Y|X)?H(Y),條件熵比熵小,熵的編碼意義,如果一個(gè)符號(hào)序列是滿足概率分布p的隨機(jī)過程產(chǎn)生的,那么對(duì)這個(gè)序列進(jìn)行編碼至少需要的bit數(shù)是H(p)壓縮問題如果數(shù)據(jù)中有很多重復(fù)的模式,則易于壓

32、縮,因?yàn)殪匦》駝t,熵大,不容易壓縮,編碼實(shí)例,怎樣給ISO Latin 1編碼?通常用8位經(jīng)驗(yàn)表明:有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn)我們可以給經(jīng)常出現(xiàn)的字用較少的bit來表示,給很少出現(xiàn)的字符用較多的bit來表示假設(shè):p(‘a(chǎn)’)=0.3, p(‘b’)=0.3, p(‘c’)=0.3, 其余p(x)=0.0004編碼:a:00, b:01, c:10, 其余:11b1b2…b8對(duì)于符號(hào)串:acbbécbaac

33、,編碼為: a c b b é c b a a c0010010111000011111001000010如果每個(gè)符號(hào)用8位編碼,需要80位,現(xiàn)在需要28位,語言的熵,p(cn+1|c1…cn)ci是語言中的一個(gè)字符c1…cn是歷史h舉例:漢語,n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計(jì)算語言的條件熵-?h?H ?c??p(c,h)log2p(c|h

34、),各種語言的熵,按字母計(jì)算的零階熵法文:3.98 bits意大利文:4.00 bits西班牙文:4.01 bits英文:4.03 bits德文:4.10 bits俄問:4.35 bits中文(按漢字計(jì)算):9.65 bits中文(按筆畫計(jì)算):3.43 bits按詞匯計(jì)算的零階熵英語:10.0 bits漢語:11.46 bits說明漢語的詞匯豐富語言的冗余度英語:73%; 俄語:70%;漢語:63%;

35、古文更低,Kullback-Leibler距離,假設(shè)通過一組試驗(yàn)估計(jì)得到的概率分布為p,樣本空間?,隨機(jī)變量X真實(shí)的分布為q,相同的?和X現(xiàn)在的問題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=?x??q(x)log2q(x)/p(x) =Eplog(q(x)/p(x)),KL距離(相對(duì)熵),習(xí)慣上0log0=0plog(p/0)=?Distance or

36、 Divergence(分歧)不對(duì)稱D(q||p)?D(p||q)也不滿足三角不等式事實(shí)上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對(duì)p進(jìn)行編碼需要的bit數(shù)(交叉熵),平均互信息,隨機(jī)變量:X;Y;pX?Y(X,Y);pX(x);pY(y)兩個(gè)離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y)) = ? x? ??y?? p(x,y)log2(

37、p(x,y)/p(x)p(y))這里說的是兩個(gè)離散集的平均互信息互信息衡量已知Y的分布時(shí),對(duì)X的預(yù)測(cè)有多大的幫助,或者說Y的知識(shí)降低了H(X)或者說p(x,y)和p(x)p(y)之間的距離,,互信息的性質(zhì),I(X,Y)=H(X)-H(X|Y) =H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因?yàn)椋篐(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因?yàn)镠(X,X)=0)I

38、(X,Y)=I(Y,X)I(X,Y)?0,交叉熵Cross-Entropy,典型情況:我們得到一個(gè)觀察序列T={t1,t2,…tn}, ti??估計(jì):?y? ?: p(y)=c(y)/|T|, 定義:c(y)=|{t?T, t=y}|但是,真實(shí)的q不知道,再大的數(shù)據(jù)也不夠問題:用p對(duì)q進(jìn)行估計(jì)是否準(zhǔn)確?方法:用一個(gè)不同的觀察序列T’估計(jì)實(shí)際的q,交叉熵,Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-?x

39、??p’(x)log2p(x)p’當(dāng)然也不是真實(shí)的分布,但是我們視為真實(shí)世界的分布,以便測(cè)試p交叉混亂度:Gp’(p)=2Hp’(p),條件交叉熵,實(shí)踐中計(jì)算的往往是條件交叉熵兩個(gè)樣本空間樣本空間:?,隨機(jī)變量Y,y?Y上下文樣本空間:?,隨機(jī)變量X,x?X實(shí)驗(yàn)得到的分布p(y|x), “真實(shí)”分布p’(y|x)Hp’(p)=-?y??, x? ?p’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是

40、p’(y|x),,在實(shí)際應(yīng)用中,在全部?jī)蓚€(gè)樣本空間上做累加通常不是很方便,因此常常簡(jiǎn)化使用如下公式:Hp’(p)=-?y??, x? ?p’(y,x)log2p(y|x) =-1/|T’|?i=1…|T’|log2p(yi|xi)事實(shí)上,就是在T’上進(jìn)行累加,然后歸一化 = -1/|T’|log2 ? i=1…|T’|p(yi|xi),舉例,?={a,b,…,z},概率分布(估計(jì)

41、值)p(a)=0.25, p(b)=0.5, p(?)=1/64, ??{c,…,r}, p(?)=0, ??{s,…,z}測(cè)試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25, p’(b)=0.5在?上做累加? a b c d … q r s … z -p’(?)log2p(?) 0.5 0.5 0 0 0 1.5

42、 0 0=2.5也可以在測(cè)試數(shù)據(jù)上進(jìn)行累加,然后歸一化si b a r b-log2p(si) 1 2 6 1 = 10 (1/4)?10=2.5,,H(p)和Hp’(p)之間可能有各種關(guān)系包括‘?’, ‘?’, ‘?’舉例(參照上例)H(P)=2.5測(cè)試數(shù)據(jù):barbHp’(p) =1/4(1+2+6+1)=2.5測(cè)試數(shù)據(jù)

43、:probableHp’(p) = 1/8(6+6+6+1+2+1+6+6)=4.25測(cè)試數(shù)據(jù):abbaHp’(p) = 1/4(2+1+1+2)=1.5,交叉熵的使用,不是比較數(shù)據(jù),而是比較分布如果我們有兩個(gè)分布p和q,哪一個(gè)更好呢?面對(duì)“真實(shí)數(shù)據(jù)”S,p和q誰的交叉熵低,誰就更好HT(p)= -1/|S|log2 ? i=1…|S’|p(yi|xi)HT(q)= -1/|S|log2 ? i=1…|S’|q(yi|xi

44、),,數(shù)據(jù)集分類,,,訓(xùn)練集Training Set用來獲得模型參數(shù)測(cè)試集Testing Set從訓(xùn)練集以外獨(dú)立采樣反映系統(tǒng)面對(duì)真實(shí)世界的處理能力測(cè)試集經(jīng)常被無意識(shí)地“做了手腳”交叉確認(rèn)集Cross-Validation Set從訓(xùn)練集和測(cè)試集以外獨(dú)立采樣主要用來幫助做設(shè)計(jì)決策,測(cè)試集,測(cè)試集從訓(xùn)練集去評(píng)價(jià)系統(tǒng)的性能,結(jié)果往往過于樂觀如果模型的參數(shù)比需要的多很多時(shí),獲得100%的準(zhǔn)確率也是可能的過擬和(Over-f

45、itting)常常出現(xiàn)在訓(xùn)練數(shù)據(jù)的數(shù)量不足以支持模型的復(fù)雜程度之時(shí)為此,我們需要另一個(gè)數(shù)據(jù)集來模擬用戶的真實(shí)需要,,在設(shè)計(jì)階段,不允許偷看測(cè)試數(shù)據(jù)的細(xì)節(jié),以保證測(cè)試數(shù)據(jù)不被污染你不能參照測(cè)試數(shù)據(jù)來決定模型的復(fù)雜度,特征空間的維數(shù),以及什么時(shí)候決定停止訓(xùn)練過程等設(shè)計(jì)決策可以參照交叉確認(rèn)數(shù)據(jù)進(jìn)行每一個(gè)階段采用一個(gè)不同測(cè)試集當(dāng)你試圖選擇一個(gè)最好的方法使測(cè)試效果達(dá)到最佳時(shí),實(shí)際上已經(jīng)在無意識(shí)地使你的系統(tǒng)偏向測(cè)試集問題的關(guān)鍵在于測(cè)試集

46、并不是真實(shí)數(shù)據(jù)本身,如果面向測(cè)試集調(diào)整參數(shù),可能造成系統(tǒng)對(duì)于從未見過的真實(shí)數(shù)據(jù)效果下降,,交叉確認(rèn)集如果在訓(xùn)練集合上獲得了比較差的結(jié)果,我們必須重新設(shè)計(jì)如果在訓(xùn)練集合上獲得了比較好的結(jié)果,那可能是因?yàn)椋耗P痛_實(shí)好(在測(cè)試數(shù)據(jù)上性能一樣會(huì)好)模型過擬和(在測(cè)試數(shù)據(jù)上性能會(huì)下降)由于不允許使用測(cè)試集來改進(jìn)系統(tǒng)設(shè)計(jì),因此需要另一個(gè)數(shù)據(jù)集,性能評(píng)價(jià),,,使用有限的樣本進(jìn)行性能測(cè)試有估計(jì)誤差性能評(píng)價(jià)的結(jié)果和測(cè)試數(shù)據(jù)的大小有關(guān)不同數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論