版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、《統(tǒng)計學(xué)基本概念與方法》,孫 平東北大學(xué)數(shù)學(xué)系,plsun@mail.neu.edu.cn,2.參數(shù)估計,1.預(yù)備知識,,,,3.假設(shè)檢驗,4.方差分析,5.回歸分析,統(tǒng)計學(xué) ( Statistics ) 是一門收集與分析數(shù)據(jù),并且根據(jù)數(shù)據(jù)進行推斷的藝術(shù)與科學(xué)。 ———— 《大英百科全書》,(數(shù)理) 統(tǒng)計學(xué)中的數(shù)據(jù)都是隨機數(shù)據(jù)。統(tǒng)計學(xué)的任務(wù)就是在隨機性中去尋找
2、規(guī)律。,統(tǒng)計學(xué)理論主要包含三個部分:1.數(shù)據(jù)收集,2.數(shù)據(jù)分析,3.由數(shù)據(jù)做出決策。,(一). 統(tǒng)計學(xué)的基本概念,統(tǒng)計學(xué)中把所研究的對象全體稱為總體,總體中的每一個元素稱為一個個體。,總體與個體都用數(shù)量指標(biāo)來表示,1. 總體與個體 (population),即使面臨的是一個定性的實際問題,也必須把有關(guān)的資料定量化。,一. 預(yù)備知識,但同時在直觀上又認(rèn)為、或者希望做到:抽取出的每個個體 (樣本) 都充分蘊涵總體信息。,從總體中取出
3、一個個體,稱為從總體中得到一個樣本。,2. 樣本 (sample),統(tǒng)計學(xué)的目的就是從樣本去得出總體的信息。,由于各種原因與實際條件的限制,不可能得到一個總體中所有個體的數(shù)據(jù)。即樣本總是總體的一小部分。,,,,被研究的對象全體,具有代表性的 部分個體,總體,樣本,,,,,,,,,,,,,,,,,,,,,……..,,,,獨立同分布的樣本稱為簡單隨機樣本。,總體被認(rèn)為是一個服從某種概率分布 F 的隨機變量。,樣本是和總體隨機變量有相同
4、分布 F 的隨機變量,樣本的個數(shù)稱為樣本容量, n 。,總體分布 F 可以是未知的, 非參數(shù)統(tǒng)計學(xué),總體分布 F 的類型已知,但是含有一些未知的參數(shù)。 參數(shù)估計,(二). 數(shù)理統(tǒng)計學(xué)的主要內(nèi)容,1. 抽樣理論:介紹如何收集數(shù)據(jù)。主要 抽樣方法,樣本容量的確定,抽樣誤差, 敏感問題等,2. 參數(shù)估計:如何根據(jù)數(shù)據(jù)得到總體參數(shù) 信息。點估計、區(qū)間估計,Bayes 估計等,3. 假設(shè)檢驗: 如何對關(guān)于總
5、體的一些假設(shè) 做出決策。正態(tài)總體參數(shù)的檢驗,分布擬合 檢驗,秩檢驗,列聯(lián)表,統(tǒng)計決策等理論,4. 方差分析與回歸分析:變量之間的效應(yīng) 關(guān)系。 方差分析 — 分類變量與數(shù)值變量的效應(yīng)關(guān)系 回歸分析 — 研究數(shù)值變量之間的效應(yīng)關(guān)系,5. 多元分析: 研究若干個變量之間的關(guān)系 聚類分析、判別分析、主成分分析、 因子分析、典型相關(guān)分析等等,例1.
6、1 希望了解某所高校學(xué)生月消費情況。,解決方法:從這所大學(xué)里隨機地調(diào)查有代表性的一些學(xué)生,根據(jù)收集到的數(shù)據(jù)去得出這所大學(xué)學(xué)生每個月支出費用的有關(guān)信息。,1. 如何得到樣本 ?,不同家庭背景學(xué)生的比例應(yīng)該各占多少?樣本容量應(yīng)該取多少才合適?被調(diào)查者拒絕調(diào)查怎么辦?,抽樣調(diào)查,2. 如何確定總體的分布 ?,這里的總體是這所大學(xué)的學(xué)生月支出費用,我們不妨認(rèn)為學(xué)生月支出費用是一個服從正態(tài)分布的隨機變量。,根據(jù)經(jīng)驗或者是所討論的問題的實際
7、背景,總體的分布類型一般可以事先確定下來。,( 不同學(xué)校對應(yīng)的這兩個參數(shù)也就不相同 ),即,總體隨機變量 X ~ N (?,?2 ) ,而這個學(xué)校相應(yīng)的兩個參數(shù) ? 與 ? 2 是未知的。,Remark 當(dāng)不知道或者難以確定總體的分布類型時,在統(tǒng)計學(xué)中常常采用下面兩種辦法來近似得到總體分布的有關(guān)信息。,(1). 直方圖的方法,只適用連續(xù)總體,得到的是總體密度函數(shù)近似。,把收集到的 n 個數(shù)據(jù) x1,x2 ,…,x
8、n 從小到大排列: x(1) ≤ x(2) ≤ … ≤ x(n) ;其次取區(qū)間 (a,b),包含全部數(shù)據(jù) a < x(1) ,x(n) < b ;,把 (a,b) 等分成若干小區(qū)間,計算每個小區(qū)間中包含的數(shù)據(jù)的頻率。,x(1) x(n),根據(jù)這些頻率做出相應(yīng)的小區(qū)間上的矩形,則當(dāng) n 充分大時,這些小區(qū)間上矩形的面積將近似于總體的概率密度函數(shù)下曲邊梯形的面積。
9、,,,,(2). 經(jīng)驗分布函數(shù)的方法,構(gòu)造一個分布函數(shù),得到的是總體分布函數(shù) F (x) 的近似。,Fn (x) =,0, x ≤ x(1) — , x(k) < x ≤ x(k+1) 1, x > x(n),,這個函數(shù)實際上是觀察值 x1,…,xn中小于 x 的頻率,即 Fn (x) = { x1,…,xn中小于 x 的個數(shù)} / n,k n,,,O,x,y,,,,,,○,
10、○,x(1),x(2),x(3),1/n,2/n,可以證明,經(jīng)驗分布函數(shù) Fn (x) 將依概率、甚至是幾乎處處收斂到 F (x) 。,…,3. 如何從樣本得出總體的信息 ?,樣本是一組與總體獨立、同分布的隨機變量,我們得到的數(shù)據(jù)是樣本觀察值,而不是樣本。,調(diào)查一個學(xué)生得到了一個數(shù)據(jù),相當(dāng)于對總體分布做了一次隨機試驗而觀察到了這個隨機變量的具體取值。,一共有 n 個數(shù)據(jù),相當(dāng)于對總體分布做了 n 次獨立重復(fù)試驗,而得到了這個總體隨機變
11、量在這些試驗中的具體取值。,利用樣本觀察值去估計出總體的未知參數(shù),直觀上可以利用調(diào)查到的 n 個學(xué)生的月支出 x1 ,x2 ,…,xn 的算術(shù)平均 :,去估計這所學(xué)校學(xué)生的平均月支出費用 ? 。,它的合理性在哪? 還有沒有其它的辦法? 這些不同的方法各有什么樣的優(yōu)缺點?,數(shù)理統(tǒng)計學(xué)最重要的內(nèi)容之一,參數(shù)估計,事先提出一個假設(shè),利用樣本觀察值去檢驗這個假設(shè)是否可以被接受,假設(shè)檢驗,假定學(xué)校要制定相關(guān)一些政策,
12、如獎學(xué)金、貸款、勤工儉學(xué)等;或者后勤服務(wù)、商業(yè)經(jīng)營的價格等等。,共同關(guān)心的一些問題,比如說: ? > ?0 ? 這里 ?0 是一個已知的常數(shù)。,數(shù)理統(tǒng)計學(xué)最重要的內(nèi)容之一,應(yīng)該如何去做這個檢驗?,一種想法是:既然已經(jīng)通過參數(shù)估計得到了這個學(xué)校學(xué)生月平均支出 ( 即總體的參數(shù) ? ) 的估計值,自然就可以用它代替假設(shè)里的 ? 去做檢驗: 當(dāng)估計值比
13、?0 大就接受這個假設(shè),否則就拒絕,但是這樣的風(fēng)險很大:樣本總是隨機得到的,因此估計值與真實值之間不可避免地存在著隨機誤差。,傳統(tǒng)的方法是:給出一個區(qū)域 (拒絕域),如果估計值落在這個區(qū)域內(nèi),就拒絕原來的假設(shè),否則就接受。,除了對總體參數(shù)的檢驗外,還有一些重要的假設(shè)檢驗問題,例如:,關(guān)于總體分布的檢驗,檢驗得到的樣本數(shù)據(jù)是不是來自于某個事先給出的總體,獨立性的檢驗,檢驗一些分類變量之間是否是獨立的,例如: 抽煙與肺癌,
14、睡覺打鼾與心臟病…,分布擬合檢驗,關(guān)于數(shù)據(jù)差異的檢驗,主要希望了解兩組或多組數(shù)據(jù)間的差異究竟是來自于隨機性,還是總體間的確存在差異?,例如: 小兒麻痹癥、SARS疫苗的研制, 越戰(zhàn)期間美國的征兵計劃, …,以及我們在科學(xué)研究、工程實踐、社會調(diào)查等等得到的數(shù)據(jù),討論數(shù)值變量之間的效應(yīng)關(guān)系問題,比如說,想了解兒子身高與父親身高之間的關(guān)
15、系。 在每個被調(diào)查的家庭中同時獲得這兩個變量的觀察值,分析它們是否有某種(函數(shù))關(guān)系,…,一元線性回歸,多元線性回歸,例如,鋼的去碳量與不同礦石、融化時間、煉鋼爐體積等等是否有關(guān)?關(guān)系如何?…,數(shù)理統(tǒng)計學(xué)重要應(yīng)用之一,回歸與相關(guān)分析,討論分類變量與數(shù)值變量之間的關(guān)系,比如說產(chǎn)品質(zhì)量與不同操作人員之間的關(guān)系。 是否某些人生產(chǎn)出的產(chǎn)品質(zhì)量偏高?如果偏高,這種差異是否是純屬偶然原因,…,單因素方差分析,數(shù)理統(tǒng)計學(xué)重要應(yīng)用之一,
16、方差分析,雙因素方差分析,希望了解操作人員和設(shè)備這兩個因素聯(lián)合對質(zhì)量的關(guān)系。各自單獨是否有影響?交互效應(yīng)如何?…,簡單的說,從概率論的角度出發(fā), 可以把上述數(shù)理統(tǒng)計學(xué)的過程理解成:,,,有一個含有未知信息的概率分布 F,針對 F 做了 n 次獨立重復(fù)的試驗與觀察,得到 n 個獨立同分布于 F 的隨機變量的取值,根據(jù)樣本的具體觀察值,去推斷出總體 F 所包含的未知信息,或作出進一步的決策等,例1.2. 如何分析
17、與處理變量的關(guān)系?,分類變量:如性別、信仰、職業(yè)等等,順序變量:如名次(第一、第二,…),數(shù)值變量:如收入、比例、產(chǎn)量等等,,簡單 復(fù)雜,Remark 可以把復(fù)雜的變量簡化為簡單變量,反之不行 數(shù)值變量 ? 順序變量 ? 分類變量,變量組合與相應(yīng)的統(tǒng)計分析方法,因變量 y,自變量 x 分類變量 順序變量 數(shù)值變量分類變量 卡方分析 ?
18、 回歸與相關(guān)順序變量 ? 秩方法 ?數(shù)值變量 方差分析 ? 回歸與相關(guān),,,,,把兩個變量分別作為橫軸和縱軸描出散點,散點圖(Scatterplot),散點圖在簡化數(shù)據(jù)的同時,能夠保留原始數(shù)據(jù)的信息。,(三). 變量的統(tǒng)計圖表示,例1.3. 下面是 24 對夫妻的數(shù)據(jù),有兩個變量:結(jié)婚時間和一年內(nèi)的吵架次數(shù)。,結(jié)
19、婚年數(shù) 5 2 4 1 3 6 5 8 3 7 3 9爭吵次數(shù) 10 20 16 15 9 6 8 5 10 7 8 6,結(jié)婚年數(shù) 10 15 13 20 16 25 22 14 15 19 17 20爭吵次數(shù) 5 3 4 2 4 1 3 3 4 3 3
20、 2,,,,,結(jié)婚時間與吵架次數(shù)的散點圖,(2). 時間序列圖,特殊散點圖,以時間作為橫軸的變量,時間序列圖能夠反映出一個變量隨著時間而變化的趨勢。,蘇格蘭羊,總體 X 的分布函數(shù) F 含有未知的參數(shù) ? ,? 所有可能的取值范圍稱為“參數(shù)空間”,記為? 。 從這個總體中抽取了一組樣本 X1,…,Xn ,相應(yīng)的樣本觀察值是 x1,…,xn 。 應(yīng)該如何估計出 ? 的具體數(shù)值?,點
21、估計就是利用樣本構(gòu)造一個合理的統(tǒng)計量: g (X1,…,Xn ) ;用它的觀察值 g(x1,…,xn ) 去作為作為 ? 的估計值。,二. 參數(shù)估計,你可以用這組數(shù)據(jù)中的任何一個,或者樣本均值,或者是樣本中位數(shù)等,作為 ? 的估計值。,例2.1 甲同學(xué)在一個體重儀上稱她的體重,假定 這個體重儀沒有系統(tǒng)誤差,每次稱量的結(jié)果 是真實重量? 加上一個隨機誤差 ?k 。一般認(rèn)為 ?k ~ N (0,?
22、2 ) ,因此 n 次稱量的結(jié)果 Xk = ? + ?k ~ N (?,?2 ),矩估計: 用樣本的有關(guān)矩去作為總體有關(guān)矩的 估計。即樣本均值作為總體期望的估計; 樣本方差作為總體方差的估計;樣本中位數(shù) (或眾數(shù)) 作為總體中位數(shù)( 或眾數(shù) ) 的估計等 。,極大似然估計: 所有情況中 “看起來最象” 的那個估計,常用的點估計方法,例2.2. 假定盒子里黑、白球共 5 個,但是
23、 不知道黑球具體數(shù)目。現(xiàn)在隨機有放回抽取 3 個小球,發(fā)現(xiàn)是兩個黑球和一個白球。 問盒子里最可能有幾個黑球?,解:盒子里黑白球所有的可能有六種: 5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑,以 p 記盒子里黑球所占的比例,則 p 全部可能的值是: { 0,—, —, —,—,1 },1 2 3 4 5 5 5
24、 5,定義三個統(tǒng)計量 X1,X2,X3 表示抽樣結(jié)果:取到黑球記為 1 ,否則記為 0 。因此X1,X2,X3獨立同分布于參數(shù) p 的兩點分布。 例題中的三個樣本觀察值 x1,x2 ,x3 有兩個取值是 1,一個取值為 0。,而樣本的聯(lián)合分布律顯然是L(x, p) = px1+x2+x3 (1 - p )3 - x1 - x2 - x3= p2 (1 - p ),它的含義是:當(dāng)盒中黑球比例為 p 時,隨機事件“
25、有放回取出的三個小球中有兩個黑球、一個白球”的概率。,對應(yīng)于參數(shù)空間中不同的 p ,樣本分布 L(x, p) = p2 (1 - p ) 所對應(yīng)的這些概率是:,□,p 0,— , — , — ,— ,1 L(x, p) 0,— , — , — ,— ,0,1 2 3 4 5 5 5 5,4 1
26、2 18 16 125 125 125 125,,,既然“ 三個小球中包含兩個黑球 ” 是已經(jīng)發(fā)生了的隨機事件,因此使得這個事件發(fā)生概率取最大的那個值就是未知參數(shù) p 最有可能的取值 。 即 p 的極大似然估計就是 3/5 。,三. 假設(shè)檢驗,(一). 假設(shè)檢驗的思想,它是如下的一種統(tǒng)計推斷:,對于一個統(tǒng)計模型,我們提出一個假設(shè),根據(jù)抽取到的樣本
27、,來作出是接受還是拒絕這個假設(shè)。,小概率事件在一次試驗中不應(yīng)該發(fā)生。,有一種飲料由 Tea 和 Milk 混合而成,按照順序的不同,分為 TM、 MT 兩種,,有位女士聲稱她有能力品嘗出是 TM 還是MT 。,為了檢驗她的說法是否可信,準(zhǔn)備 8 杯飲料, TM 和 MT 各一半,并且把這一點告訴她。 現(xiàn)在隨機的讓這位女士品嘗,指出哪些是 TM , 最終的結(jié)果是她全部說對了。,女士品茶,R.A
28、.Fisher 的推理過程如下:,引進一個假設(shè),,H0 :這位女士沒有鑒別能力,如果 H0 是正確的,她只能隨機從 8 杯飲料中猜測 4 杯說是 TM 。全部猜對的概率為: — = — ≈0.014,現(xiàn)在她正確的說出了全部的 TM,要解釋這種現(xiàn)象,只能有下面兩種可能:,1 1 C84 70,H0 不成立,即:她的確有鑒別能力;(2) H0 成立,意味
29、著一件概率為 0.014 的 隨機事件在一次試驗中發(fā)生了。,Fisher 認(rèn)為,隨機試驗的結(jié)果(或樣本) 構(gòu)成不利于假設(shè) H0 的顯著性證據(jù),因此應(yīng)該否定H0 。,這種推理過程就稱為:顯著性檢驗,顯著性是統(tǒng)計意義上的顯著,意思是一個小概率事件是否發(fā)生。,一個概率不到 2% 的隨機事件在一次試驗中發(fā)生了,這是比較稀奇或者說不太可能的。,思考 假如這位女士只說對了 3 杯 ?,一個人純粹靠隨機的猜測,能夠說對至少
30、 3 杯的概率 ( 即 H0 成立的情況下,出現(xiàn)這種試驗結(jié)果的可能性 ) : ———— = — ≈0.243,顯然我們不會對一個概率接近 25% 的隨機事件在一次試驗中發(fā)生而感到驚訝。 試驗結(jié)果并沒有提供不利于H0 的顯著性證據(jù),因此不能否定零假設(shè) ,而應(yīng)該接受H0 ,即應(yīng)該認(rèn)為這位女士沒有鑒別能力 。,1+ C43 C41 17 C84
31、 70,(二). 假設(shè)檢驗的基本過程,例3.2. 當(dāng)包裝機器正常工作時,每袋葡萄糖 的重量應(yīng)該是一個服從均值 0.5 kg,標(biāo)準(zhǔn)差 0.015 kg的隨機變量。有一天隨機地抽取了 9 袋包裝好的產(chǎn)品,測量出它們的平均重量 是 0.511 kg,問這臺包裝機器是否正常工作?,(假定即使工作異常標(biāo)準(zhǔn)差也不會改變),1. 提出一個統(tǒng)計假設(shè),根據(jù)題意每袋產(chǎn)品重量 X ~ N (?,0.0152 )
32、, 如果機器正常工作,應(yīng)該是 ? = 0.5 ,反之應(yīng)該是 ? ≠ 0.5 。,因此首先提出統(tǒng)計假設(shè):,假設(shè)檢驗的任務(wù)就是要根據(jù)抽取出的樣本,來決定是接受零假設(shè),還是拒絕零假設(shè) ( 接受對立假設(shè) ) 。,H0:? = ?0 ( = 0.5 ) ? H1:? ≠ ?0 (≠ 0.5 ),2. 選取一個合適的檢驗統(tǒng)計量,它的分布當(dāng)零假設(shè)成立時應(yīng)該是已知的,而且一般是從待檢驗的總體參數(shù)的良好的點估計中去尋找。,在例題中需要
33、檢驗的是總體期望 ? ,因此考慮樣本均值,,零假設(shè)成立時 (? = 0.5 ) 則有:,3. 利用零假設(shè)成立時檢驗統(tǒng)計量的 分布構(gòu)造出一個小概率事件,這個小概率就是給定的顯著性水平(也稱檢驗水平),而這個小概率事件就是零假設(shè)的拒絕域,并且拒絕域必須和對立假設(shè)有關(guān):零假設(shè)的拒絕域相當(dāng)于對立假設(shè)的接受域 。,在例題中由于樣本均值是總體期望 ? 的一個良好的點估計,因此零假設(shè)成立(? = 0.5 )時,偏差
34、 應(yīng)該比較小,不能夠太大。,而如果 比較大時,自然我們會認(rèn)為零假設(shè)不成立,所以應(yīng)該接受對立假設(shè)。所以零假設(shè) (? = 0.5 ) 的拒絕域的形式就是 :,根據(jù)檢驗統(tǒng)計量的分布, 有:,這個常數(shù) z0 就可以取為 u?/2,統(tǒng)計量| z | = > 某個常數(shù) z0,4. 代入樣本觀察值,如果使得這個小概率 事件發(fā)生,就否定零假設(shè)而去接受對立
35、 假設(shè)。否則說明樣本沒有提供否定零假設(shè) 的顯著性證據(jù),因此應(yīng)該接受零假設(shè)。,在這個例題里,檢驗統(tǒng)計量 | z | = ———— = 2.2, H0:? = ?0 ( = 0.5 ) ? H1:? ≠ ?0 (≠ 0.5 ) 的顯著水平? 的拒絕域就是 { 2.2 >u?/2 }。,3×0.011 0.015,假設(shè)檢驗?zāi)J(rèn)的顯著水平是? =0.05,(1) 如果取? = 0.05
36、,則2.2>常數(shù) z0 = 1.96 ,說明 一個概率為0.05 的隨機事件發(fā)生了,樣本提供 了機器異常的顯著證據(jù),應(yīng)該否定零假設(shè);(2) 如果取 ? =0.01,則2.2<常數(shù) z0 = 2.575 ,說 明一個概率0.01的隨機事件沒有發(fā)生,樣本沒有 提供機器異常的顯著證據(jù),應(yīng)該接受零假設(shè)。,在不同的顯著水平下,可以導(dǎo)致最終得出的檢驗結(jié)論完全不同。這個現(xiàn)象說明了顯著水平? 對于 H0的保護:? 越小越不容易
37、否定零假設(shè)。,□,(三). 卡方 檢驗,如果一組樣本 X1,…,Xn 來自分布 F,需要檢驗是如下問題: H0:F = F0 ? H1:F ≠ F0,從理論上來說無論 F 是離散還是連續(xù)分布,卡方檢驗都可以處理;不過它更適用于離散的總體,對于連續(xù)的總體 F ,采用 Kolmogrov 檢驗更好。,K.Pearson 的擬合優(yōu)度檢驗思想,在實數(shù)軸上取 m 個點把 R1 分成 m + 1 個部分
38、,以 vi 表示落在第i 個區(qū)間里的樣本個數(shù),pi 是總體隨機變量 X 在這個區(qū)間中的概率:,,x,t1 t2 t3 … tm,,,,,x(1) … … x(n),,,,,,,,當(dāng)零假設(shè) H0:F = F0 成立時pi 可以計算出: pi = F0(ti )
39、- F0(ti - 1 ) ,1 ≤ i ≤ m + 1; 這里 F0 (t0 ) = 0,F(xiàn)0(tm +1 ) = 1 n 充分大時,頻率 vi/n 與概率 pi 應(yīng)該相當(dāng)接近, 因此如果零假設(shè)成立則統(tǒng)計量:,應(yīng)該偏小,反之則可以否定零假設(shè) H0:F = F0 。 1900年K.Pearson 證明了極限分布 K2 ??2(m), 因此 H0 的一個水平? 拒絕域近似
40、為 K2 >??2(m) 。,總體 X 只可能取有限個值ai ,1 ≤ i ≤ k 。相應(yīng)地,樣本 X1,…,Xn中取值為ai 的個數(shù)為vi ,1 ≤ i ≤ k 。需要檢驗: H0:P { X = ai} = pi ,1 ≤ i ≤ k,取檢驗統(tǒng)計量:,則H0 的一個水平? 檢驗的拒絕域為 K2 >??2(k - 1),例3.3. Mendel 的遺傳學(xué)例子,Mendel 研究豌豆時發(fā)現(xiàn)豌豆有兩
41、種特性:圓與皺、黃與綠,他觀察了 556 顆豌豆:,圓黃 皺黃 圓綠 皺綠 (總數(shù))315 101 108 32 (556),而根據(jù)他的遺傳學(xué)理論,Mendel 認(rèn)為這些組合關(guān)系應(yīng)該有理論上的概率:,,,圓黃 皺黃 圓綠 皺綠 (概率)9/16 3/16 3/16
42、1/16 (1),,,解. 總體分布的 k = 4,對應(yīng) K2 統(tǒng)計量為:,□,?0.052(3)=7.815,?0.902(3)=0.584,?0.952(3)=0.352 甚至在水平0.90下都可以接受零假設(shè),即認(rèn)為Mendel 的遺傳學(xué)理論是正確的。,從p-值的角度擬合優(yōu)度 p = P {?2(3) >0.47 }這個值是0.9254 ,理論分布與實際數(shù)據(jù)相當(dāng)吻合。,四. 方差分析,方差分析針
43、對方差相同的多個正態(tài)總體,檢驗它們的均值是否相同。 即, 同時判斷多組數(shù)據(jù)均值之間差異是否顯著,方差分析 ( Analysis of Variance,ANOVA ) : 研究一個(或多個)分類自變量如何影響一個數(shù)值因變量的統(tǒng)計分析方法。,方差分析的特點① 方差分析與一般的假設(shè)檢驗不同 要比較均值是否相同,可以使用第三章假設(shè)檢驗的方法,但是只能處理兩個均值。 方差分
44、析處理的是多個均值的情況。,方差分析的目的①. 判斷某些因素對于我們感興趣的因變量是否 具有“顯著”的影響,②. 如果因素間有交互效應(yīng),尋找最佳搭配方案。,常見的方差分析主要有: 單因素方差分析,雙因素方差分析, 多因素方差分析。,② 方差分析與回歸、相關(guān)分析不同 回歸與相關(guān)處理的是兩個數(shù)值變量的問題,相應(yīng)的散點在 x 軸上具有順序(從小到大),而方
45、差分析的數(shù)據(jù)在 x 軸上可以任意交換位置。,考察小麥產(chǎn)量( y ) 對于品種和施肥量的關(guān)系。,Fisher的農(nóng)業(yè)試驗,選擇了:兩個不同的小麥品種, 三個不同的施肥等級;一共 2×3 = 6 種搭配做試驗,建立模型。,y11 = ?0 + ?1 + ?1 + ?11 y12 = ?0 + ?1 + ?2 + ?12 y13 = ?0 + ?1 + ?3 + ?13 y
46、21 = ?0 + ?2 + ?1 + ?21 y22 = ?0 + ?2 + ?2 + ?22 y23 = ?0 + ?2 + ?3 + ?23,,yij 是小麥產(chǎn)量,?1、?2 是品種效應(yīng),?1、 ?2、 ?3 是施肥 等級的效應(yīng),?0 是其它因素的 平均效應(yīng)。,?ij 是隨機誤差,i.i.d ~ N (0,?2 ),品種是否對產(chǎn)量有影響 ? H01: ?1 = ?2 施肥量是否對產(chǎn)量有
47、影響 ? H02: ?1 = ?2 = ?3,把這個模型寫成矩陣的形式:Y = X? + ?,在方差分析中,同一個因素的不同水平看成是模型里的不同變量,而不能看成是同一個自變量在不同試驗里的取值。(否則需要 y 對 x 有線性相依關(guān)系),五. 回歸與相關(guān)分析,回歸與相關(guān)分析是用于討論數(shù)值變量之間關(guān)系的統(tǒng)計分析方法。,回歸分析研究一個(或多個)自變量的變化如何影響因變量, 相關(guān)分析研究這兩個數(shù)值變量的相關(guān)程度。,Regres
48、sion,y = 33.73 + 0.516 x (單位:英寸),?,?,,?,?,直觀上在一個總體中有兩個特征( X,Y ),觀察了n 次得到平面上的 n 個點 ( x1,y1 ),…,( xn,yn ) 。,,,x,y,o,?,如果一條曲線 y = f (x) 基本上通過這些點,或者這些點的大多數(shù)與這條曲線偏離很小,則稱曲線是對觀察值的擬合曲線,或者稱為是 y 對于x 的回歸曲線。,,“回歸”的含義,?,?,?,
49、?,?,?,?,?,?,?,?,?,在理論上,假定( X,Y )有聯(lián)合分布,二階矩存在,則當(dāng)X 取某個值 x 時Y 有一個確定的條件分布 F( · | x),這個分布的數(shù)學(xué)期望即條件期望 E(Y|x) 存在,E(Y|x) 就稱為Y 對于x 的回歸(函數(shù)),如果X 是一維隨機變量,則E (Y|x) 就稱為一元回歸函數(shù)(主要是回歸直線); 當(dāng) X 是多維隨機變量時就是多元回歸(曲面),Remark
50、 采用條件期望E(Y|x) 而不是其它的函數(shù) y= g(x) 作為Y 對于 x 的回歸,原因是在均方誤差的意義下條件期望是最優(yōu)的。,如果 E(Y|x) 就是 x 的線性函數(shù),即: E(Y|x) = ?0 + x1?1 +…+ xk?k ,線性回歸模型就定義成:,yi = ?0 + ?1 xi1 +…+ ?k xik + ?i ,1 ≤ i ≤ n ?i 獨立同分布于 N
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 東北大學(xué)開題報告
- 東北大學(xué)導(dǎo)師信息
- 液壓習(xí)題(東北大學(xué))
- 東北大學(xué)校歌
- 東北大學(xué)考研專業(yè)分類
- 東北大學(xué)儀器設(shè)備報廢申請單-東北大學(xué)資產(chǎn)管理處
- 數(shù)學(xué)系
- 東北大學(xué)電子信息系
- 2020年東北大學(xué)數(shù)學(xué)考研招生專業(yè)目錄
- 東北大學(xué)健康教育機考題
- 金工實習(xí)資料東北大學(xué)版
- 東北大學(xué)研究生手冊
- 東北大學(xué)俄語專業(yè)情況簡介
- 東北大學(xué)特色專業(yè)建設(shè)點
- 東北大學(xué)通識類安全題庫
- 西南交通大學(xué)數(shù)學(xué)系
- 東北大學(xué)來校人員報到流程
- 東北大學(xué)自動化培養(yǎng)計劃
- 附件一東北大學(xué)數(shù)學(xué)建模大賽暨參加全國數(shù)學(xué)建模
- 東北大學(xué)教師進修推薦表
評論
0/150
提交評論