應用抽樣技術課件第二章_第1頁
已閱讀1頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第二章 抽樣技術的基本概念,2,本章要點 本章對抽樣技術的基本概念進行闡述和介紹,為以后各章的學習奠定理論與方法基礎。具體要求: ①掌握總體、單位、抽樣框、樣本等概念,理解它們之間的內(nèi)在關系,熟知常用的總體指標和樣本指標; ②系統(tǒng)了解估計量、抽樣分布、抽樣誤差、估計精度、置信區(qū)間等概念的內(nèi)涵和作用,能夠運用它們進行實際的抽樣估計; ③基本掌握和理解

2、樣本設計的內(nèi)容和效果衡量指標。,,3,第一節(jié) 總體與樣本,4,一、總體,根據(jù)一定目的所確定的研究對象的全體, 稱為總體。在抽樣中,,5,目標總體: 是由符合研究目的的所有具有相同性質(zhì)或特征的個體所組成的集合。 目標總體是抽樣推斷的目標,即我們想通過抽樣來認識它的數(shù)量特征。,(一)目標總體(target population),6,例:研究浙江工商大學教師的科研能力情況,目標總體——全校所有從事教學研究工作

3、的教師,個 體 ——每一位教師。,例:研究杭州市個體商業(yè)的經(jīng)營狀況,目標總體——杭州市所有從事商業(yè)活動的個體經(jīng)營單位,個 體 ——每個個體經(jīng)營單位(或攤位)。,思考:研究浙江工商大學新生的生源情況,目標總體是什么,個體是什么?若研究浙江工商大學各部門收支情況,目標總體是什么,個體是什么?,7,在調(diào)查中,必須對目標總體的范圍做出具體規(guī)定,例如:研究浙江工商大學教師的科研能力情況,目標總體是該校所有從事教學研究

4、工作的教師。,是否包括兼職?退休?返聘?,統(tǒng)計口徑,8,案例:全國電視觀眾抽樣調(diào)查,目標總體:定為全國31個省、自治區(qū)、直轄市(港澳臺除外)電視信號覆蓋區(qū)域內(nèi)所有城鄉(xiāng)家庭戶中的13歲以上可視居民以及4~12歲的兒童。包括有戶籍的正式住戶也包括所有臨時的或其他的住戶,只要已在本居(村)委會內(nèi)居住滿6個月或預計居住6個月以上,都包括在內(nèi),但不包括住在軍營內(nèi)的現(xiàn)役軍人、集體戶及無固定住所的人口。,全國電視觀眾抽樣調(diào)查是由中央電視臺組織的對全

5、國電視觀眾的大規(guī)模的抽樣調(diào)查。從1987年開始,每5年進行一次。調(diào)查的目的是:準確獲取全國電視觀眾群體規(guī)模、構成以及分布情況,獲取這些觀眾的收視習慣,對電視頻道和欄目的選擇傾向、收視人數(shù)、收視率與喜愛程度,為改進電視頻道和欄目、開展電視觀眾行為研究提供新的依據(jù)。,9,(二)抽樣總體( sampled population),是實踐中可以構造并據(jù)以從中抽取樣本的總體, 它通常能對所包含的單位進行編號或按一定的標志進行排序。,例:研究杭

6、州市個體商業(yè)的情況,從杭州市工商局個體商業(yè)的營業(yè)執(zhí)照記錄中抽取樣本。,抽樣總體,思考:此調(diào)查的目標總體與抽樣總體有無差異?,10,但我們研究的目的是認識目標總體的數(shù)量特征, 因此在抽樣之前要盡量使抽樣查總體與目標總體保持一致。,基本原則是,抽樣總體由目標總體所決定,但在實踐中,還要根據(jù)抽樣總體來調(diào)整目標總體。,由于實踐中抽樣總體與目標總體往往存有差異,因此,抽樣推斷的結論只適合于說明抽樣總體!,11,實際調(diào)查時,從除金門縣以外的

7、全國所有2865個區(qū)、縣 (792個區(qū)及2073個縣)的村委會、居委會的住戶登記表中,抽選13歲以上可視居民以及4~12歲的兒童。,案例:全國電視觀眾抽樣調(diào)查,目標總體:定為全國31個省、自治區(qū)、直轄市(港澳臺除外)電視信號覆蓋區(qū)域內(nèi)所有城鄉(xiāng)家庭戶中的13歲以上可視居民以及4~12歲的兒童。包括有戶籍的正式住戶也包括所有臨時的或其他的住戶,只要已在本居(村)委會內(nèi)居住滿6個月或預計居住6個月以上,都包括在內(nèi),但不包括住在軍營內(nèi)的現(xiàn)役軍

8、人、集體戶及無固定住所的人口。,抽樣總體,12,抽樣總體中所包含的調(diào)查單位個數(shù)稱為總體容量,常用N 表示,13,二、抽樣單位與抽樣框,總體是由單位構成的,單位可以分為調(diào)查單位與抽樣單位。,調(diào)查單位survey unit,調(diào)查項目的承擔者,即我們想通過調(diào)查取得其觀測值的單位。,例如:調(diào)查浙江工商大學在校生的生活消費情況, 調(diào)查單位是每一個在校生。,例如:杭州市居民家計調(diào)查, 調(diào)查單位是杭州市每一戶家庭。,14,抽樣單

9、位samping unit,用以抽選調(diào)查單位進入樣本的中介單位,是抽樣總體與調(diào)查單位之間的聯(lián)結單位。,抽樣單位可以包含一個調(diào)查單位,也可以包含多個調(diào)查單位,還可以分級。,,15,人口普查中的事后質(zhì)量抽樣調(diào)查,人口普查登記和復查工作結束后,在全國范圍內(nèi)再抽取一定數(shù)量的樣本(或調(diào)查小區(qū)),將樣本區(qū)域內(nèi)的普查表暫時封存,并重新進行一次獨立的調(diào)查登記。 然后打開正式普查登記的普查表,與抽查的普查表進行逐項比較,以此估算出人口普查的總人口

10、完整率、 總人口多報或少報了多少、各項目的登記差錯率是多少, 這就是事后質(zhì)量抽樣調(diào)查。,,2010年普查登記結束后,在全國31個省共抽取了402個調(diào)查小區(qū)進行事后質(zhì)量抽查,涉及約12萬人 。抽樣單位為調(diào)查小區(qū),調(diào)查單位為居民個人抽查結果,本次普查的人口漏登率為1.2‰ 。,16,第一階抽樣:區(qū)(地級市以上城市的市轄區(qū))、縣(包括縣級市等)第二階抽樣:街道、鄉(xiāng)、鎮(zhèn)第三階抽樣:居委會、村委會第四階抽樣:家庭戶第五階抽樣:

11、個人,初級抽樣單位:每一個區(qū)或縣次級抽樣單位:每一個街道、鄉(xiāng)或鎮(zhèn)三級抽樣單位:每一個居委會、村委會四級抽樣單位:每一個家庭戶五級抽樣單位:每一個個人,在多階段抽樣調(diào)查中,抽樣單位還可以分級,即初級抽樣單位、次級抽樣單位、第三級抽樣單位等等,最后抽取調(diào)查單位。,分層五階抽樣,17,抽樣框 根據(jù)抽樣單位所編制的名錄, 是抽樣總體的具體表現(xiàn)。,,18,其基本做法是,根據(jù)衛(wèi)星成像、照片和地圖資料將土

12、地劃分為1平方英里的小地塊,每個小地塊都有自成一體的可識別標志,如山川、河流、道路等,然后利用隨機方法抽選地塊。 抽選地塊一旦確定,便由調(diào)查員直接深入到每一地塊,對每一地塊的農(nóng)業(yè)生產(chǎn)活動做全方位的調(diào)查登記。,區(qū)域抽樣框,美國農(nóng)業(yè)統(tǒng)計,19,(1)與目標總體保持一致,(2)能夠提供與調(diào)查目的有關的盡量多的 準確、完整的輔助信息,確保樣本對目標總體的代表性,抽樣框中的單位,目標總體中的單位,一一對應,好的抽樣框

13、有兩個基本標準:,,便于在抽樣中找到調(diào)查單位便于進行分層或構造復雜估計量提高抽樣效率,,20,思考:,請指出以下一些內(nèi)容的調(diào)查中,目標總體是什么,抽樣框可以如何構造?對北京市居民癌癥患病情況的調(diào)查;對杭州市小學生零花錢情況的調(diào)查;對杭州市家庭桶裝水消費情況的調(diào)查對浙江省工業(yè)企業(yè)能源消費情況的調(diào)查,21,樣本是總體的一部分,是從抽樣總體中 按一定方法和程序抽取的部分調(diào)查單位的集合。,三、樣本 sample,總體是我們所要研究的

14、對象,樣本是我們所要觀察的對象 。樣本是總體的代表和縮影。,樣本中所包含的調(diào)查單位數(shù)稱為樣本容量,常用 n 表示。,樣本容量與總體容量之比稱為抽樣比,常用 f 來表示。,22,樣本的非唯一性: 對于特定的總體,用特定的抽樣方法從中抽取容量為n的樣本,有很多種可能。,樣本個數(shù)的大小與樣本容量、抽樣方式和抽樣方法有關,從一個總體中最多可以抽取的容量為n的不同樣本的數(shù)目,稱為樣本個數(shù)。常用 m來表示。,23,重復抽樣,又稱放回抽樣,抽出

15、個體,登記特征,放回總體,繼續(xù)抽取,,,,樣本抽取的方法—— 重復抽樣和不重復抽樣,允許總體(抽樣框)中的單位被重復抽中的抽樣。,24,例:從1、2、3中隨機重復抽取2個數(shù)字組成新的數(shù),可以組成多少個數(shù)。,11,12,13; 21,22,23; 31,32,33,25,不重復抽樣,又稱不

16、放回抽樣,抽出個體,登記特征,繼續(xù)抽取,,,只允許總體(抽樣框)中的單位最多被抽取一次的抽樣。,26,例:從1、2、3中隨機不重復抽取2個數(shù)字組成新的數(shù),可以組成多少個數(shù)。,12,13; 21,23; 31,32,,不重復抽樣下的樣本個數(shù)小于重復抽樣。,27,抽樣框,小結:總體、樣本、抽樣框之間的關系,,抽樣總體,,,,28,五、總體指標與樣本指標,總體指標:反映總體數(shù)量特征的

17、指標,也稱為總體參數(shù);,,樣本指標: 反映樣本數(shù)量特征的指標,也稱為樣本統(tǒng)計量;,,29,案例:企業(yè)保險需求調(diào)查,2015年浙江省各類企業(yè)約210萬家,若按簡單隨機抽樣方式抽取容量為1200的樣本,30,總體指標的值是惟一的、確定的,但未知,1、具有風險意識企業(yè)的比例,2、企業(yè)保險消費總額,總體指標(總體參數(shù)),…,,3、企業(yè)保險消費平均額,31,從浙江省210萬家企業(yè)中抽取1200個企業(yè)有很多種可能,樣本1:1200,樣本2:12

18、00,樣本3:1200,……,,,,值1,值2,值3,p1,p2,p3,,2、樣本企業(yè)中有保險意識的比例,1、樣本企業(yè)平均保險消費額,樣本指標(樣本統(tǒng)計量),……,……,……,樣本指標的取值是隨機的、不確定的,但是可知的,,3、樣本企業(yè)保險消費總額,32,設調(diào)查變量為Y 。在簡單隨機抽樣下,若以Yi 表示總體中第i 個單位的觀測值,則常用的總體指標表示為:,(2)總體均值:,(1)總體總值:,(3)總體方差:,常用的總體指標,如:所有

19、企業(yè)保險消費總額,如:所有企業(yè)平均保險消費額,如:各個企業(yè)保險消費額的方差,33,當調(diào)查變量Yi的值只有兩種取值:符合規(guī)定特征的單位取1,不符合規(guī)定特征的單位其值取為0例如:企業(yè)有無風險意識:1(有)和 0(無) 產(chǎn)品質(zhì)量: 1(合格)和 0(不合格) 性別: 1(男)和 0(女),是非變量的總體指標,34,假設取1的單位有 個,取0的單位有 個,相應的總體指標有:,(4)總體比例:,(6)

20、總體方差:,(5)總體均值:,如:具有風險意識企業(yè)的比例,產(chǎn)品合格率, 男性所占比重,35,常用的樣本指標,樣本均值:,樣本總值:,樣本比例:,樣本方差:,36,思考:判斷下面要估計的目標量分別屬于什么類型1、調(diào)查杭州市居民一年的交通費支出;2、調(diào)查城市家庭一年的平均用電量;3、估計全市小學生近視患病率;4、調(diào)查浙江省居民人均奶制品消費額;5、估計某地區(qū)65歲以上老年人的比例;,37,第二節(jié) 估計量與抽樣分布,38,就是

21、以樣本指標為基礎構造的、用以估計總體指標的規(guī)則或形式。,一、估計量,估計量也是隨機變量。估計量根據(jù)某一樣本得到的具體結果稱為估計值。,樣本均值,總體均值,樣本比例,總體比例,(樣本企業(yè)的平均保險消費額),(所有企業(yè)的平均保險消費額),( 整批產(chǎn)品合格率),( 樣品合格率),39,根據(jù)不同樣本得到的估計值是不同的,不同估計值出現(xiàn)的概率也會不同,,估計量的所有可能取值和與之對應的概率組成了估計量的概率分布,稱為抽樣分布。,40,抽樣分布,

22、估計量:1200家樣本企業(yè)的平均保險額,,它有 多少? 個取值,210萬家企業(yè)的平均保險消費額?,,假設其中完全不相等的值有k個,41,例:某部門5個員工的年齡分別為34,38,42,46,50歲,則總體平均年齡總體年齡方差,不同抽樣方法下樣本均值的抽樣分布,42,(1)用重復抽樣方法(考慮順序) 從5個人(年齡為34,38,42,46,50歲)中隨機抽取2人構成樣本 ,共

23、 個樣本所有可能樣本及其均值:樣本: (34,34)(34,38) (34,42) (34,46) (34,50) : 34 36 38 40 42樣本: (38,34)(38,38) (38,42) (38,46) (38,50) : 36 38 40 42

24、 44 樣本: (42,34)(42,38) (42,42) (42,46) (42,50) : 38 40 42 44 46樣本: (46,34)(46,38) (46,42) (46,46) (46,50) : 40 42 44 46 48樣

25、本: (50,34)(50,38) (50,42) (50,46) (50,50) : 42 44 46 48 50,52=25,,43,整理出樣本均值的概率分布如下:,,樣本均值的分布圖,,整理出樣本均值的概率分布如下:,,樣本均值的分布圖,,44,(2)用不重復抽樣方法(不考慮順序) 從5個人(年齡為34,38,42,46,50歲)中隨機抽取

26、2人構成樣本 ,樣本個數(shù)為所有可能樣本及其均值:樣本: (34,34) (34,38) (34,42) (34,46) (34,50) : 34 36 38 40 42樣本: (38,34)(38,38) (38,42) (38,46) (38,50) : 36 38

27、 40 42 44 樣本: (42,34)(42,38) (42,42) (42,46) (42,50) : 38 40 42 44 46樣本: (46,34)(46,38) (46,42) (46,46) (46,50) : 40 42

28、 44 46 48樣本: (50,34)(50,38) (50,42) (50,46) (50,50) : 42 44 46 48 50,,,45,整理出樣本均值數(shù)的概率分布如下:,,樣本均值的分布圖,,顯然,不重復抽樣下的抽樣分布更為集中,重復抽樣下的抽樣分布更為分散。,46,二、抽樣

29、分布的特征:期望與方差,抽樣分布的期望,即估計量的期望,是估計量 所有可能取值的平均數(shù)。,,說明估計量分布的中心位置所在。,47,若    ,則為無偏估計量。樣本指標 、p和s2 滿足:,所以,樣本均值、樣本比例和樣本方差分別是總體均值、總體比例和總體方差的無偏估計量。,48,抽樣分布的方差,即估計量的方差,是以估計量的期望為中心、用以反映估計量分布離散程度的核心指標。,若    ,則,,,49,前例中,

30、重復抽樣下的樣本均值的分布如下:,,樣本均值的分布圖,,樣本均值的期望與方差:,50,不重復抽樣下樣本均值數(shù)的概率分布如下:,,樣本均值的分布圖,可見,不論重復抽樣還是不重復抽樣,樣本均值的期望都等于總體均值;重復抽樣下樣本均值的分布更為分散,方差大于不重復抽樣。,,,51,思考與練習:,設總體由1、3、5、7、9五個數(shù)字組成,現(xiàn)從中簡單隨機不重復抽取三個構成樣本,(1)列出樣本均值的抽樣分布;(2)計算樣本均值分布的期望與方差,5

31、2,三、抽樣分布定理,(一)樣本均值的抽樣分布定理,,任一總體,當n足夠大(當n>=30,大樣本), 樣本均值就趨于正態(tài)分布,中心極限定理,三、抽樣分布定理,,53,,54,從一個數(shù)學期望為P、方差為 的是非變量總體中隨機抽取容量為n的樣本,當n足夠大 ( nP>5, n (1-P)>5 ),樣本比例p趨于正態(tài)分布,,E(p)=P,中心極限定理,,(二)樣本比例的抽樣分布定理,55,第三節(jié)

32、 抽樣誤差與置信區(qū)間,56,抽樣中的總誤差可以簡單地分為兩類,,抽樣誤差 非抽樣誤差,,一、抽樣中的誤差構成,57,由于抽樣的非全面性和隨機性所引起的偶然性誤差,即因抽樣估計值隨樣本而異所造成的誤差。,抽樣誤差,58,,體重(公斤),人數(shù),比重%,有效比重,累計比重,121名中學生的體重分布表,從中隨機抽取20人組成樣本并計算平均體重:樣本一:52.35樣本二:50.26樣本三:53.19…總體: 51.18

33、,抽樣誤差,抽樣誤差的特點是隨著樣本容量的增大而趨向于0,稱為一致性誤差。,35,59,是由隨機抽樣的偶然性因素以外的原因所引起的誤差,系統(tǒng)性誤差:是由于抽樣框不完善、抽樣時違反隨機原則、被調(diào)查者無回答等因素引起的誤差。,調(diào)查性誤差:是在調(diào)查觀測的各個環(huán)節(jié)因工作粗心或被觀測者不愿很好配合而造成的誤差。,,非抽樣誤差,60,例如,許多大型的調(diào)查以十年一度的人口普查或五年一度的經(jīng)濟普查結果來構造抽樣框;再如,一項中學生健康調(diào)查從某地區(qū)所

34、有初中高中學生中隨機抽取樣本發(fā)放問卷,在對1500名學生的調(diào)查中,有1341人接受調(diào)查并返回了問卷?;卮鹋c不回答學生的健康狀況有可能是不同的。,,61,三者之間的關系可以圖示如下:,,抽樣誤差,非抽樣誤差,總誤差,62,二、抽樣誤差的表現(xiàn)形式 抽樣誤差的表現(xiàn)形式一般有三種:抽樣實際誤差抽樣標準誤差抽樣極限誤差,63,(一)抽樣實際誤差,是抽樣估計值與總體參數(shù)真值之間的離差,表示為,是隨機變量,不同的樣本有不同的抽樣實

35、際誤差,若估計量無偏,則所有可能的實際誤差之和為0,64,(二)抽樣標準誤差,也稱抽樣平均誤差,是反映抽樣誤差一般水平的指標,狹義上所指的抽樣誤差就是抽樣標準誤。,65,若以樣本均值估計總體均值,則不同樣本的抽樣實際誤差不同,,前例中,重復抽樣下樣本均值的抽樣分布如下,,思考:平均誤差應如何計算?,抽樣平均誤差即為 的標準差,也稱抽樣標準誤差!,66,前例中,不重復抽樣下樣本均值的抽樣分布如下,可見,不重復抽樣的抽樣平均誤差小于重復

36、抽樣。這是由于不重復抽樣的樣本均值分布比重復抽樣更為集中,其樣本均值更接近于總體均值。所以實踐中常用不重復抽樣方法!,,,,67,影響抽樣標準誤差的因素:,總體內(nèi)在差異(越大,各樣本之間的差異越大,各樣本估計值之間的差異越大,抽樣標準誤越大)樣本容量(最直接、最有效因素,越大,樣本與總體越接近,抽樣誤差越小)抽樣方法(采用重復或不重復方法,等概率與不等概率抽樣,估計量取值及分布都不同,誤差不同)抽樣方式(不同形式下的樣本個數(shù)及結

37、構不同,估計量取值及分布都不同,誤差不同)估計量構造(采用的估計量不同,估計量取值及分布都不同,誤差不同),68,實際中只能根據(jù)一套樣本來計算抽樣標準誤的估計值 ,它是一個隨機變量,69,(三)抽樣極限誤差,是指以樣本估計量估計總體參數(shù)時所允許的最大誤差范圍 通常用  表示,抽樣極限誤差的實際意義: 實際上就是對總體參數(shù)可允許取的最高值或最低值進行了限制。 即總體參數(shù)落在樣本估

38、計量的 范圍內(nèi),思考:抽樣極限誤差越大,抽樣估計的精確程度 越低 還是 越高?,,70,抽樣極限誤差取決于兩個因素:,1、抽樣標準誤抽樣標準誤差反映抽樣誤差的一般水平,是反映抽樣誤差的核心指標。抽樣標準誤差越大(?。?,抽樣極限誤差就越大(?。?71,2、抽樣估計的概率保證程度(置信水平) 是指抽樣估計結果的可靠程度,即抽樣估計結果是準確的概率(可靠程度)有多大。,通常表示為,72,抽

39、樣極限誤差、抽樣標準誤差與抽樣概率保證程度三者的關系可以這樣表示:,,可見,抽樣極限誤差分別與概率度和抽樣標準誤差成正比。 越高,抽樣估計的可靠程度就越高,但 也越大 ,估計的精確程度降低。,其中, t 稱為抽樣概率度。t 與概率保證程度 是一一對應的,其實質(zhì)是標準正態(tài)分布下的臨界值,常用的:1-α = 95% 95.45% 99.73%

40、 t = 1.96, 2, 3,73,思考與練習:,設總體由1、3、5、7、9五個數(shù)字組成,現(xiàn)從中簡單隨機不重復抽取三個構成樣本,(1)列出樣本均值的抽樣分布;(2)計算樣本均值分布的期望與方差;(3)計算抽樣標準誤差;(4)計算概率保證程度為95%時的抽樣極限誤差;,74,三、參數(shù)估計的形式抽樣估計從形式上看有兩種:點估計和區(qū)間估

41、計。,就是以所抽樣本資料為依據(jù),直接根據(jù)所選擇的估計量對總體指標作出一個確定值的估計;,假設你正在研究平均一個司機一年當中要得到多少張交通罰單,點估計(定值估計),,n=100,75,76,以點估計為依據(jù),用一個具有一定可靠程度的 區(qū)間范圍來估計總體指標θ 。在一定的概率保證下,想辦法找出兩個數(shù)值θ1和θ2, 使θ處于這兩個數(shù)值之間,即: Pr (θ1 ≤ θ

42、 ≤ θ2 )=1-α,區(qū)間(θ1,θ2)就被稱為置信區(qū)間或估計區(qū)間,θ1被稱為置信區(qū)間的下限,θ2被稱為置信區(qū)間的上限 。,例如:在95%的置信度下估計出平均每個司機一年當中得到的罰單數(shù)為2.2—3.4,區(qū)間估計,77,美國蓋洛普公司就消費者對美國產(chǎn)品質(zhì)量的看法,對美國、德國和日本三國共計3500名消費者(每個國家約1200名)分別進行了調(diào)查,調(diào)查結果:55%的美國人認為美國產(chǎn)品質(zhì)量好,而只有26%的德國人和17%的日本人持同樣看法

43、,若允許的最大誤差都為3%,則:,國別     樣本比例    誤差范圍        置信 區(qū) 間美國       55%      &

44、#160; ±3%          德國       26%        ±3%        &#

45、160;日本       17%        ±3%,若已知抽樣極限誤差 ,則總體參數(shù)處在樣本估計量的 范圍內(nèi),那么總體參數(shù)的區(qū)間范圍為:,52%-58%,23%-29%,14%-20%,78,第四節(jié) 樣本設計,79,所謂樣本設計就是對抽樣方式、方法和估計量

46、選擇所作的系統(tǒng)考慮。,一、樣本設計的內(nèi)容,80,樣本設計的內(nèi)容包括兩個方面:,選樣,如何獲取樣本和獲取什么樣的樣本;,估計,如何估計總體和對總體能作出什么樣的估計,總體,抽取樣本,推斷總體,樣本,樣本設計就是要在這種循環(huán)中尋找到最佳的抽樣方式、方法和估計量。,81,1、保證實現(xiàn)抽樣的目的性。 2、保證實現(xiàn)抽樣的隨機性。 3、保證實現(xiàn)抽樣的最大效果。 4、保證實現(xiàn)抽樣的可計量性。,二、樣本設計的原則,,,

47、82,抽樣的最大效果可以從兩個角度來表述:,在費用既定的情況下,使估計精度達到最高(誤差達到最?。?;在估計精度既定(即誤差既定)的情況下,使抽樣費用達到最小。,,,尋求最佳樣本容量的問題,83,樣本容量該為多大?讓我們看看調(diào)查公司的通常做法,據(jù)路透/益普索(Reuters/Ipsos)披露的調(diào)查結果顯示,由于美國人對經(jīng)濟和未來更為樂觀,美國總統(tǒng)奧巴馬的支持率略有上升,由50%升至51%。此次調(diào)查是在2月4日至2月7日進行的,共有10

48、12名成人參加,其中包括844名已注冊的選民,誤差率為3.1%。但為什么抽樣調(diào)查人數(shù)不是500人,也不是1500人,偏偏是1000人左右呢?,84,首先,選1000人既省錢又準確,主要的調(diào)查公司,在進行國內(nèi)調(diào)查的時候,都喜歡訪問起碼1000人,這個數(shù)字的采樣足夠讓調(diào)查的誤差幅度保持在3%左右。而如果只訪問500人的話,誤差幅度會達到5%,結果的精確度也就沒有那么高了。,理論上:誤差幅度是與訪問人數(shù)成反比的,訪問人數(shù)越多,誤差幅度就越??;

49、但在實際操作中,很多時候并不值得這樣做。,因為,在1000人的基礎上再訪問500人,誤差幅度的減少不及1個百分點,但花費卻會高出很多,所以,調(diào)查公司都認為1000人的樣本量是精確度與費用之間的合理折中方案,85,其次,數(shù)據(jù)寧多勿少,但為什么他們最后以訪問1012人告終呢?調(diào)查工作人員并不是同一時間對1000人進行訪問調(diào)查的。以蓋洛普調(diào)查公司為例,他們通常都會利用隸屬于5個不同呼叫中心的50名接受過訓練的調(diào)查員進行調(diào)查。中央電腦系統(tǒng)會告訴

50、這些調(diào)查員,打電話給誰,什么時候打過去。一名主管會跟蹤他們的工作,清楚了解他們完成了多少訪問,甚至知道被訪者的男女比例是否正確,是否來自全國不同的地方。,當主管知道1000人的訪問任務即將完成時,他就會向調(diào)查員發(fā)出“停止”的訊號。正在進行的訪問會繼續(xù)下去,數(shù)據(jù)也會歸入到整個調(diào)查中去。如果主管判斷正確的話,那么他們最終得到的采訪人數(shù)應該起碼有1000人。,其實無論是988人還是1012人,對結果的影響不會太大,但寧多勿少已是調(diào)查中的一條不

51、成文的規(guī)條,因為在后來的計算中他們還會篩選掉一些數(shù)據(jù)。,,86,抽樣的可計量性具有兩層含義:,(1)樣本資料能夠量化,能夠用于得到估計值;(2)估計效果能夠加以衡量,即估計量方差或抽樣標 準誤能夠從樣本資料中得到估計。,87,樣本設計的效果,稱為抽樣效果。 如果A樣本設計的估計量方差比B樣本設計的小,則稱:A樣本設計的抽樣效果比B好,或者說 A樣本設計比B更有效。,三、樣本設計效果的測定(De

52、sign Effect),把各種樣本設計的估計量方差與簡單隨機抽樣的簡單估計量方差對比來測定樣本設計效果,稱之為設計效果系數(shù),用Deff 來表示。,88,在樣本容量相同的前提下: 若Deff>1,表明某樣本設計比簡單隨機抽樣的效果更差; 若Deff <1,表明某樣本設計比簡單隨機抽樣更有效; 若Deff =1,則表明某樣本設計與簡單隨機抽樣的效果相同。,89,例:在一次對某寄宿中學在校生零花錢的調(diào)查中,在全部

53、315間宿舍中隨機抽取8間宿舍(每個宿舍6人)進行調(diào)查,各學生每周零花錢如下表。計算得樣本平均數(shù)98.17元/人,其方差 為18.86。若這48人是以簡單隨機抽樣抽出的,則樣本平均數(shù)的方差 為6.62。兩種抽樣方式哪一種更有效?,Deff =18.86/6.62=2.85,在這次調(diào)查中,整群抽樣的效果不如簡單隨機抽樣,,這是因為各個宿舍間的差異比較大,因而8間宿舍構成的樣本代表性不夠好。,90,案例:全國

54、電視觀眾抽樣調(diào)查的樣本設計,91,你能說出這些概念之間的區(qū)別嗎?,目標總體與抽樣總體調(diào)查單位與抽樣單位重復抽樣與不重復抽樣總體指標與樣本指標樣本容量與樣本個數(shù)點估計與區(qū)間估計抽樣誤差與非抽樣誤差,,小結,擬對杭州市居民的家庭教育消費情況進行研究,利用戶籍資料從全市所有家庭中隨機抽取500個家庭進行調(diào)查。,92,你能說出這些概念之間的聯(lián)系嗎?,抽樣框、抽樣總體與目標總體估計量的方差、標準差與抽樣標準誤抽樣極限誤差、置信區(qū)間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論