搜档网
当前位置:搜档网 › 各种抽样方法之选择、步骤及优劣比较

各种抽样方法之选择、步骤及优劣比较

各种抽样方法之选择、步骤及优劣比较
各种抽样方法之选择、步骤及优劣比较

各種抽樣方法之選擇、 各種抽樣方法之選擇 、 步驟及優劣 比較
一 、 簡介
調查之目的即在蒐集資料,由資料中獲得訊息,以對未知狀 況或現象,加以瞭解,提供決策參據。調查方式可採普查或抽樣 調查。普查:即對欲研究對象(母體)中每一份子均加以調查。抽 樣調查:由所欲研究對象(母體)中抽取一部分份子(樣本),加以 調查蒐集資料。
普查之優缺點與必要性: 普查之優缺點與必要性 :
1.普查優點 : 普查優點: 普查優點 (1)包羅母體中每一份子,最能陳示母體狀況。 (2)可做各細分特性之統計分析。 (3)不致產生抽樣誤差。 2.普查缺點 : 普查缺點: 普查缺點 (1)耗費大量人力,物力,財力。 (2)整理時間過長,統計結果常有過期之憾。 (3)調查問卷不易深入。 (4)易導致非抽樣誤差。 3.普查必要性 : 普查必要性: 普查必要性 (1)基本國勢之陳示。 (2)各種抽樣調查之母體。 (3)細分特性之陳示。 (4)各種抽樣調查估計之權數。


第四章 各種抽樣方法之選擇、步驟及優劣比較
抽樣調查: 抽樣調查 :
抽樣調查係自調查對象之母體中抽取一部份個體,加以觀 察,然後再推估母體之現象。抽樣調查成為科學的調查方法,乃 是由於推測統計理論的發展,加上近年來統計的重要性倍增,依 據調查資料與現存事實進行之交叉分析結果頗獲各方關心, 主要 原因須歸功於統計在經濟發展中所發揮的功能, 所以統計學中的 抽樣調查不僅是一門學問, 業已成為研究社會問題與經濟現象的 主要工具之一。
1.抽樣之基本觀念 抽樣之基本觀念 (1) 抽樣不過是一個方法、手段、其最終目標仍在推論。 (2) 對於各種抽樣方法,建立直覺的瞭解,以及探求其優點及 限制。 (3) 注意各種抽樣方法之觀念及使用時機。 (4) 不要見樹而不見林。(注意樣本之代表性)
2.抽樣之基本原則 抽樣之基本原則 (1) 所抽樣本能以代表母體。(代表性) (2) 以樣本訊息估計母體之特性,要儘可能精確,並且可測度 其可信度(精確性)。 (3) 取樣成本要儘量少。(成本低) (4) 配合不同之母體狀況及行政限制下,採取適宜方法(即考量 實務問題)。亦即如何達到快速、準確、具代表性而又能配 合實務。(可行性)


3.抽樣的步驟 抽樣的步驟
決定 建立母體 → 分析母體 抽樣方法 → 估計量 選定 → 變異數 估計量的 → 區間 信賴
樣本與母 決定 → 樣本大小 出方式 析 樣本抽 → 體差異分
4.抽樣調查優點 抽樣調查優點 (1) 抽樣調查可節省人力與財力。 (2) 抽查可縮短調查與整理時間。 (3) 抽查所抽出之樣本可做更詳細之調查。 (4) 抽查可迅速獲得調查結果。 (5) 可配合研究特性與機動性之行政措施。 本章的概述最主要目的是作為導讀之用,期望讀者在念完本 章節後對抽樣調查有些許初步的認識與興趣, 並在往後各章內容 中均有非常詳細的介紹。現在,就讓我們一同進入抽樣調查的世 界裡,一探抽調的神奇之美。
二 、 抽樣方法之分類
抽樣方法分類:可粗分為非機率抽樣與機率抽樣。
(一 )非機率抽樣 :亦即樣本不按照其機率予以抽出,而是由抽 一 非機率抽樣
樣者之主觀抽出或自願樣本。 優點:在某些調查時,有其必要性。 缺點:(1)難以評斷樣本之代表性。 (2)無法估計精確度。


第四章 各種抽樣方法之選擇、步驟及優劣比較
(3)樣本偏差往往較大。 非機率抽樣之種類: 非機率抽樣之種類 : 1.便利樣本 偶然樣本 便利樣本(偶然樣本 便利樣本 偶然樣本) 事先不預定樣本,碰到即問或自動回答者。如街頭訪問或主 動打電話回答問題者。缺點:注意樣本之偏激性及兩極化。 2.立意樣本 判斷樣本 立意樣本(判斷樣本 立意樣本 判斷樣本) 由抽樣者立意抽取之樣本。如民間代表、意見領袖、學者、 專家或代表性之樣本。 3.滾式樣本 輻射樣本 滾式樣本(輻射樣本 滾式樣本 輻射樣本) 利用樣本尋找樣本,亦即利用樣本之滾雪球方式或輻射力抽 取樣本。如都市中之原住民抽樣。使用時機:可用於當樣本 不易取得時,或針對特殊族群之調查。 4.配額樣本 : 配額樣本: 配額樣本 按母體某些特性予以配置樣本,但取樣時卻由調查員任意抽 取。 非機率抽樣有時雖然可予使用, 惟在其結果之引用上, 非機率抽樣有時雖然可予使用 , 惟在其結果之引用上 ,
要特別注意, 亦即其結果之參考性大於其實際之代表性。 要特別注意 , 亦即其結果之參考性大於其實際之代表性 。
(二 )機率抽樣 :抽取之樣本是按照樣本之機率隨機抽出。 二 機率抽樣
優點: 1.樣本較具代表性。 2.可計算估計之精確度。 3.可隨不同之抽樣設計採取不同之抽樣方法。 4.隨之不同之抽樣方法,採取相互配合之估計方法。 機率抽樣之種類: 1.簡單隨機抽樣 簡單隨機抽樣 不對母體加以任何修飾或分割,而使每一樣本均有相同之被 抽中機率。


2.分層隨機抽樣 分層隨機抽樣 將母體按照某些特性,分成數個不重疊的組群,這些組群即 稱為層,而再由各層分別抽取樣本。 3.系統抽樣 系統抽樣 將母體之元素按順序編號後,有系統的每隔一定間隔抽取一 個樣本之方法。 4.集體抽樣 集體抽樣 將母體中相鄰近之個體排成為一集體, 而以集體為抽樣單位, 即每一抽樣單位為一集體之抽樣單位。 5.兩段集體抽樣 兩段集體抽樣 首先抽出一些樣本集體, 再由樣本集體內抽出部分基本個體。 6.分層集體抽樣 分層集體抽樣 將母體內之集體予以分層後,再由各層抽取樣本。
各種抽樣方法之適用時機、 三 、各種抽樣方法之適用時機 、步驟及 估計量
(一 )影響抽樣調查結果準確度的因素 一 影響抽樣調查結果準確度的因素
為使抽樣估計值能達到估計全事物的目的,需考慮影響其準 確的各種因素: 原始資料的變異程度 樣本數的大小 抽樣方法 分層抽樣法抽樣的不同
(二 )估計值準確度構成的條件 二 估計值準確度構成的條件
不偏性(unbiased ness)


第四章 各種抽樣方法之選擇、步驟及優劣比較
有效性(efficiency) 充分性(sufficiency) 一致性(consistency)
1. 不偏性 不偏性(unbiased ness)
定義 E( θ ) = θ ,其中 E 表示期望值。本定義即說明,統計量的 期望值等於參數,這種性質叫做不偏性。舉例來說,假設某母體 大小為 N ,且母體平均為 ,今從母體內抽取出一組樣本 n ,求 得平均為 Y ,若 E ( Y ) = ,則 Y 稱為 的不偏估計值。
2. 有效性 有效性(efficiency)
定義 σ 2 ( θ1 ) < σ 2 ( θ 2 ) ;此定義的意思是說,若同時有二個統計 量( θ1 及 θ 2 ),其中一個統計量的變異數較另一個統計量的變異數 為小,則變異數小的那個統計量便具有「有效性」 。舉例來說, 假設母體平均值為 ,而估計 的統計量有中位數(median)及算 術平均數(arithmetic mean),但因為前者的變異數大於後者的變 異數,則算術平均數具「有效性」 。

3. 充分性 充分性(sufficiency)
定義 φ ( Y1 , , Yn , θ ) = h ( θ , θ ) g ( Y1 , , Yn ) ;此定義的意思是說, 假設母體參數為 θ ,但若樣本統計量 θ 可直接由樣本觀測值去估 計,而與 θ 無關,則叫 θ 具有充份性。

4. 一致性 一致性(consistency)
定義 n→∞ θ = θ ;此定義的意思是說,當樣本大小 n 趨近於無窮 lim 大( ∞ )時,統計量即等於參數,這種性質叫做符合一致性。例如, 當 n 增大為 N 時, 則所求得的 Y 趨近於 , 亦即 n→∞ Y = , lim 故可知 Y


具有一致性。
(三 )估計的方法 三 估計的方法
在某些情況下,如所需的原始資料不易得到,或得到的資料 所要花費的金錢、時間較多時,可用輔助變數(auxiliary variable or concomitant variable) yi ,此類變數值的取得代價較低。舉例 來說,目測值花費時間、金錢較評估估計值所費均少,估計得較 準確的估計值 X ,每個抽樣單位有兩個變數值 ( xi , yi ) , xi 與 yi 之 間有相關(correlation)存在,母體總合 Y 必須已知。另外,估計值 估計的方法有下列二種:(1)比率估計法(ratio estimation),和(2) 迴歸估計法(regression estimation)。
(四 )母體與參數及樣本與統計量 四 母體與參數及樣本與統計量
1. 母體與參數
同類個體的全部記錄集合一起,使組合成一個全體 (aggregate),這個全體稱為母體(population),母體種類很多, 表示其特徵的方法有「圖表法」 「常數法」等。利用常數法研究 、 母體即由母體中計算出若干穩定常數, 此等常數有介紹母體特性 的作用稱為參數(parameters)包括有四類: (1)測定母體趨中性:主要有算術平均、型量、中位數等。 (2)測定分散度:主要有變異數、均方、標準偏差。標準偏差 (σ ) 愈大,則母體中所有個體間的變異愈大。 (3)測定偏歪度:主要有 Fisher 氏的 γ 1 係數,E. S. Pearson 氏 的 b1 係數。 (4)測定頻度分布的曲線峰度:常用有 Fisher 氏的 γ 2 係數,及 Geary 氏的 Wn 係數。


第四章 各種抽樣方法之選擇、步驟及優劣比較
2. 樣本與統計量
母體涵蓋範圍很大,資料經統計分析後,所得結論的適當範 圍必很大;所須顧慮者,乃在於母體範圍過大時,蒐集、計數、 度量及統計工作隨著浩大,所費時間、金錢往往無法許可,故只 好由樣本資料來推斷母體的特性。
來自同樣個體的全部 N 個個體中只抽出 n 個單位進行計數, 度量而得 n 個單位的記錄(N>n)集結此 n 個單位記錄在一起,便 構成一個樣本(sample),再由樣本資料求得某一統計值來估計參 數,此估計值稱為統計量(statistic)。因樣本有抽樣變異,故統計 量亦有抽樣變異,如把母體中可能發生的樣本全部取出,然後求 得各樣本的某種統計量,再求統計量的總平均值,此總平均值稱 為某統計量的期望值,若某統計量的估計方法適當,則該統計量 即母體參數。抽樣方法的不同,及抽樣單位的不同會改變統計量 的大小,改變對該母體的代表程度。
(五 )各種抽樣方法之適用時機 、 步驟及估計量 五 各種抽樣方法之適用時機 各種抽樣方法之適用時機、
1. 簡單隨機抽樣法 簡單隨機抽樣法(simple random sampling)
簡單隨機抽樣是一種最基礎且最簡便的抽樣方法。它的優點 是(i)當母體底冊完整時,直接由母體中抽出樣本,方法簡單;和 (ii)每一單位被抽中的機率均相等,參數的估計較簡單。而它的限 制是(i)母體底冊不易取得,或取得很費時,費力且費錢;(ii)母體 內樣本單位太多時,作業不方便;(iii)樣本分配較分散,行政作 業較不易;和(iv)樣本代表性恐有不足(尤其當樣本點差異大時或 重要性不同時)。因此,使用簡單隨機抽樣的最佳時機 使用簡單隨機抽樣的最佳時機,便是當 使用簡單隨機抽樣的最佳時機 (i)母體內樣本單位不多 ,且有完備名冊 ,可茲編號 母體內樣本單位不多,且有完備名冊,可茲編號時;(ii)母體內 母體內樣本單位不多 母體內 樣本單位間的差異不大時(對研究的目的而言); 和(iii)對母體資訊 樣本單位間的差異不大時 對母體資訊


無法充份獲得時。 無法充份獲得時 簡單隨機抽樣法的準確度會受下列二因素的影 響,即(i)母體本身的變異,和(ii)樣本的大小。以下以算術平均值 為例來分別說明。 例子﹞ ﹝ 例子 ﹞ (1)母體本身的變異 : 母體本身的變異: 母體本身的變異 分別對原始母體當變異數較小和變異數較 大時,計算簡單隨機抽樣法的所有可能的樣本組合,結果列 在表 4-1 及表 4-2 內。 表 4-1 簡單隨機抽樣法的所有可能的樣本組合 (原始母體變異數較小 原始母體變異數較小) 原始母體變異數較小 樣本順序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 樣本個體 abcde abcdf abcdg abcef abceg abcfg abdef abdeg abdfg abfeg acdef acdeg acdgf acefg adefg acdef bcdeg 樣本總計 樣本平均 38.4 38.7 39.1 38.9 39.3 39.6 39.3 39.7 40.0 40.2 39.6 40.0 40.3 40.5 40.9 40.1 40.5

母體 a=6.9 b=7.4 c=7.7 d=8.1 e=8.3 f=8.6 g=9.0 N=7 n=5 T=56
=8.0
7.68 7.74 7.82 7.78 7.86 7.92 7.86 7.94 8.00 8.04 7.92 8.00 8.06 8.10 8.18 8.02 8.10

第四章 各種抽樣方法之選擇、步驟及優劣比較
18 19 20 21 總計 平均
bcdfg bcefg bdefg cdefg
40.8 41.0 41.4 41.7 840.0 40.0
8.16 8.20 8.28 8.34
表 4-2 簡單隨機抽樣法的所有可能的樣本組合 (原始母體變異數較大 原始母體變異數較大) 原始母體變異數較大 樣本順序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 樣本個體 abcde abcdf abcdg abcef abceg abcfg abdef abdeg abdfg abfeg acdef acdeg acdgf acefg adefg acdef bcdeg 樣本總計 樣本平均 26 27 29 34 36 37 36 38 39 46 38 40 41 48 50 39 41
10
母體 a=1 b=2 c=4 d=6 e=13 f=14 g=16 N=7 n=5 T=56
=8.0
5.2 5.4 5.8 6.8 7.2 7.4 7.2 7.6 7.8 9.2 7.6 8.0 8.2 9.6 10.0 7.8 8.2

18 19 20 21 總計 平均
bcdfg bcefg bdefg cdefg
42 49 51 53 840.0 40.0
8.4 9.8 10.2 10.6
比較表 4-1 及表 4-2,可看出同樣的抽樣方法、同樣大小的 母體及樣本,在表 4-1 中由於原始母體的變異小,樣本平均的變 異也隨著變小,而大多能代表母體平均,也就是說有較大的準確 度。而在表 4-2 中,因為母體變數由 1 到 16 的間,大小相差甚 多,結果可能的樣本組合平均值由 5.2 變化到 10.6,故其準確度 較小。
(2)樣本的大小 : 同樣的也分別對當樣本大小不同時,計算簡 樣本的大小 單隨機抽樣法的所有可能的樣本組合, 結果列在表 4-3 及表 4-4 內。 表 4-3 當 n=4 時簡單隨機抽樣法所有可能的樣本組合 樣本順序 1 2 3 4 5 6 7 8 樣本個體 abcd abce abcf abcg abde abdf abdg acde 樣本總計 樣本平均 13 20 21 23 22 23 25 24
11
母體 a=1 b=2 c=4 d=6 e=13 f=14 g=16 N=7
3.25 5.00 5.25 5.75 5.50 5.75 6.25 6.00

第四章 各種抽樣方法之選擇、步驟及優劣比較
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
acdf acdg bcde bcdf bcdg abef abeg abfg acef aceg acfg adef adeg adfg bcef bceg bcfg bdef bdeg bdfg cdef cdeg cdfg aefg defg cefg defg
25 27 25 26 28 30 31 33 32 34 35 34 36 37 33 35 36 35 37 38 37 39 40 44 45 47 49
12
6.25 6.75 6.25 6.50 7.00 7.50 8.00 8.25 8.00 8.50 8.75 8.50 9.00 9.25 8.25 8.75 9.00 8.75 9.25 9.50 9.25 9.75 10.00 11.00 11.25 11.75 12.25
n=4 T=56
=8.0

總計 平均
1120.0 280.0
280.00 8.00
表 4-4 當 n=6 時簡單隨機抽樣法所有可能的樣本組合 樣本順序 1 2 3 4 5 6 7 總計 平均 樣本個體 abcdef abcdeg abcdfg abcefg abdefg acdefg bcdefg 樣本總計 樣本平均 40 42 43 50 52 54 55 336.0 48.0 6.67 7.00 7.17 8.33 8.67 9.00 9.17 56.01 8.00 母體 a=1 b=2 c=4 d=6 e=13 f=14 g=16 N=7 n=6 T=56
=8.0
表 4-3 中,當 n=4 時的樣本平均由 3.25 至 12.25 間便動, 而在表 4-4 中,當 n=6 時的樣本平均則由 6.67 至 9.17 間變動, 可見其準確度差異相當的大。 我們可由這二個表而歸納出一個結 論,亦即大樣本的準確度較大,而小樣本的準確度較小。
2. 分層抽樣法 分層抽樣法(stratified sampling)
按照某種原因或其他一定的標準, 將所含抽樣單位個數分別 定為 N 1 , N 2 , , N h , , N L ,但 ∑ N h = N ;這些分枝的母體簡稱為層
h =1 L
(stratum) 。 再 以 簡 單 隨 機 抽 樣 法 , 分 別 從 各 層 獨 立 的 抽 出
n1 , n2 , , nh , , n L 個單位 組成一 個 含有 ∑ nh = n 個單位的 樣 本,根
h =1 L
13

第四章 各種抽樣方法之選擇、步驟及優劣比較
據此樣本中各單位的平均 x h 與母體各層單位的個數 N h 去推估母 體平均。亦即 h = ∑
h =1 L
Nh x h ,其中 N 為母體中單位總數,而 h 為 N
層號。
往往調查對象的母體中, 包含每一抽樣單位附隨的某種特性 的變數間具有很大的變異性,即分散度很大,或具有歪度很大的 分布。此時倘若置的不理,而採用簡單隨機抽樣法從整個母體中 抽出樣本,則可能在分布兩端的單位便沒有被抽中的機會,或者 抽出太多極端的樣本,因而失去母體的代表性,以致估計的準確 度不高。 反之, 假如按照母體分布的狀態, 將其抽樣單位分為大、 小二層或更細分的,使各層內的單位間的變異程度較低,而各層 間的變異程度較高;根據變異數分析原理,層間變異愈大則層內 變異愈小,因此各層樣本的代表性將會增高,將其合併以估計整 個母體總合或平均值必能獲得準確度很高的估計結果。
分層隨機抽樣在實際應用上是最常用的一種抽樣方法。 通常 欲調查的母體內各個抽樣單位,當其間變異甚大,即分散度很大 或具有歪度(skewness)時,若採用簡單隨機抽樣,則可能造成分 散在兩端的樣本將不被抽中或抽中太多, 如此抽出的樣本不具高 度代表性,反而使估計誤差過大,因此有使用分層隨機抽樣的必 要。舉例來說,欲估計超級市場的平均營業額,即要對超級市場 按超市大小分層後再作抽樣。
分層隨機抽樣法的優點是(i)可增加樣本代表性; (ii)可提高估 分層隨機抽樣法的優點 計的確度;(iii)可分別獲得各層的訊息,並做各層間的比較分析; (iv)可在各層設立行政單位,以便於執行;和(v)可視各層情形, 採取不同的抽樣方法。而 它的限制 它的限制是(i)分層變數的選取(要與所
14

欲估計的特徵值具有高度相關);(ii)層數的釐定(要適當並配合母 體的分配狀況);(iii)分層標準的決定(各層不能有重疊現象);(iv) 各層樣本的配置方法;和(v)分層後,樣本資料的整理及估計較 複雜。因此,使用分層隨機抽樣法的最佳時機 使用分層隨機抽樣法的最佳時機,便是當(i)母體內 使用分層隨機抽樣法的最佳時機 樣本單位的差異較大時;和(ii)分層後能達到層間差異大,層內差 異小的原則。原則上要使層內變異小,而層間變異大;各層不能 有重疊現象。
3. 分層隨機抽樣法的配置問題
由前面所述我們已經知道當分組得宜時,分層隨機抽樣法較 簡單隨機抽樣法的準確度來的大, 然而在總樣本個數 n 確定的情 況下,各層究竟應該分別抽取多少,才能獲得最高的準確度?進 一步的說,也就是在固定的成本下,要如何使準確度達至最高? 而在要求的準確度的下, 又如何使成本減至最低?這些皆是屬於 配置上的 問題。 一般的配 置方法 可分為均 等配置 、比例配 置、 Neyman 配置和最適配置等四種,下面我們將以民國六十四年度 二期作坪割資料各鄉鎮各鄉鎮應抽的農家數(或坵田數)為例,將 此四法分別加以說明並討論。
(1)均等配置 均等配置(equal allocation) 均等配置 在所有配置法中,最簡單的就是將總樣本個數平均配置於各 層的中。換句話說,也就是由各層中抽取相同個數的樣本,此即 所謂均等配置。在均等配置中,第 h 層 的 樣本數為
nh = n = n L
( h = 1, 2, , L )
其中 n 為總樣本個數,L 為總層數。以坪割為例,民國六十四年 二期作所採用的即是一種均等配置,亦即在 29 個鄉鎮中,每鄉 鎮均抽取 4 小區,便構成了 n=116 的樣本。
15

第四章 各種抽樣方法之選擇、步驟及優劣比較
由於均等配置並未討論各層本身所含單位的多寡及層內變 異的大小,自然它的準確度一般說來不會很高,因此也只適用於 各層大小略為相等且變異程度相似的母體下使用。
(2)比例配置 比例配置(proportional allocation) 比例配置 比例配置是按照各層含有單位數多寡的比例來配置樣本的, 用公式來表達即是
n1 n n n = 2 = = h = = L N1 N2 Nh NL
也就是
nh = Nh n N
,
(4.3.1)
其中 N h 為第 h 層所含有的單位數( h = 1, 2, , L )。 在坪割計畫中,每一小區包括 10 到 20 公頃的水稻耕地,取 其中間值我們以 15 公頃為每一小區面積,那麼以 15 公頃來除 該鄉的水稻耕地總面積即為該鄉所擁有的小區數,也就是 N h 值, 即 N h = 15 (第 h 鄉的水稻栽培面積)。為了與前面均等配置做一比 較,我們仍以 29×4=116 作為總樣本個數(也就是 n 值),而 N 為 族群大小( N = ∑ N h ),將 N h 、n、N 等代入式(4.3.1)中即可得各鄉
h =1 L
鎮所應抽取的小區數 nh 。若以宜蘭縣羅東鎮為例,而羅東水稻栽 培面積 1429.40 公頃,除以 15 得 N h 為 95,各鄉鎮計算結果得
∑N
h =1
L
h
= N = 6214 ,則羅東鎮應抽取的小區數為 nh =
95 × 116 = 2 。 6214
除了比例配置外,尚有其他更精細完備的配置方法,如後述 的 Neyman 配置、最適配置等。但是比例配置法也有它的優點, 即(i)比例配置法不須要知道各層內的變異數; (ii)比例配置法未涉 及成本,因此各層的單位抽樣成本也不必明瞭;和(iii)由其他配 置法(如 Neyman 配置、最適配置)所獲得的準確度的提高,並不
16

是很大,但手續卻較繁雜。當然若各層內變異程度相差很大時, 由 Neyman 或最適配置所得的準確度的提高超過比例配置法的 簡便時,比例配置法是不宜被採用的,但無論如何比例配置法是 一種簡單而經常被使用的配置方法。
(3)最適配置法 最適配置法(optimum allocation) 最適配置法 最適配置法是在總預算成本為 C,樣本個數固定為 n,第 h 欲使平均的變異數為最小時所採 層單位抽樣成本為 Ch 的情況下, 用的一種配置方法。最適配置中第 h 層所須抽出的樣本數為
nh = N h Sh Ch Ch
∑N
h =1
L
(4.3.2)
h
Sh
其中 Sh 為第 h 層的層內均方。 由上列公式我們可看出 nh 是和 N h S h 成正比例的,也就是說當
N h 或 S h 大時,第 h 層就必須多抽些樣本。這意義是顯而易見的,
即當層內各單位間的差異越大, 越是須要較大的樣本才能具有代 表性。 由上式我們也可看出 nh 是和 Ch 成反比的, 也就是應該從 Ch 較小的層內抽取較多的樣本個數。若各層單位的抽樣成本相等, 且變異情形相似,則式(4.3.2)中的 Sh 和 Ch 便可略去,而簡化為
nh = Nh N n = h n ,即成為比例配置法。 N ∑ Nh
由「最適配置」這個名詞的表面意義,我們即可知道在者四 種配置法中它是最適的,因為它不但考慮了成本,更獲得了最高 的準確度;只是一般說來每層的單位抽樣成本很難正確的計算, 像坪割資料就是因為沒有成本的函數, 所以不能以最適配置法計 算出每鄉鎮應抽出的最適小區數。 (4) Neyman 配置 配置(Neyman allocation)
17

第四章 各種抽樣方法之選擇、步驟及優劣比較
在 某 些情 形 下,各 層 的單 位 抽樣成 本 Ch 差 異 不 大,因 此 式 (4.3.2)中的 Ch 可省略而變成了
nh = N h Sh n
∑N
h =1
L
(4.3.3) .
h
Sh
此法首先由 Neyman 提出,故稱為 Neyman 配置。以坪割計畫 中各鄉鎮所的小區數為例,N h 和比例配置時相同, 也仍是 116。 n 只是另外必須再計算各鄉鎮內小區變異數,開方後得 Sh ,由計算
nh = N h Sh × 116 ,即可獲得 Neyman 分配下各鄉鎮所應採取的小 ∑ N h Sh
區數。
由以上所述我們可以下一結論: 最適配置是最完美的配置方 法,但當各層單位抽樣成本未知時可採用 Neyman 配置,又當各 層內變異程度約略相似時可採用比例配置。 而由坪割計算結果我 們得到比例配置的相對效率,是均等配置的 1.556 倍,Neyman 配置是均等配置的 2.529 倍,Neyman 配置是比例配置的 1.625 倍,更可作為配置法重要性的一個驗證。由於比例配置法在實務 上使用最多,故下例中便此方法加以介紹。
【例 】假設某公司欲估計某類產品的潛在用戶的每年平均支出。 例 企劃人員擬就整個潛在用戶的名單(母群體),採用分層隨 機抽樣法抽取樣本,則其抽樣步驟如下: Step1.先蒐集所有潛在用戶的名單,並決定所抽樣本的個數:假 設整個潛在用戶的名單共有 8000 戶,且擬抽取 200 戶以 作為樣本,則 N=8000 和 n=200。 Step2.將所有潛在用戶的名單予以分層:如「少用」 「中等」 、 、 「多用」等。 Step3.就所分層的類別,計算屬於各層次的總單位個數:假設經
18

調查後「少用」者共有 2,000 戶, 「中等」者共有 4,000 戶, 「多用」者共有 2,000 戶,則可列表如下: 層 1. (少用) 2. (中等) 3. (多用) 1. (少用) 2. (中等) 3. (多用) 總合 每層中的潛在用戶 N i 2,000 4,000 2,000 2,000 4,000 2,000 N=8,000 樣本的潛在用戶 ni
n1 =? n2 =? n3 =? n1 =? n2 =? n3 =?
n=200
Step4.計算各層中擬抽取的單位個數 ni : 此時須先計算此三層用 戶的比重 Wi 即
W1 = (少用) =2000/8000 = 1/4 W2 = (中等) =4000/8000 = 1/2 W3 = (多用) =2000/8000 = 1/4
然後用此比重乘以已決定的總樣本個數(n),即得各 層的樣本個數,即
n1 = 200×1/4 =
50
n2 = 200×1/2 = 100 n3 = 200×1/4 =
50
Step5.利用隨機抽樣法將各層用戶分別予以編號,再利用亂數表 抽取所要的樣本號碼(即用戶)。 Step6.就所抽出的用戶蒐集資料,並計算各層的平均支出(X), 及標準差如下表所示:

每層中的潛在
樣本的潛
19
樣本的平
樣本標準差

第四章 各種抽樣方法之選擇、步驟及優劣比較
用戶( N i ) 1. (少用) 2. (中等) 3. (多用) 總合 2,000 4,000 2,000 N=8,000
在用戶( ni ) 均支出( X ) 50 100 50 n=200 $1,000 $1,500 $2,000
( Si ) $100 $150 $200
Step7.計算總潛在用戶的平均支出( X s )為
Xs =
∑W X
i
i
= (1/4)($1,000)+(1/2)($1,500)+(1/4)($2,000) = $250+$750+$500 = $1,500
4. 系統抽樣法 系統抽樣法(systematic sampling)
有時母體內的單位數過多,抽樣繁複費時,或有時母體內的 單位數不能確定時;以上二種情形若採隨機抽樣法,則太繁雜又 不太可能,因此可採系統抽樣法。整體而言,系統抽樣是相當簡 捷的一種抽樣方法。舉例來說,假設母體內有 50,000 個抽樣單 位,而只須抽出 100 個單位組成樣本時,即可使用系統抽樣法。 又如要對離境觀光客的觀感作調查, 則可利用在機場訪問以成為 系統抽樣的樣本。
系統抽樣法的優點是(i)在抽取樣本的過程中, 很容易完成抽 系統抽樣法的優點 樣工作;(ii)通常可使樣本普遍的散佈於母體內,使樣本更具代表 性;和(iii)在某些條件下,系統抽樣可取代簡單隨機抽樣。而本 法的限制 限制則是(i)對母體狀況宜略有所瞭解; (ii)避免系統樣本內的 限制 樣本單位趨於一致;(iii)不易計算估計量的變異數,和(iv)避免母 體內樣本單位特徵值的週期性變動。使用系統抽樣時最好是當(i)
20

相关主题