第27章抽样设计与样本(1)

第一节抽样调查的基本概念

抽样调查是一种非全面调查，它是从全部调查研究对象中，抽选一部分单位进行调查，并据以对全部调查研究对象作出估计和推断的一种调查方法。根据抽选样本的方法，抽样调查可以分为概率抽样和非概率抽样两类。概率抽样是按照概率论和数理统计的原理从调查研究的总体中，根据随机原则来抽选样本，并从数量上对总体的某些特征作出估计推断，对推断出可能出现的误差可以从概率意义上加以控制。

现代抽样方法的先驱——-盖洛普

“一种客观测量报刊读者阅读兴趣的新方法”是乔治·盖洛普（ＧｅｏｒｇｅＧａｌｌｕｐ）在艾奥瓦大学写博士论文时用的题目。通过对“ＤｅｓＭｏｉｎｅｓＲｅｇｉｓｔｅｒａｎｄＴｒｉｂｕｎｅ”和瑞士数学家雅克布·贝努里（ＪａｋｏｂＢｅｒｎｏｎｌｌｉ）具有２００年历史的概率统计理论的研究，盖洛普在抽样技术领域取得了进展。他指出，当抽样计划中的调查对象涵盖广泛，涉及不同地域、不同种族、不同经济层次的各种人时，你只需随机抽取而无需采访每个人。尽管当时他的方法不能为每个人理解和认同，但是现在，这已经被广泛使用。

盖洛普通常引出一些特例来解释他自己在说什么或做什么。假设有７０００个白豆子和３０００个黑豆子十分均匀地混在一起，装在一只桶里。当你舀出１００个时，你大约可以拿到７０个白的和３０个黑的，而且你失误的几率可以用数学方法计算出来。

只要桶里的豆子多于一把，那么你出错的几率就少于３％。

２０世纪３０年代早期，盖洛普在美国很受欢迎。他成为Ｄｒａｋｅ大学新闻系的系主任，然后转至西北大学。在此期间，他从事美国东北部报刊的读者调查。１９３２年的夏天，一家新的广告代理商电扬广告公司，邀请他去纽约创立一个旨在评估广告效果的调查部门，并制定一套调查方案。同年，他利用他的民意测验法帮助他的岳母竞选艾奥瓦州议员。这使他确信他的抽样调查方法不仅在数豆子和报刊读者调查方面有效，并有助于选举人。只要你了解到抽样范围具有广泛性：白人、黑人，男性、女性，富有、贫穷，城市、郊区，共和党、民主党。只要有一部分人代表他们所属的总体，你就可以通过采访相对少的一部分人，来预测选举结果或反映公众对其关心问题的态度。

盖洛普证实，通过科学抽样，可以准确地估测出总体的指标。同时，在抽样过程中，可节省大量资金①。

一、抽样调查的特点

１．随机原则。所谓随机原则，就是在我们所研究的总体中，每一个个案都有被选中、抽取的机会。也就是说，我们在总体中抽样时，哪一个个案能被抽取，哪一个个案不能被抽取，不是人为主观决定的，而完全是偶然碰机会的。

２．推断总体。抽样调查是抽取部分个案（单位）进行调查，但它的主要目的不是为了了解这部分单位本身。它的任务是从某一事物的总体中，抽取部分样本进行调查观察，取得所需要的指标，据以从数量上推断全体。

３．抽样调查使我们有可能用更少的人力、物力、时间、费用达到对总体的认识，而且可以起到对普查资料进行修正补充，提高大范围调查的准确程度的作用，因而在理论上和方法上都具有重要的意义。

４．可以用一定的概率来保证将误差控制在规定的范围之内。

二、抽样调查的几个概念

１总体

总体也称之为母体、一般总体等。具有某种统计特征的一类事物的全部个案，在统计学上称为总体。也就是说，研究对象的全体称为总体，如某批产品、某类病人、某个生产过程等。总体的单位数常用符号n表示。

２个体

个体也称为个案。组成总体的每个元素称为个体。有时也称具有某种统计特征的每一个对象为个案。构成一个总体的个案，可以是人或物，也可以指个性、心理反应等。

３样本

样本也称之为抽样总体、样本总体等。从总体中抽取一部分代表进行研究分析时，这一部分被抽取的个案称为总体中的一个样本。也就是说，从总体中抽取的若干个案所组成的群体，称之为样本。可见，总体是大群体，而样本是小群体。样本的单位数（即样本容量）常用符号n表示。

４抽样框

抽样框是指用以代表总体，并从中抽选样本的一个框架，其具体表现形式主要有包括总体全部单位的名册、地图等。抽样框在抽样调查中处于基础地位，是抽样调查必不可少的部分，其对于推断总体具有相当大的影响。

５样本的统计值

在实际研究中直接从样本中计算得到的各种量数，称为统计值。

６抽样误差

在抽样调查中，通常以样本作出估计值对总体的某个特征进行估计，当两者不一致时，就会产生误差。因为由样本作出的估计值是随着抽选的样本不同而变化，即使观察完全正确，它和总体指标之间也往往存在差异，这种差异纯粹是抽样引起的，故称之为抽样误差。

７总体的参数值

那些从已知统计值进行推论得到的各种量数，称为总体参数值。所以，今后讲到统计值就是指样本的，而讲到参数值则是指总体的。

８统计推论

统计推论就是用样本的统计值推论总体的参数值的统计方法。

第二节抽样调查的一般步骤

在设计一个抽样调查时，我们通常需要做的工作是：界定总体及个案、确定抽样框、选择抽样方法、确定样本大小、制定实施细节、评估样本正误。

抽样步骤可简单图示如下：

一、界定调查总体

界定调查总体就是要清楚地说明研究对象的范围（时间、地点、人物），如２００８年６月，Ａ市Ｂ区Ｃ街道１８-３５岁青年对互联网发展的看法。然后，根据总体的规定搜集全部个案名单。

为了满足研究目的的需要，注意详细说明可提供信息或所需信息有关的个体或实体所具有的特性。调查总体可以从以下几方面进行描述：地域特征、人口统计学的特征、服务使用情况、认知程度等。在调查中，从问卷表开始部分的过滤性问题，可以看出某个体是否属于本次调查的总体范围。即使有总体和样本清单，仍有必要使用过滤性问题识别合格的应答者。

界定总体后，我们也可考虑资料搜集方式。资料搜集方式对抽样过程有重要影响，如采用入户面访、电话调查、街上拦截还是网上调查、邮寄调查对抽样结果都会有不同的影响。在进行抽样设计时，要反复比较不同的资料搜集之方式，争取做出最好的选择。

二、选择抽样框

抽样框又称抽样范畴，是抽取样本的所有单位的名单。例如，要调查某大学学生上网的情况，这时抽样框就是该校全体大学生的花名册。在一次抽样中，抽样框的数目是与抽样单位的层次相对应的。若有３个层次的抽样单位，如乡、村、家庭，则抽样框也应有３个，全乡的名单、乡样本中所有村的名单、村样本中所有家庭的名单。

准确的抽样框包括两个含义：完整性与不重复性。完整性，是指不遗漏总体中的任意一个个体；不重复性，是指任意一个个体不能重复列入抽样框。

在实际抽样操作中，满足这两项原则非常不容易。例如，在城市居民户的抽样中，会经常出现一户有多处住房的情况，这样很容易把这一户重复列入抽样框，使得他们在抽样中的中选概率高于其他居民，从而违背了随机抽样的等概率原则；同样，许多城市居民居住条件较差，很多居民同住在一个门牌号中，因此很容易遗漏。例如，在上海，会有１０多个家庭居住在一个门牌号的情况，如果出现这种情况，被遗漏掉的户就没有可能被抽中，也就是说，他们的中选概率为零，当然也就违背了随机抽取的等概率原则。又如，电话号码本就可能是电话调查的框架。在问卷中，调查总体很有可能是城市中的所有居民。但是，电话号码本就不包括那些没有电话的居民和那些没有公布他们号码的居民。

一些潜在的因素证明，公布电话的居民和不公开电话号码的居民在一些重要的特征方面具有很大的区别。很明显地，那些不主动提供电话号码的居民很有可能是房客，居住在城市中心，最近刚搬家，或人口多、孩子小、收入低。在某些产品的购买、拥有、使用方面，两种类型的人具有很显着的差别。可见，在抽样领域，形成一个适当的抽样框经常是调查者面临的最有挑战性的问题之一。我们把抽样框定义为被调查总体的数据清单（数据库或者数据仓），从抽样框中可以抽出适合访问的样本单位。众所周知，一些抽样框原来根本是不存在的，因此，在调查的初期还要建立符合需要的抽样框。例如，在一项调查中，调查的总体是那些在近３０天内打三轮或三轮以上十八洞高尔夫球的人。但是，根本就没有一种计算方法可以完全提供这份名单。在不存在传统意义上的抽样框的情况下，我们需要依据能够产生具有希望特征的样本个体的程序来建立新样本框。

抽样框误差的例子

菲什（Ｆｉｓｈ）、巴恩斯（Ｂａｒｎｅｓ）和巴纳汗（Ｂａｎａｈａｎ）提供了两个有趣的关于抽样框误差的例子。一个是１９３６年《文学摘要》（犔i狋犲aDi犵犲狊狋）作的民意测验。这个杂志社从电话簿和汽车主登记表中选出了一大批选民（超过２００万人次）作抽样调查，基于这个调查的结果，它预言阿尔弗·伦敦（ＡｌｆＬｏｎｄｏｎ）会在竞选中击败富兰克林·罗斯福。不幸的是，这份抽样框选择的（电话簿和汽车主登记表中）选民并不能代表１９３６年整个美国的所有选民。因为，当时大多数人没有电话，没有汽车，并且这部分被忽略的选民收入很低。然而，抽样中作为重点的富裕阶层的选择，更倾向于投共和党的票。所以，在竞选后不久，《文学摘要》因其失误的预言使其可信度急剧下降，最终导致了破产的结局。

三、确定抽样方法

选择了抽样框后，我们就可以确定抽样方法，并决定样本大小。这两个步骤我们将在下一步作专题研究，至于抽取样本搜集资料，也会在资料搜集章节中专门介绍。

四、评估样本正误

我们把样本从总体中取出来后，不要急于作全面调查，要初步检查一下这个样本对总体的代表性如何，资料有无代表性，需要按确定的标准加以评估。

例如，《中国青年的生育意愿》一书中讲到，为了评估样本之正误，他们拟定评估标准两条。

其一，性别。根据我们的有效样本看，３９２１人当中男青年２０８１人，占总数的５３％，女青年１３４０人，占总数的４７％。根据我国１９７８年人口统计的资料看来，男青年占５１．２８％，女青年占４８．７２％。又根据我国１９７５年部分省市县的人口统计资料看，在１５-２４岁的青年中，男青年占总数的５１％，女青年占总数的４９％。

其二，年龄均值。在我们的有效样本中，１５-２４岁的青年２５３７人，其年龄均值为２０．６岁。根据上述我国１９７５年部分地区人口年龄分组统计资料推算，１５-２４岁青年的均值为１９．５３岁。由此可见，所抽样本误差不大。

评估样本之正误，可同时使用两个或两个以上的标准。当然，无论是用哪些标准，都应该是在总体内容中易找到的，并且是当初抽样时所确定了的。当我们作调查报告时，应有抽样评估说明，以表示资料的正确性。

第三节非概率抽样

一、判断抽样

判断抽样又名立意抽样，是研究者根据自己的主观判断去选定符合自己研究目的的样本。它受主观影响比较大，研究人员若判断不准，则误差极大。

二、巧合抽样

巧合抽样又名方便抽样，是选取偶然遇见的个案或者利用自己身边和附近的人作为研究对象和样本。例如，“街头拦人法”就是一例。巧合抽样好像有随机的味道，其实不然，因为巧合有很大的局限性，缺乏代表性。

三、配额抽样

配额抽样又称定额抽样，是根据某些标准分组，然后用判断和巧合抽样法抽样。它与分层随机抽样相似，也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层。但不同的是，分层抽样中各层的子样本是随机抽取的，而配额抽样中各层的子样本是非随机抽取的。

四、推荐抽样

推荐抽样有时又叫“雪球抽样”，要求回答者提供附加回答者的名单。有时营销调研者为符合研究的要求，起初汇编一个比总体样本要小得多的样本名单。在采访了每个回答者之后，要求他或她提供其他可能的回答者名单。如此，先前的回答者就提供了额外的回答者。其他名单意味着样本如雪球滚下坡一样越滚越大。

当手头只有一份有限且少得可怜的样本构架时，而回答者又能提供对调查可能有用的别的回答者的名单时，推荐抽样是最合适的。最初的名单在某些方面也可能是特殊的，然而增加样本的主要方法是通过原始名单中那些人的回忆产生的①。

以上非随机抽样的优点是方便易行，多用于探索性研究及总体边界不清或由于客观制约无法实施概率抽样之时，在市场研究中也用。但是，其致命缺点是无法保证样本代表性，不能做推论总体之用。

第四节概率抽样

一、简单抽样

简单抽样又称纯随机抽样、简单任意抽样法等。它是从调查总体中完全按照随机的原则抽取调查单位，是抽样调查的基本形式。这种方法使每一单位都有同等机会被抽中，它的工作过程，一般是先把总体中每个分子都编上号码，然后抽出需要的样本。

第27章 抽样设计与样本(1)

第27章抽样设计与样本(1)