第6章人事测量的实施与计分

书签收藏评论目录封面

人事测量的目的是要对应试者作出尽可能准确和公平的评估。准确和公平性的前提是对误差进行尽可能地控制，这需要做到在测试的实施和计分过程中，测试的各种因素对所有应试者尽可能相同，以控制无关因素对测量结果的影响。这一章将向大家具体介绍有关测量实施过程中应注意的各种细节和技术，以及对测验答案的计分程序和对被试猜测因素的校正。

第一节实施测量操作的要领与误差控制

人事测量实施的最基本要求是，使所有的应试者都在相同的条件下表现出自己的真正行为。这就要求测试时使用标准的指示语，制订标准的时间限制，采用合适的测试环境，以及控制施测过程中可能影响测试结果的任何其他因素，如主试回答提问的方式，宣读指示语的语调、声调、速度甚至面部表情等。下面对实施测量操作时应注意的各个方面进行详细介绍。

一、测量的操作程序

1.标准化指示语

在施测过程中应该使用统一的指示语。指示语（instruction）是在测量实施时说明测量进行方式以及如何回答问题的指导性语言。指示语通常有两种：一种是对被试的，另一种是给主试的。前者应该力求清晰和简单，向被试说明应该做什么，即如何对题目作出反应。这种指示语一般印在测验的开头部分，可以让受测者自己阅读，同时又在测验开始前由主试口头说明，以确保被试确实掌握要求。下面是一项能力倾向测验的指示语的例子：

请在答题卷的右上角写上你的名字。在测题本上不要做任何记号。本测验的目的是要测查你的逻辑推理能力。请将你的答案写在答题纸上，在每道题中你认为正确的选项上画圈表示，例如：题13：123④，表示你选择答案“4”。你的测验成绩将由你正确回答的题目的数量决定。因此，在你对某题没有把握时可以猜测，不要漏掉任何题目。如果测验时有什么问题，可以举手，询问主考人员。完成测验后请将答题纸和测验题本一起交给主考人员，之后离开考场。

一般来说，对被试的指示语一般包括：

1）如何选择反应形式（画圈、画勾、填数字、口答、书写等）；

2）如何记录这些反应（答卷纸、录音、录像等）；

3）时间限制；

4）如果不能确定正确反应时，该如何去做（是否允许猜测等）以及计分的方法；

5）例题。当题目形式比较生疏时，应该给出附有正确答案的例题；

6）某些情况下告知被试测验目的。

测验的指示语必须清楚、明确、易懂、有礼貌。有时有必要做适当的演示，并且注意观察被试的反应。例如要求被试在答卷纸上写上自己的名字时，最好用这样的指示语：

“请拿起答题纸”（举起一个样本，检查是否每一个被试都有了答题纸）；“翻开第一页”（演示翻到第一页，并等第一位被试做完）；“在第一行写上你的名字”（显示给被试样本，等待被试完成）。

标准指示语通常要求主试在指示语念完后，要询问被试有何问题。主试在回答这些问题时，不要加入自己的主观看法，也不要透露任何可能对测验结果有影响的信息或线索。因为指示语和主试的回答也是测验情境之一，不同的指示语和提示，会直接影响到应试者的答题态度与答题方式。例如，研究表明，同一个能力测验施测于多组被试，指示语将测验说成“智力测验”的一组被试，成绩最高；说成“日常测验”的一组被试，成绩最低。

2.测验时限

大多数典型作为测验是不受时间限制的。例如，人格测验中，被试的反应速度并不很重要，所以人格测验一般不限定被试完成测验的时间。但在最高作为测验中，速度是需要考虑的重要因素之一。大多数测验既要考虑反应的速度，也要考察解决有较大难度题目的能力。那么，测验时间定为多长比较合适呢？通常，在能力和成就测验中所使用的时限，以大约90%的被试能在规定时间内完成测验为标准。如果题目从易到难排列，力求使大多数被试能在规定时间内完成他会答的题目。确定测验的标准时限一般采取尝试法，即通过预测试来确定。

3.测验的环境条件

测验的环境条件也是影响测试成绩的一个因素。尤其对于操作性的测验，测验的环境如果布置得太严肃，容易让应试者感到紧张。测验场所必须确保具有良好的物理环境，包括安静而宽敞的地点，适当的光线和通风条件，适宜的温度和湿度等。在测试时还要防止干扰。

必须说明的是，环境条件的要求并不是可有可无的。不同的环境条件可能导致不同的结果，导致测验分数难以解释。因此，在施测时，首先必须完全遵从测验手册的要求布置测验的场所，其次是要在施测过程中记录下任何意外的测验环境因素，以便在解释测验结果时加以考虑。

二、主试的职责

主试（tester），也称考官或主考人，是控制测试进程的主要人员。主试的经验如何往往会对测验的结果产生影响。对于个体测验、投射类测验、操作性测试和面试，主试的作用就更为重要。测验手册中一般有对主试职责的详细说明，主试应严格按照此说明主持施测。通常，在第一次进行一项测量时，有必要对主试进行培训。一般来说，主试应做以下工作：

1.测验前的准备工作

1）预告测验。事先通知被试，保证被试准确知道测验的时间、地点以及测验的内容、测题的类别（问答题、客观题、口试题等），使受测者对测验有充分的准备。

2）熟悉测验指示语。在个体测验中，主试记住（能背诵）指示语是基本要求，否则单一面对被试，自己却不熟悉测验要求，会非常被动，严重影响测量效果。即使是团体测验，事先熟悉指示语也会使主试在朗读指示语时不会出错或犹豫，而且使主试在测验中感觉自然、轻松。这一点很重要，因为主试的紧张不安的情绪很容易感染被试，影响测量效果。

3）准备测验材料。这在个体测验中，特别是在最高作为测验中，尤为重要。材料一般应放在离测验桌不远的地方，主试可以伸手拿到而不干扰被试。当需要使用仪器时，要经常进行检查和校准。团体测验中，所有的测验本、答卷纸、铅笔和其他必需材料，都必须在测验前清点、检查和安排好。

4）熟悉测验的具体程序。对于个体测验，主试通常需要进行施测前训练，包括演示实践及实习等。对于团体测验，特别是欲测大量被试时，准备工作中还应包括主试与监考的分工，使他们明确各自的任务。一般来说，主试宣读指示语，掌握时间和负责每个测试点的全面工作，监考则分发和收集材料，回答被试手册中所限定的问题和防止作弊。

5）确保满意合适的测验环境。安排好测试地点，调整光线、通风、温度、噪音水平等物理条件。另外，为防止作弊，有时主试还有妥善安排座位的必要，如桌椅之间留出一定距离，隔位就坐等。

2.测验中主试的职责

在测验中，主试的主要职责是按照指示语的要求实施测验，在被试询问指示语意义时，作进一步澄清，但注意不要作任何暗示。另外，在测验时，主试还要注意不要讲与测验无关的话，并能够对测验中的特殊情况作出灵活的解决。

一般来说，主试应做测试记录，记录下测试现场发生的、可能和结果评价、解释有关的细节，这对那些不用录音录像设备记录的测验来说，是很有帮助的。此外，这些信息还可为今后修订测验提供一定依据。

3.建立协调关系

协调关系指的是主试和被试之间一种友好的、合作的、能促使被试最大限度地做好测验的一种关系。例如，能力测验中这种协调的关系能促使被试认真地注意测验任务，并尽其最大努力完成测验。在人格测验中，协调的关系能促使被试坦率而诚实地回答有关个人一般行为特点的问题。而在某些投射测验中，协调的关系能促使被试完整充分地报告刺激引起的各种联想内容。总之，建立协调关系就是要求促使被试尽可能地对测验感兴趣，遵从指示语，认真合作地进行应试。因此无论在个体或团体测验中，主试都应该采取热情、友好并且客观的态度，这是建立协调关系的前提。

三、测量实施过程中可能导致误差的各种影响因素

在测量实施过程中存在很多可能导致测量误差的因素。这些因素可能来自主试的操作不当，也可能来自被试自身反应倾向的影响。相对来说，主试导致的误差较容易克服，只需严格按照测验手册的要求实施测验即可。以下主要介绍导致误差的各种因素和相应的解决办法。

（一）主试对测量结果的影响

测量结果往往会受到主试的各方面因素的影响：

1.主试的人格特点

主试的不同特点对测验的实施及测验的评分等各环节都有影响。有些主试可能自己就不大善于建立和处理人际关系，对他来说在测验实施过程中与被试建立协调关系较为困难，因而由他施测的被试的测验结果可能就会受到影响。有些竞争性很强的主试，在测验时也往往苛求受测者。而有些主试过于宽容随和，在测验中给予过多的关心甚至评以高分，也会使测验出现偏差。

2.主试的期望

在有些情况下，实验者所获得的资料及实验结果会受其本身期望的影响，这种现象称为罗森塔尔效应（Rosenthal effect）。这是出自心理学家罗森塔尔所做的一个著名的实验：

在训练大鼠走迷宫时，告诉一部分主试他们所评价的大鼠比较聪明，而告诉另外的主试他们所评价的大鼠比较笨。当然，实际上他们所评价的是同一群大鼠。但是，结果发现，被告知所评价的是聪明大鼠的主试，对大鼠学会走迷宫的成绩评价明显要高，而另一组主试评分则明显偏低。也就是说，这些评分的主试们并不是完全根据老鼠走迷宫的成绩来评分，而是部分加入了自己的主观期望。最后的评分结果显然失去了客观意义。因此，这种效应又称做实验者期望误差（experimenter expectancy bias）。

在心理测验中也同样存在这种效应的影响。例如，要求正在进行智力测验实习的研究生给测验中一些暧昧、不清楚的答案记分。将评分的研究生随机分为两组，告诉其中一组他们所评分的答案是聪明的被试回答的，而告诉另一组研究生，他们所评判的答案是由较笨的被试回答的。结果发现，在对同一答案进行评分时，被告知答案由聪明被试做出的这组研究生所评分数高于另一组。

当然，相对来说，主试对测验结果的影响仍是有限的，是可以通过一定方法有效克服的。具体来说，就是要力求做到测验实施过程的标准化，将主试的个人因素对测验结果的影响尽可能降到最低。

（二）被试特点对测量结果的影响

1.测验的技巧与练习因素

1）测验的技巧。显然，如果某个被试熟悉测验程序及题目形式，而另一名被试是面对全然陌生的测验材料，这两者的测验结果是无法比较的。具有某种测验技巧的被试能够觉察正确答案与错误答案的细微差别，知道合理分配时间以及适应测验形式等。通过应用这些技巧，他们通常比那些与他们能力相等但是测验技巧较差的被试获得更高的测验分数。因此，在测验标准化时，应尽量设法使每个被试对测验材料的步骤和所需技巧有相同的熟悉程度。必要时，可以增加练习测验，使所有应试者同等程度地熟悉测验形式。

2）练习效应。有不少研究发现，应试者参加相同或重复的测验，会由于练习效应而使测验成绩提高。练习因素所产生的影响可以归纳为以下几点：

●教育背景较差和经验较少者，其受练习因素的影响较为显著；

●着重速度的测验，练习效果较为明显；

●重复实施相同的测验，受练习影响的程度要大于施测复本测验；

●练习的影响仅限于第一次及第二次重测，第二次以后的影响微不足道；

●平均而言，练习因素影响的幅度约在0.2个标准差以下。

2.焦虑和动机因素

1）应试动机。被试参加测验的动机不同，会影响其回答问题的态度、注意力、持久性以及反应速度等，从而影响最后测量结果。在测量成就、智力和能力倾向等内容时，如果被试动机不强烈，就不会尽力回答，导致对被试能力的低估。动机效应在测量态度、兴趣和人格等典型行为表现时也有影响。例如，被试可能为给人留下好印象，就会考虑主试的期望或社会赞许性行为，而不按照自己的实际情况回答。尤其是在测验与实际的选拔和录用有关时，被测者使自己的测验成绩更好或更符合录用的要求的倾向就更为明显。

2）测验焦虑。焦虑（anxiety）是一种不愉快的、表现为焦急、恐惧和紧张的情绪体验，它主要是由于对可能出现的结果的担心或对应付这一结果的能力的担心而造成。大多数人都在测验前和测验中感到焦虑，故又称测验焦虑或考试焦虑（test anxiety）。测验焦虑通常会影响到测验的结果。一般来说，适度的焦虑会使人的兴奋性提高，注意力增强，反应速度加快，从而对智力和学术性能力倾向有积极影响。过度的焦虑则会使工作能力降低，注意力分散，思维变得狭窄、刻板。毫无焦虑，则往往源于对测验的动机不高，因而成绩大多偏低。因此，在测量过程中，并不必担心应试者有适度的焦虑水平，但应注意消除可能造成应试者过于紧张的外在因素。

3.反应定势

反应定势也称为反应的方式或反应风格，简单地说，就是每个人回答问题的习惯方式。由于每个人回答问题的习惯不同，可能会使有相同能力的被试获得不同的分数。影响测量结果的反应定势主要有以下几种：

1）求“快”与求“精确”的反应定势。有些被试反应特别谨慎，体现为求“精确”的反应定势；另外有些人则特别快而且粗心大意，这就是求“快”的反应定势。在难度测验中，这两种反应定势的影响很小。但如果测验有时间限制，则这两种反应定势对测验成绩会有影响。

为了避免这两种反应定势的出现，除非“反应速度”本身即为研究目标，否则应让被试有充分的反应时间（以90%的被试可以答完所有试题为准），同时应注明反应的时间，以减少“速度-准确”反应定势的影响。

2）偏好正面叙述的反应定势。克伦巴赫发现，被试在无法确定“是非题”的正确答案时，选“是”的人多于选“非”的人。有趣的是，有些编制者在编制是非题时，也有“是”多于“非”的倾向。这种定势又称为肯定反应定势（positive response set）。为避免肯定定势，测验题目编写时要注意使是非两种题目的比例大致相等。

3）偏好特殊位置的反应定势。吉尔福特认为，被试如果完全不知道选择题的正确答案，则不会以完全随机的方式来决定该选择哪一个选项，而有偏好某一个位置的选项的倾向，而有些测验编制者也存在偏好某个位置的反应定势。这些现象称为位置定势（position set）。例如，很少将正确答案安排在第一个选项或最后一个选项。所以，在安排选项时要作到正确选项随机分布。

4）偏好较长选项的反应定势。有人发现被试在无法确定正确答案时，有偏好选择较长选项的反应定势。只要我们在测题编制时，尽量使选项的长度一致就不难避免这类问题。

5）猜测的反应定势。研究发现：有些被试不愿猜测，即使事先告诉他要答完所有题目，也无法使他改变；相反，另外有些被试即使告诉他答错要倒扣分，还是无法阻止其猜测行为。因此，如果不对猜测进行修正的话，那些敢于猜测的被试将比谨慎的被试更容易得高分。猜测的分数有时需要修正，修正的方法将在下面讨论。

四、猜测的校正

在客观题的测验中，需要解决的一个重要的问题是：如何矫正被试的猜测因素对测量结果的影响，怎样正确评估被试的真实状况。

在客观题中，特别是对于是非题和选项数目较少的选择题，猜测会提高被试的分数。当被试确实不知道正确答案，而每个选项又具有同样的吸引力时，被试凭猜测选择正确答案的机会是1/n（n是每题中选项的数目）。这样，对是非题而言，猜测就能获得50%的分数（因为n2）；而四择一的选择题，其猜测正确的概率就为25%。显然大量的猜测会对是非题和选择题的分数产生很大的影响，有必要对猜测进行校正。

1.猜测修正的方法

常用的猜测修正公式为：

SR-（5.1）

其中，S是正确分数；R为被试答对的题目数；W为被试答错的题目数；n为选项数目。

使用公式5.1时，必须分别算出答对及答错的题数，要特别注意不可将未答的题数归并到答错的题数中去。n的大小视选项的数目确定。若为是非题，n2，则SR-R-W；若为三择一选择题，则SR-。

2.猜测修正的优缺点

猜测修正的公式完全建立在“被试如果不知道正确答案，则完全盲目猜测”的假设基础上，而实际生活很少符合这个假设，因此对此公式的应用存在很大分歧。

赞成使用猜测修正公式的人认为：

●修正公式可避免减低测验的信度。因为如果强调倒扣分，被试就不敢盲目猜测。

●修正公式可以反映被试真正的能力和水平。

●使用修正公式对那些不能答完全部试题的被试来说比较公平。

反对使用猜测修正公式的人则认为：

●公式假设不成立，因为被试答错试题，并非完全瞎猜。大多数情况下，均是先舍弃部分诱答，再就剩下的几个选项来猜测。有时被试答错试题，是因为观念模糊、记忆不清或者粗心大意，并非乱猜。

●只要所有被试能答完全部题目，或者是略去未答的题目数相同，则猜测修正无实质作用。此种情形下其相对分数（如Z分数、T分数或百分等级）完全相同，因为依据心理测量学原理，校正后的分数虽与校正前不同，但其相关系数为1.0.为此，这两种分数对于决定分数的高低具有相同的作用。采用猜测修正，徒然增加计分的复杂性。

●未采用猜测修正对信度并无重大影响。

●实际生活中，常常需要仅凭借部分知识来作判断，因此完全不许猜测也与实际生活不符。

综上所述，可以这样认为：对于是否需要采用猜测修正并无定论。但是，如果是需要速度的测验，也就是说，有被试答不完所有试题时，可以采用猜测修正。如不采用猜测修正，则在编制测题时要注意：

●选项数目要多，4～5项较合适；

●题目数量加多；

●时间要充裕；

●经常以项目分析评鉴试题，并淘汰不好的试题。

第二节实施测量计分的要领与误差控制

标准化测量要求对测验结果进行客观计分。检验客观与否，可以以两个或两个以上受过训练的合格评分者所评结果之间的一致性作为指标。一般情况下，受过训练的评分者之间的平均一致性达到90%以上，我们就认为计分是客观的。只有当计分客观时，我们才能够把分数的差异归因于被试的差异。

计分标准化对于测验的编制者和使用者来说意义有所不同。对前者而言，计分标准化应该包括选择和设计合适的标准化计分程序，考虑分数的分配、权数的分配、猜测的处理，以及分数是由原始分数表示还是某种方式转换成其他形式。对后者而言，计分标准化则是要求完全按照测验手册的规定和标准答案评定分数，有时还可以完全依据套板或机器计分。

一、计分的一般程序

1.计分的基本步骤和要求

计分的基本步骤主要有三步：

1）记录反应。及时和清楚地记录被试的反应。如果是纸笔类测验，被试的答案将由被试自己记录在答卷上。如果是口头回答、操作演示回答等，则需要主试进行记录。这种情况下，可以用录音和录像等较为技术化的记录方法，以避免记录时记忆的困难和记忆错误。

2）检索标准答案。标准答案有时又称计分键。选择题测验的计分键是每一道题的正确答案的号码或编排字母；填充题的计分键是一系列正确答案以及所允许的变化；问答题的计分键为各种可接受的答案的要点；操作题的计分键则是指具有某种特点或能力的个体的典型反应。如果以上反应需要加权，权数也应在计分键中标明。

3）反应和标准答案的比较。也就是将反应归类或赋予分数值。客观题的程序很清楚，但当评分者的判断可能成为影响分数的一个因素时（例如问答题），就需要对评分的规则作详细的说明。评分时将个人的反应和评分说明书上所提供的样例进行比较，按最接近的答案样例给分。

2.问答题计分

问答题的主要缺点就是评分不够客观，也就是说问答题的计分经常受到评分者的情感、态度的影响。问答题中常见的误差有：宽容定势和晕轮效应。宽容定势（leniency set）指主试的计分过于宽松，即使没有回答出题目所要求的答案，评分者也给予较高的分数；晕轮效应（halo effect）指给予被试某道题较高分数仅仅是由于被试在另外一些试题上获得了高分，也就是说对被试的一般印象影响到具体某个问题的评价。

为了使问答题的计分更加客观和可信，主试应该首先考虑采用何种计分程序：整体计分还是分析计分。整体计分（global scoring）就是评分者根据总体印象给答案评一个总分。整体计分在实际中应用较为普遍。分析计分（analytic scoring）是给问答题的不同部分分派不同的权数，按照各部分的要求对答案中所包括的信息和技能评分，最后将各部分的权数和得分组合起来得到该问答题的分数。分析计分往往有答题的详细标准，因此相对更为客观。

下面是对问答题计分的一般原则：

1）与测量目标无关的回答不予计分，或单独给分数。评分应依据被试对问题的回答是否充分和恰当，所有其他因素，诸如文风、答案长短、书写等，在计分时应尽量不予考虑。

2）确定标准答案。问答题应具备一定的标准答案和评分标准。例如，可以列出最佳回答的样例，答案中必须包含的内容或应体现的特点或能力，以及如何根据回答内容进行评分的详细说明。一般来说，在公布分数时最好将评分标准告知被试。

3）评分时最好按题目顺序而不是按被试顺序进行，即对所有被试第一个问题答案计分完毕之后，再给下一题的答案计分。这样可使计分标准一致，亦可避免“晕轮效应”的影响。

4）最好在评阅时不知道被试的名字，以减少个人偏见。

5）安排两个或两个以上的主试来给问答题计分，取其平均值作为被试的分数。也可由一人在第一次评阅后，再作第二次审查，以确定评分是否偏颇。

3.客观题计分

客观题的一个主要优点就是计分简单、客观。客观题的分数可由一个一般的工作人员利用计分套板和计分器很快地、准确地算出。客观题的计分由题目的形式决定。能力测验和成就测验中，通常是按正确答案给1分，不正确计0分来统计。例如，一个有50道选择题或是非题的测验，其分数的分布将是0～50分。在人格测验中，没有答案正确与否的区分，但每种反映特定倾向的选项都可以用一个数字或符号进行标定，最后统计被试选择这种选项的次数。有时，不同的反应依据主试认为的重要性不同也可以给予不同的权数。另外，我们还可以根据被试回答问题时的确定程度给予不同的权数。

讨论题

1.人事测量实施中的最基本的要求是什么？你认为应从哪些方面考虑去保证这些要求得到满足？

2.什么是指示语？它以什么方式影响测量结果？

3.有的机构在选择测量环境时并不太在意，你觉得这很重要吗？是否一个测验在任何情况下都要保持测量环境一致？你认为在多大程度上考究测量环境最为适宜？如何做有关的成本-收益分析？

4.主试在测量实施中扮演什么角色？其作用、意义、影响有哪些？

5.讨论罗森塔尔效应。你曾经有过这样的经历吗？包括被别人考和考别人的时候？

6.有哪些被试特点会影响测验结果？比较它们的性质。克服它们的措施是什么？

7.讨论各种反应定势。你曾见过哪些种类？你过去是如何设法避免它们的？请把你的策略和本章中的策略进行比较。

8.你认为对被试的猜测需要校正吗？如果需要，如何校正？你是否同意本章中提到的方法（公式5.1）？你有更好的方法吗？

9.如何保持问答题计分中的客观性？如何避免其中的各种主试偏差？有哪些原则可以遵循？

10.什么是整体计分？比较整体计分和分析计分。如果要求你给某部门经理的工作考核报告评分，你将怎么做？

第6章 人事测量的实施与计分

第6章人事测量的实施与计分