人事测量的解释不同于测量实施本身,它们是测量中两个不同的、相对独立的成分,即测量过程与结果评价是相对分离的。测量实施的主要目的是获得应试者的各种反应信息,而分数的解释是利用这些反应信息对个体的素质或特点作出评价的过程。在测量的实施过程中不应对应试者形成任何主观评价,以免造成对应试者的偏见或产生晕轮效应,影响对应试者的评价。测量的解释是一个相当复杂的系统程序,它是以一系列复杂的统计工作为基础的,并在很大程度上依赖于专业人士的脑力劳动。在实务操作中,测量的实施和结果的解释是分开进行的,而且往往是由不同的人分别执行的。这也就是为什么在本书将结果的解释部分与测量的实施部分分开来介绍的根本原因。本章将系统介绍对测量结果进行基本解释的原理,不同的途径、方法,以及实用的操作技术。
第一节 解释的概念:为什么测量的实施与解释相分离
通过实施测量和对测量结果的计分,我们可以获得测量的原始分数。原始分数(raw score)是通过将应试者的反应与标准答案相比较而直接获得的,其本身并不具有多大的实用意义,而只是一个理论上的过渡值。例如,通过逻辑推理能力测验,我们得到某位应试者的原始成绩是25分。但是,这个成绩并不能使人事经理确定这名应试者的能力优秀与否,到底是高还是低。比如,25分和28分的能力相差到底有多大?25分是高于还是低于平均水平?换言之,我们并不了解原始分数的实际含义,它们相互之间也不能直接比较。
我们知道,人事测量的目的在于评价和比较应试者各方面的素质和特点。为此,我们可以将测量得到的原始分数与一般人的分数进行比较,以确定这个分数所代表的水平相对于一般人而言到底是平常还是优秀。也就是说,原始分数并不能为我们提供一个易于理解、可直接使用的评价,而需要针对一定的标准进行比较,才能得到有用的评价。这个可供比较的分数标准,就是我们前面提到的常模。
常模来自于测验总体的分数分布及其特征。原始分数通过与常模的比较(见第一章中给出的方法和公式),可以转换成等值的导出分数,叫做标准分(standard score)。这种分数是有意义的,可以进行相互比较,因为它是按照统计学规律和公式换算出来的,每一个标准分都对应到分数分布中反映分数高低的百分位。比如,以智力测量为例,智商IQ就是一个标准分。IQ为100分就意味着智力中等,也就是说,这个分数高于人群中50%的人。如果IQ为115分,就意味着比一般人(平均分)高出一个标准差,这个分数对应的百分等级约为84%,也就是说这个分数高于人群中84%的人。
这种由测量的原始分数通过与常模的对照得到可供比较的导出分数的过程,就是测验分的解释形式之一,称为测量分数的常模参照解释(norm reference explanation)。测量分数的另一种解释方式是参照效标的分数解释,即效标参照解释(criterion reference explanation),它是依据外在效标作为标准来对应试者的分数进行解释。
常模参照解释与效标参照解释的区别在于:常模参照解释是将应试者的成绩与同类群体的其他人(常模样本)的成绩进行比较,而效标参照解释是将应试者成绩与外在效标(如二级技工的标准)进行比较。例如,实施一项机械技术考试之后,如果将应试者的成绩与其他人的成绩进行比较,可以知道该应试者的机械技术知识是优秀、一般,还是较差,这就是参照常模的分数解释;如果将应试者的成绩与机械师分级的标准(外在效标)进行比较,就可以知道该应试者是否达到了某一级机械师的水平,这就是参照效标的分数解释。
第二节 常模与基于常模的解释
参照常模解释分数通常是将应试者的分数与某个参照团体的分数进行比较,并以该分数在这个团体中的相对等级或相对高低位置来描述应试者的素质或特点。这个用来比较的参照团体,我们称之为常模团体(norm group)。由于常模团体往往是测验总体中抽取出的一个样本,下面我们将常模团体称为常模样本(norm sample)。常模样本的分数分布,就是我们解释测验分数的基础——常模。
一、如何选择常模样本
(一)常模样本的构成
常模样本通常是具有某种共同特征的人所组成的一个群体,或是该群体的一个样本。对人事测量来说,常模样本往往是该测验的适用群体(即测验总体或常模总体)的一个样本。例如,建立一个管理者管理技能测验,它的常模样本就是管理者。如果是区分高层管理者与中层管理者的管理技能测验,那么常模样本就分别是高层管理人员和中层管理人员。又例如,如果是建立一个营销人员销售技能的测验,那么常模样本就是营销人员;或者,如果是一项专门用于考察应聘大学毕业生一般能力素质的测验,常模样本就是大学生。
因为有的测验可以适用于多个不同类型的群体,而应试者的分数需要与同类型的群体进行比较,所以有时一个测验可以有很多常模样本。例如,很多能力倾向测验都分别有中学生的常模,大学生的常模等,与不同的常模样本比较,同一分数得出的相对等级不同。因此在做常模参照分数的解释时,必须考虑常模样本的组成。
在编制测验时,常模的选择主要依赖于对测验将要施测的总体(测验适用的所有对象)的认识,常模样本往往是常模总体的一个有代表性的样本。确定常模样本的过程包括:确定一般总体、确定目标总体、确定常模样本这三个步骤。例如,编制一项适用于大学生的一般能力倾向测验,其一般总体就是大学生;目标总体是测验计划实施的对象,如某些城市的部分大学的大学生;而常模样本的选取必须根据总体的性质(如性别、年龄、专业、家庭背景等)选取能够反映总体性质的代表性样本。
对于测验的使用者,常模样本选择的意义在于确定一个合适的常模作为比较的标准。标准化测验通常提供许多原始分数与各种常模样本的比较转换表,解释分数时将被试的分数与合适的常模比较。有了这种比较转换表,所有的计算、换算工作都已经事先完成,就可以把通过计分得到的原始分数直接在表中查出其意义,省去了解释人员的许多麻烦。例如,在进行人员安置时,同一个测验分数就可与各种不同工种的常模进行比较,从而确定被安置人员更适合哪一工种。如何选择合适的常模是测验的使用者应注意的重要问题。如果将中学生的能力分数与大学生的常模进行比较,这样的比较结果是毫无意义的。同理,如果拿一般大学生的常模去衡量企业高层管理人员,也是不恰当的。
在最终确定常模样本的结构时,有许多可能的影响因素是需要考虑的。测验性质的不同,文化教育水平不同,性别的不同,都可能影响常模。例如,成就测验和能力倾向测验中,常模样本应包括目前的和潜在的竞争者;一般的能力测验的常模样本由同样年龄或同样教育水平的被试构成;人格测验的常模样本通常是同年龄段的正常成年人,有时区分为正常男性或正常女性这两个团体。其他一些因素如职业、社会经济地位、种族等,也都可能作为定义常模样本的标准。
(二)常模样本的条件
在确定和选择常模样本时,要注意下列要求:
1.常模样本的构成必须明确
一个测验可能有许多常模样本。例如,工作动机测验可以有不同性别的常模样本,不同职位层次(中层与高层管理人员)的常模样本,不同年龄段的常模样本。如果每个常模样本没有明确的界定,测验的使用者就无法确定将应试者的成绩放在哪个常模中进行比较。
在选取常模样本时,首先要保证常模样本的所有成员是同质的,可以相互比较。另外,要在测验手册中对常模样本进行明确的说明,包括常模样本的构成和特性等。例如,常模样本是某种特定行业或职位的人员时,应明确说明是哪种行业或职位、被试工作经验、教育背景等相关资料。
2.常模样本必须是所测群体的代表性样本
常模样本应能够代表测验总体,常模样本的分数分布应尽量与总体分数分布相吻合。这就要求常模样本的构成与测验总体相同。因为只有这样,在我们基于少数特定数据预测、推论一般性时,才可能比较准确。例如,某项测验的总体是全国大学生,那么构成常模样本的大学生最好来自各个年级、各个地区、各类学校、各种学科,并且各种类型的大学生的比例最好与全国大学生的比例接近。比如,假设全国大学生男女生的比例为2:1,那么常模样本中的男女大学生的比例也应该是2:1.
3.样本大小要适当
样本的大小要满足能够反映总体分数分布这一基本要求。从经济的角度出发,样本无需太大,只要能反映总体分数分布即可。
常模样本大小(即取样大小)由以下三方面决定:
●常模样本大小决定于总体的规模。总体规模小,如只有几十个人,则常模样本应包括所有总体成员。如果总体数目大,相应的样本也应较大,一般最低不应少于30个或100个。
●常模样本大小决定于总体性质。如果总体只有单一性质,则适当数目的样本就能够反映总体性质。总体性质越复杂,越需要较大数量的样本。
●常模样本大小决定于施测结果。根据统计学原理,样本的标准误是一样本数的平方根去除标准差。标准误越大,预测的可靠性越差。设S为标准差,n为所抽样本数,S为样本标准误,则可得:
S(6.1)
移项可得:
n2(6.1′)
从公式6.1可以看到,样本量n越大,标准误S就越小,效果就越理想。假如我们从试测结果或从过去已有的研究中得到总体的标准差,同时希望提高样本的准确度,也就是说减小样本的标准误,则样本数目应随之扩大。例如,某群体标准误为4,我们希望降到2,则样本数目应扩大4倍,如果希望降到1,则样本数目应扩大16倍。
以上公式在<5%时起作用(N为总体数目)。如果>5%,则n应有所降低:
n′(6.2)
实际上,样本大小适当的关键是样本要有代表性。从一个较小的但具有代表性的样本所获得的分数,通常比来自较大的但定义模糊的团体的分数要好。
4.注意常模的时效性
由于常模总体可能会随时间而改变,所以还要对常模制定的时间加以考虑,也就是说,一个常模到底能在多长时间内有效。许多人在考虑常模的合适性时,往往忽略对常模时间性的要求。由于几年前所编制的常模可能并不适合于现在的要求,因此常模必须定期修订。在选择合适常模时,应注意选择较为新近的常模。
(三)取样的方法
取样(sampling)是指从目标人群中选择有代表性的样本的过程。从统计角度看,取样的方法有随机抽样和非随机抽样两种。前者是根据随机原则进行,而后者则没有随机性。
在确定常模时,常用的取样方法有:
1.简单随机抽样
按照随机顺序表选择被试作为样本,或者是将抽样范围中的每个人或者每个抽样单位编号,随机选择,以避免由于标记、姓名或者其他社会赞许性偏见造成抽样误差。在简单随机抽样中,每个人或抽样单位都有相同的机会被抽取作为常模样本中的一部分。
2.系统抽样
系统抽样的具体方法是:假设总体数目为N,若要选择K分之一的被试作为样本,则可以把所有的人N分为N/K组,每个组选一个人,则刚好组成1/K的样本。或者把所有的人从1到N按序编号,把所有编号是K的倍数的人抽取出来,即可组成所需样本。例如,某个总体为100人,若抽取1/2,K为2,样本数为50人;若抽取1/5,K为5,样本数为20.假设现在要抽取1/4的人作为样本,则K4,应抽取人数为N/K100/425,则将总体分为25组,每组抽取1人即可。或者把所有人按1到100编号,凡是4的倍数的序号抽取出来即可。
需要注意的是,在进行系统抽样时,分组和从组中抽取,或者是编号,都必须是随机的。如果能够找到任何没有偏见的排列顺序,就可采取系统抽样方法。如果发现排列有某种内部循环规律存在,就不能如此进行。
3.分组抽样
在总体数目较大,无法编号,并且总体成员又具有多样性的情况下,可以先将群体分为一定的小组,再从小组内随机抽样。例如,将全国大学生按地区分为许多小组,然后在各小组中选取一定比例的大学生作为被试。当然,这里保证抽样可靠性的关键是选定和划分小组。如果这个过程无法或难以保证随机性,则最后抽取的样本的代表性会有损失。不过,这种损失也是相对的,在多数情况下是可以接受的。比如,如果由样本代表性造成的预测误差远小于测量工具本身的计量误差,则往往可以忽略不计。
4.分层抽样
在确定常模样本时,最常用的是分层抽样(stratified sampling)方法。它是先将目标群体的某一种变量(如年龄)分成若干层次(如不同年龄段:20~29岁、30~39岁……),如R个层次,再从各层次中随机抽取若干个案。各层次的个案总和即为样本个案数目。
分层抽样能够避免简单随机抽样中样本集中于某种特性或缺少某种特性的现象。它使各层次差异显著,同层次保持一致,增加了样本的代表性。使用分层抽样方法获得的常模在解释测验分数时更为实用和有效。
分层抽样也分为两种方法:
1)分层比例抽样法:如果各层抽取的个案数目ni是根据各层的个案数目Ni占总体数目N的比例而决定的,则
ni×n(6.3)
其中,n为欲抽取个案总数;代表比例,用Wi表示,上式可改成:
niWi×n(6.4)
例如,假设全国大学生19~20岁年龄的学生占25%,那么我们在抽取1000名大学生为样本时,其中抽取的19~20岁的人数就应为250人。
2)分层非比例抽样:当各个层次的差异很大时,就不宜采用比例抽样。因为有些层次的重要性大于其他层次,这时应该采用非比例抽样方法。这种方法的目的在于减低各层的标准差,使总体平均数的估计较为准确。应用非比例抽样法,各层样本的数目可由以下公式求得:
nin×(6.5)
其中,ni为各层应抽取的个案数;n为样本个案数;Ni为各层个案数;Si为各层调查单位的标准差。
二、常模的类型及解释
常用的常模有发展常模、百分位常模和标准分数常模。下面我们着重对百分位常模和标准分数常模进行介绍。
(一)百分位常模
百分位常模包括百分等级、四分位数和十分位数。
1.百分等级
百分等级是应用最广的表示测验分数的方法。百分等级的概念很容易理解。它是指把一个总体的所有分数按大小顺序排列后,把所有分数按个数等分为100等份,这每一个等份对应的百分数就是这个分数分布的百分等级(percentile rank),而刚好把所有分数个数分为100份的分数值则叫百分位数。有了百分等级,对分数进行比较就十分方便直观,因为一个分数的百分等级实际上就是指在常模样本中低于这个分数的人数百分数。比如,如果一个原始分对应的百分等级为98,就表示在常模样本中有98%的人的得分比这个分数要低。这样一来,这个分数的水平高低的意义就可一目了然。换句话说,百分等级是以百分率的形式来表示一个人的相对等级,即我们将常模样本分成100等份时这个人所占的等级。
百分等级是一个非常有用的量值。不管样本分数分布是什么形态,是随机的还是非随机的,我们总可以对所有分数进行排列并求出所有原始分数对应的百分等级,从而可以进行分数的比较。比如,某企业对所有400名职员进行了基本技能考核,得出了400个不同的考核分数。从考核分数本身很难看得出水平高低。比如,一个人得分为73分。这是什么意思?满分是100分和满分是80分时,73分的含义不同;员工中最高分为99分和最高分为79分时,73分的含义不同;即使最高分是79分,但73~79分之间有200人和只有20人时,73分的含义也不同。也就是说,除非我们知道73分相对于其他分数的位置,才能作出有意义的评价。这时,如果我们求出各分数对应的百分等级,就可以直接明了每一个分数相对于其他分数的位置了。
百分等级的计算关键在于确定在常模样本中分数低于某一特别分数的人数比例,这可以分两种情况:
一种情况是对没有分组资料的数据分布求百分等级,公式为:
PR100-(6.6)
其中,R为排名顺序;N为总人数。
另一种情况是对有分组资料的数据求百分等级。对这类资料中任一个分数计算百分等级的公式如下:
PR+cf(6.6′)
其中,x为任意原始分数;l为该原始分数所在组的精确下限;fp为该分数所在组的次数;cf为l以下的累积次数;h为组距。
2.百分点或百分位数
在决定百分等级时,我们是求低于某一测验分数的人数比例,然而有时我们却想知道位于某一比例的分数是多少。例如我们想挑选得分高的15%的被试,我们就必须求出相当于85百分等级的测验分数。在分数量表上,相对于某一百分等级的分数点就叫百分点(percentile point)或百分位数。实际上,求百分点就好比是求百分等级的逆运算过程。百分位的计算可根据内插法进行。
实际工作中往往需要对许多有特定意义的百分点甚至所有百分点进行计算。例如我们在制定某种百分等级常模表时,就可能要计算百分点,这种表格并不是专门表示每个原始分数的百分等级,而是表示欲达到某个百分等级——如90、80、70等——需要的原始分数是多少。不过,我们一般既可以由原始分数计算百分等级,也可由百分等级确定原始分数。通过这样的双向方式编制的原始分数与百分等级对照表,就是百分等级常模(percentile rank norm)。
当我们转换得到了百分点和百分等级后,不难发现,这时的分数是等值的,因为相邻两个百分点分数(或等级)之间的距离都是1%,因此它们可以直接比较大小。这就是所谓标准分的真正实际意义。
3.四分位数和十分位数
四分位数与十分位数和百分位数含义相似。百分位数将量表分成100等份。然而在许多情况下,并不需要如此精密的区分,只要分成少数的段落区间就足够了。四分法将数据分布分成四等份,实际上是第25、50、75等百分点分段,因而计算四分位与计算第25、50、75的百分点是相同的。同样,十分位的计算则与计算第10、20……90等百分点相同。
依照惯例,最低的1/4(第1到25的百分等级)为第一个四分位,最低的1/10则为第一个十分位,依次类推。
(二)标准分数常模
前面已经说过,标准分是一种有相等单位的分数。这里我们介绍由标准分如何构建常模。标准分数常模有好几种,每一种都是基于特定的根据平均数和标准差转换原始分数而计算标准分的方法。常见的标准分数有:z分数、Z分数、离差智商(IQ)、T分数、标准九分等。由原始分数转换的标准分数,又分为线性转换和非线性转换两种。
1.线性转换的标准分数
z分数(z score)为最典型的线性转换的标准分数,它是指以标准差为单位所表示的原始分数与平均数的差距。根据这个定义,可表示为下列公式:
z(6.7)
其中,X为原始分数;为平均分数;SD为标准差。由此可见,z分数可以用来表示某一分数偏离平均数多少个标准差,偏离方向如何。
z分数具有以下几个性质:
●它的平均数为零,标准差为1.
●z分数的绝对值表示这个原始分数与平均数的距离,正负符号表示原始分数在平均数之上或之下。
●z分数的分布形状与原始分数相同,因为是按照线性关系将原始分数转换成标准分数的。假如原始分数的分布有偏斜,则z分数的分布也一样;如果原始分数按正态分布,则z分数的范围大致是±3.00SD,即正负3个标准差的范围。
●由于标准分数z是以间隔量表来表示的,所以可作一般的代数运算。
由于z分数中会出现小数点和负值,而且单位过大,所以通常又将z分数转换成Z量表分数,转换方法是:
ZA+Bz(6.8)
Z为转换后的标准分数,A、B为常数。由于加上或乘以一个常数并不改变量表中的比较关系,所以Z分数与z分数是同质的。
如果令A100,B10,那么它的平均数为100,标准差为10:
Z100+10z
不难看出,IQ分数实质上就是一种Z分数,其平均分为100,标准差为15.
2.正态化的标准分数
线性转换的标准分数尽管具有不同的平均数和标准差,但仍与原分布的形状一致。若原始分数为正态分布,则标准分数亦然。在正态情况下,标准分数还可转换成百分等级。这种转化可利用正态曲线的面积表。因为在正态分布中,标准分数(如z分数)与曲线下的面积(在任意两个分数点间的人数所占比例)有特殊的固定的数学关系。
当原始分数不呈正态分布时,也可以进行面积转化,而使分数转成为正态分布。由这种方式所得到的分数就叫正态化的标准分数。为了使分数正态化,必须有某种依据能假定所测特性的分数事实上应该是呈正态分布的。假如无法作此假定,强行使之成正态分布,只会扭曲分数分布。因此,只有当所得的分数趋近于正态而只是由于取样误差使其稍有偏异时,才可计算正态化的标准分数。这种情况在对大量而且异质的样本进行测验的标准化工作中常常发生。例如,某个企业引入一项新技术,所有员工都学习掌握该技术。经过一段时间培训后,所有员工掌握新技术的水平呈正态分布,因为有的人掌握得好,有的人掌握得差,大多数人水平中等。但在测查时,由于安排从不同的部门抽取一定的员工进行抽查,得出的分数分布可能由于抽样原因而不呈正态分布。这就需要校正。这一正态化过程主要是先将原始分数转化为百分等级,再将百分等级转化为正态分布上相应的离均值,并可以表示为任何平均数和标准差,计算步骤如下:
1)对原始分数按序由小到大排列,计算各分数占总样本量的累积百分比。
2)在正态曲线面积表中,求相对于该百分比的z分数。对大于中数的分数(CP>0.500)使用“较大部分的面积”一行的数据;对小于中数的分数(CP<0.500)用“较小部分的面积”一行的数据。所得的z分数可将分布分成几部分,我们称此值为z′,以区分于由线性转换求得的Z分数。
3)可以再次将分数转换成T分数量表,即以50为平均数,10为标准差:
T50+10z′(6.9)
4)假如原始分布呈正态,正态化的标准分数与由线性转换所得的标准分数有相同的值。假如分布不呈正态,这两种分数的值则不同。
T分数(T score)一词最早是由麦柯尔1939年提出以纪念推孟和桑代克的,不过当时仅用于12岁儿童的团体,是根据某一特殊常模样本而不是在一般意义上定义的。现在有人用T分数来表示任何正态化与非正态化的转化标准系统,只要其平均数为50,标准差为10即可。
标准九(standard nine)分是另一较知名的标准分数系统,其量表是一个9级的分数量表。它以5为平均数,以2为标准差。标准九即标准化九分制的简称,它广泛用于美国空军和某些教学情境中的分级。
标准九将原始分数依据百分等级区分成9个等级,最高分为9分,最低分为1分,5分位于分布的中心。除1分和9分外,其余每个分数均包括半个标准差的范围。
在一个正态分布中,每一个标准九所包含的百分比为:
在使用标准九时,我们只要将百分等级分布上最高4%的被试给予9分,其次7%的被试给予8分,依次类推即可。当将原始分数转换成标准九时,事实上是将其置于一等距量表水平上,即8分与7分、5分与4分以及3分与2分间的差距均相等(以标准差为单位)。这种标准量表使我们可以比较被试在不同类型测量上的相对地位的高低。
标准九的另外一个功能是可以给各种不同类型的资料予以加权,从而得到一个组合分数。例如,先后有三种测验,我们认为最后一种测验的重要性是前两种的2倍,若已知第一次测验的标准九分数为6,第二次为4,第三次为8,则组合分数为:
组合分数=6.5
这个分数可以整体地代表被测者在三项测验上的总体水平。如果将所有被试的组合分数计算出来,就可依据整体成绩来给被试排定顺序。这也就是教学情境中分级的应用。然而,我们必须特别注意,组合分数并不是一种标准九分,故只能排定顺序。
其他常态化标准分数还有标准十分(卡特尔的16人格因素中使用)和标准二十分。前者平均数为5,标准差为1.5;后者平均数为10,标准差为3.
三、常模的表示方法
现在我们已经了解了常模的意义及有关计算的原理。不过,在现实应用中,为了使实际使用者更为方便,尤其是简化掉繁杂的计算手续,专业人士总是努力做到最彻底的服务,把大多数计算工作都事先完成。而今,计算机的应用已经使许多手工工作都电算化,可以自动换算并给出书面报告。不过,传统的方法仍是十分普遍的做法,并且更能使人了解测验解释的过程。一般来说,每个测量工具都编制有专用的对照图表,这样,一旦使用者计算出原始分数,就可以从这种对照图表上直接查到转换好的标准分。这种对照图表就是实用中表示常模的方法。
常模表示的方法主要有两种:转化表和剖析图
(一)转化表
最简单而且最基本的表示常模的方法就是转化表,也叫常模表(norm table),它由原始分数表、相对应的导出分数表和对常模样本的具体描述等三个要素组成。测验的使用者利用转化表可以将原始分数转换为导出分数,或者是针对给出的导出分数找出相应的原始分数。
根据转化表进行解释时,必须注意:常模转化表总是特异性的,即一个转化表总是来自特定的常模样本的,因此只能适用于相同群体的成员的比较。如果要与其他不同性质的团体进行比较,要用其他常模表。此外,这种转化表只能表示被试在常模样本内的相对等级,若要依此作出某种结论或预测,需要进一步的信度和效度的依据。
(二)剖析图
剖析图是测验分数的转换关系用图形表示出来的一种模式图。从剖析图上可以很直观地看出被试在测验以及测验的各个子测验或维度上的分数及其相对的位置。例如,MMPI测验的常模解释系统中就包含各分量表分数的剖析图。使用剖析图作解释,要求各个分测验所使用的常模样本必须相同,否则各分测验分数之间无法比较。
此外,要注意的一个问题是,使用剖析图容易夸大各个分测验间分数的差异。为避免这个问题,有些剖析图注明了多少距离代表两分数间差异显著,使用者可以依此很快地确定某对分数间是否存在差异。另一种方法是将被试分数用一段范围表示,假如范围不重叠,表明分数间有显著差异存在。
第三节 效标与基于效标的解释
在第一节中,我们提到了参照效标的分数解释。对于效标参照测验,如成就测验等,其分数解释过程不同于常模参照测验。效标参照测验关心的是应试者是否达到了某种标准或效标。参照效标的分数解释分为内容参照分数的解释及结果参照分数的解释两种类型。
一、内容参照分数的解释
内容参照分数(content referenced score)的测量目的是确定应试者对某个确定材料内容或技能的掌握和熟悉程度的分数。由于比较的对象不是其他人,而是掌握的内容多少,所以称为内容参照测验。成就测验就是典型的内容参照测验。在人事管理中,常常会用到这种类型的测验。例如,为了解新员工是否掌握培训班所授知识或岗前培训是否达到预定要求而进行的测验,就是内容参照测验。
在编制内容参照测验时,要首先确定待考察的内容或技能,再编制确定应试者掌握程度的测验量表。编制内容参照测验量表的关键是预先制定一个判断应试者是否已掌握某种内容或技能的熟练程度的标准。这种标准可以通过掌握分数和正确百分数来表示。在实际中,对后者的应用更为常见。
1.掌握分数
最简单的掌握分数的标准是定一个判别应试者是否通过或掌握的最低分数。在此分数之上,表明应试者对考核的内容已经掌握,反之,说明应试者没有达到应该掌握的水平。通常以80%~90%的人能通过的分数作为最低分数。
2.正确百分数
正确百分数表明被试在测验中答对题目的比例。计算公式如下:
正确百分数×100(6.10)
编制测验时,首先确定达到掌握或熟练标准的百分数,然后可以通过将应试者的答对百分数与此标准进行比较来确定该应试者的水平。
二、结果参照分数的解释
结果参照分数(outcome referenced score)是将效标材料直接结合到测验结果的解释过程而进行评价的分数。预测性测验往往适合用结果参照分数进行解释。结果参照分数可以表示获得某个分数的应试者达到某种效标水平的可能性。例如,在高级管理技能测量中,它的结果的解释可依据一定管理业绩或成效为标准。对于测验所得到的某个分数,可以判定它达到某一水平的绩效的可能性有多大。
进行结果参照分数解释的常用表示方法是期望表。期望表说明了一个给定的原始分数或分数等级获得不同效标分数或等级的可能性有多大,这种可能性用人数百分比来表示。如表6.1所示。
从表中数据可以看出,该测验的效标分数为10分,共分为A(优秀)、B(良好,又可分为B+和B-)、C(合格)、D(较差)、E(很差)五个等级。表中数据表示与每一原始分数相对应的达到某一等级效标的人数百分比。例如,原始分数为65~69的应试者中,有94%获得了C等级中5.0~5.9这一效标分数C+的水平,即获得65~69分原始分的被试有94%的可能能够达到该效标水平。
讨论题
1.为什么测量的实施与结果的解释是相分离的?
2.为什么没有经过标准化转化的原始分数不具有等值性,不能直接比较?
3.百分位和百分等级是什么含义?区别是什么?
4.效标参照和常模参照的区别是什么?
5.什么是常模?有哪些因素会影响常模的构成?样本的大小对常模有影响吗?为什么?
6.什么是分层抽样?假定你在一个大型跨区域企业进行人事测量,应该怎样进行分层抽样?
7.z分数和T分数有区别吗?为什么?
8.内容参照分数和结果参照分数有什么不同?它们的意义是什么?
9.如果你对本企业的员工进行绩效考核并获得了原始分数,你怎样处理这些分数,使它们标准化以进行比较?
10.你能对本企业某一部门的员工制定一套基于业绩的评定方案并建立常模吗?