书城管理实用人事测量:简明版
7761500000008

第8章 人事测量的关键技术:信度

信度是标准化人事测量的基本要求之一。若测量工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能误导对应试者的评价。我们在前面的章节里已经说明了信度的含义和重要性,这一章将详细介绍如何检验和提高一项测量的信度。

第一节 人事测量的可靠性——信度

一、信度的定义

信度主要是指测量结果的可靠性或一致性。由于接受测量时应试者的行为可能会由于各种原因而产生变动,偏离了其真实行为,这就会使测量结果产生误差。测量结果的可靠性与测量结果受误差影响的程度密切相关。误差大,分数的可靠性就降低。信度便是说明测量的可靠性或一致性的指标。

不妨对照一个物理上的现象来理解信度的意义。如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量时都难免会有一定的误差。首先,卡尺作为一种量具是有一定精度限制的,也就是说,量具本身有误差,这种误差是必然的,但却是有规律的。这种误差叫做系统误差(systematic error)。其次,我们每一次测量都可能有操作上的差异,或者由于不可预见的外界因素的影响,从而造成误差,这些误差也是难免的,但却是毫无规律的。这种误差叫做随机误差(random error)。一个人事测量工具也必然是有误差的,而且往往误差还很大。一个好的人事测量工具不仅要有尽可能高的精度,还必须能把误差控制在一个有规律的范围以内,这样测量得到的结果才比较稳定可信。信度实际上就是对随机误差的一种度量。

在研究信度时,主要应考虑两方面的问题:一方面是稳定性问题,涉及:

●测验分数一致性的程度,即不同时间、不同测验条件下所得分数之间的一致性有多大;

●一个人的获得分数与“真实分数”之间接近程度如何;

●测验的测量一致性是否可以达到实际应用的程度等问题。

另一方面是影响稳定性的原因,即分数不稳定、不一致的原因:

●什么因素造成了这种差异;

●这些效应的相对作用如何。

二、信度的作用

信度高低的指标通常以相关系数表示,称为信度系数(reliability coefficient)。信度系数一般是同一样本所得的两组资料的相关,在理论上表示为实得分数与真实分数相关的平方:

rxxrxr2(7.1)

其中,rxr有时也称为信度指数,它是真实分数标准差与实得分数标准差的比率。

另外,还可通过分析个人分数再测时的变化(误差)来考察信度。我们知道两次测验的分数不可能完全一致,但是误差的大小与测验的信度有直接关系:两次测验分数的差异越大,信度就越低。在讨论这些信度指标的具体估计方法以前,我们先看一看信度如何应用的问题。

在人事测量中,对信度系数进行确定通常有以下两方面的作用:

1.解释真实分数与实得分数的相关

信度可以解释为总的方差(即标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。例如,当rxx0.90时,我们可以说,实得分数中有90%的方差是来自真实分数的差别,仅有10%是来自测量的误差。在极端情况下,如果rxx1.00,则表示完全没有测量误差,所有的变异(即分数的变化)均来自真实分数;若rxx0,则所有的变异和差别都反映的是测量误差。应该注意的是,信度系数的分布是从0.00~1.00的正数范围,代表了从缺乏信度到完全可信的所有状况。同样,信度系数也告诉了我们测量的误差比例是多少。由于信度是随情境改变的,我们就可据此较为精确地说明某种测验在某种特定条件下对某种特定样本所得的测量误差。

2.说明可以接受的信度水准

信度究竟要多高才是可以接受的呢?一般说来,最理想情况为rxx1.00,但实际上是达不到的。不过我们可以用已有的同类测验作为比较的标准。几种类型的测量工具的信度系数。一般的能力与成就测验的信度系数在0.90以上;人格、兴趣等测验的信度系数通常在0.80~0.85之间。

一般来说,当rxx<0.70时,不能用测验对个人作评价,也不能在团体间作比较;当rxx>0.70时,可用于团体间比较;rxx>0.85时,可用于鉴别个人。

我们通常要求信度系数至少与已出版或公开使用的相似内容的成熟测验一样高。另外,必须说明的是,由于信度是以测验所应用的情境为依据的,是某一特定条件下的一致性,因此,说某种测验较为可靠,那就意味着这个测验在很多情境下都被证实具有较高的信度。

第二节 如何评估人事测量的信度

针对不同的误差来源,信度可以有不同的确定方法。下面将主要介绍几种不同的信度类型和相应的评估方法:重测信度、复本信度、内部一致性信度、评分者信度。

一、重测信度

重测信度(test-retest reliability)又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数(采用积差相关系数)即为重测系数。根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度越高,说明测量的结果越一致、越可靠。人事测量所测查的特质中,有相当一些内容都具有一定的稳定性,如人格、基本能力倾向等,因此,对于这些内容来说,测量工具的信度是十分重要的。

重测信度的概念是很容易理解和接受的。试想一个测验测量了一个人的智力,得到IQ100分,即智力中等,第二天再测IQ却变成了150分,一夜之间成了天才,若没有极特殊的原因,这种事绝对是小概率事件,不太可能发生,可信度极低。人事测量是十分严肃的事,绝不能像小孩子信口雌黄,否则危害极大。

重测信度所考察的误差来源是时间的变化所带来的随机影响,例如由气候、偶然的噪音或其他干扰,以及引起被试本身身心状态变化的因素如疾病、疲劳、情绪波动、焦虑等原因造成的对测量结果的影响。重测信度代表测量能应用于不同时间的程度,信度越高,受环境中日常随机因素的影响越小,测量结果越稳定。

在评估重测信度时,必须注意重测间隔的时间。间隔时间太短,被试对测试题记忆犹新,必然会造成假性高相关;而间隔时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。重测间隔时间的长短,必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔的时间应该长一些。例如,对于人格测验,重测间隔在两周到6个月之间比较合适。

在进行重测信度的评估时,还应注意以下两个重要问题:

1)重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。例如,应试者智力的发展与能力的提高,不是重测信度考虑的因素。由于这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。

2)不同的行为受随机误差影响不同。例如,手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。

重测信度的前提假设是每个应试者对前一次测验的遗忘程度相同,而且在重测间隔期间没有学过与测量有关的其他材料,或者说每人所学习的程度相同。这个假设在现实生活中不大容易完全满足。另外,有些解决问题型测验不宜采用重测信度,因为应试者一旦知道答案就不容易忘记,从而造成假性高相关。只有不大容易受重复影响的测验,如感觉-运动测验或人格测验,比较适合用重测法计算信度系数。

二、复本信度

复本信度(alternative-form reliability)又称等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一群体,然后求得应试者在这两个测验上得分的相关系数(积差相关)。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。例如,同样是测量数学运算能力的测验,如果一个测验复本侧重于考核加减法的运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会太高,即复本信度低。测验的复本信度低,说明必定有一项测验复本的取样有问题。复本信度考虑的就是这种内容取样误差的影响问题。

复本信度也考虑两个复本实施的时间间隔。如果两个复本几乎是在同一时间实施的,相关系数所反映的才是不同复本的关系,而不掺有时间的影响。在实际工作中,为了避免施测顺序效应,常常是一半被试先做其中一个复本,而另一半被试先做另一个复本。

在有些情况下,还利用不同的时间来施测两个等值的测验,这时所求得的是重测复本信度,或称稳定和等值系数。重测复本信度既考虑了测验时间上的稳定性,也考虑了不同题目样本(即复本)反应的一致性,因而是更为严格的信度考察方法,也是应用较为广泛的方法。

复本信度的主要优点在于:

●能够避免重测信度的一些问题,如记忆效果、练习效应等;

●适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;

●减少了辅导或作弊的可能性。

然而,它也存在局限性:

●如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;

●有些测验的性质会由于重复而发生改变,例如某些问题解决型的测验,如果掌握了解题原则,就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强;

●有些测验很难找到合适的复本。

三、内部一致性信度

重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度(consistency reliability)系数主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

1.分半信度

分半信度(split-half reliability)系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。采用这种方法估计信度系数只需要一种测验形式,实施一次测验,因而较为简单。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被试在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半测验内容取样的一致性程度,因而也称为内部一致性信度系数。

采用分半法计算分半信度,首先要解决的问题是如何将测验分成可比较的两部分。大部分测验的前半部分和后半部分是不可以比较的,因为这样两半的题目难度水平可能不同,而且准备状态、练习、疲劳、厌倦等因素的作用在测验开始部分和结束部分也有所不同。一般采用奇偶分半的方法,即将测验按奇数题和偶数题分成两半。在将测验分半时,还应认真处理那些前后有牵连的题目,例如一组题目都与某段材料或某个图画有关,那么整个这组题目应该分在同一半;如果将这组题目分成两半,有可能高估测验的信度。

计算分半信度系数仍可以采用常用的积差相关方法。但是,这种相关系数实际上只是半个测验的相关系数。例如100道题的测验,两半的分数实际上只是从50道题得到的。而在重测和复本信度中,分数是从所有100题中得到的。我们已经知道,在其他条件相等的情况下,测验愈长,信度系数愈高。因此分半法经常会低估信度,必须进行修正。常用的修正公式是斯皮尔曼-布朗公式。斯皮尔曼-布朗公式可以估计增长或缩短一个测验对其信度系数的影响,用这个公式进行修正的前提条件为:两半测验的方差相等。

分半法中的斯皮尔曼-布朗修正公式为:

rxx(7.2)

其中,rhh为两半测验的相关系数,rxx为估计或修正后的信度。

当两半测验的方差不同时,应采用卢伦公式或弗朗那根公式进行修正。

卢伦公式只要求将被试在两半测验的分数之差的方差(Sd2)和测验总分的方差(SX2)代入如下公式即可直接计算分半信度:

rxx1-(7.3)

弗朗那根公式也可直接计算分半信度:

rxx21-(7.4)

其中,Sa2与Sb2为两个分测验分数的方差;SX2为总分方差。

2.同质性信度

同质性是指所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。例如,“1+1?”和“2+2?”这两个简单加法题可以说是高度同质性的。而“5+7?”和上面的题目就有些不同质,因为涉及进位加法。

同质性是保证测验只测量单一特质的必要条件。如果同质性差,则测验可能混淆了不同的内容,其结果就无从判断究竟反映了被测者的什么特征。例如,在人格测验中,乐观情绪特质和外向特质是两个比较容易混淆的内容,这就要求测量工具设计时能找到相应题目把它们区分开来。又比如,在考察管理技能时,预测和决策、监督与控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混淆起来,导致结论错误和用人失误。

同质性信度(homogeneity reliability)是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。在某些情况下,同质性也可以作为效度的一种指标。

所有题目都应该保证只测量一种特质或内容。如果需要在一个测验中测量不同的内容,就应该将测验设计为几个分测验,每个分测验测量一种内容。例如,16PF人格测验就是包含16个分量表的测验,每个分量表只对一种人格特质进行测量。同质性的测验,其结果的解释较为明确。例如,在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明应试者到底哪种能力不足。

常用的同质性信度计算方法是库德-理查逊估计方法。计算公式有库德-理查逊20号公式(简称KR20)和21号公式(KR21)。下面是KR20公式:

rKR201-(7.5)

其中,n为测验题目数;pi为通过i题(即对i题作出正确反应)的人数

比例;qi为未通过该题的人数比例,pi+qi1;n

i1piqi为所有题目答对与答错人数百分比乘积的总和。

由于在进行项目分析时,要求算出各个题目的难度p,因此使用该公式非常简便。在各试题难度相同或接近的情况下,还可以采用计算更为简便的21号公式,但当试题难度相差悬殊时,采用KR21号公式有低估信度系数的可能。

rKR211-1-(7.6)

其中,p为试题平均难度;q1-p;SX2为测验总分的方差;为测验总分的平均数。

库德-理查逊公式计算出的信度实际上是所有可能的分半方法所求分半信度的平均数。但是库德-理查逊信度与分半信度不同,一般的分半信度建立在等值的两半测验基础之上,而库德-理查逊方法则不然。一般情况下,使用库德-理查逊方法估计的信度比分半信度要低。

同质性信度和分半信度虽然都是内部一致性信度,但两者之间存在差别。例如,假设有一项50题的测验,有25种题目,如第1题和第2题为词汇题,第3题和第4题为算术题,第5题和第6题为空间推理题,等等,如果分成奇偶两半,其得分的相关系数必然很高,但其同质性实际上是很低的,因为被试在这50道题上的得分一致性不会很高。显而易见,使用库德-理查逊方法估计的信度要低于分半信度,后者可作为测验同质性的粗略指标。

库德-理查逊方法适用于二分法计分的项目,但有许多测验项目采用多重计分,例如人格测验、态度量表等,被试的反应常常分为“经常”、“有时”、“偶尔”、“从不”等各种等级,分数也因而是多级的。这种类型的测验,经常采用克伦巴赫α系数来表示内部一致性的高低:

1-(7.7)

其中,Si2为每一项目的方差;SX2为测验总分方差。

例如,某态度量表共5题,被试在各题上得分的方差分别为0.80、0.81、0.79、0.78、0.82,测验总分的方差为15.00,因此测验的α系数为:

α1-0.92

四、评分者信度

在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情景模拟测验等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此也有必要考虑评分者信度。

评分者信度(raters reliability)是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。

如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。其公式为:

WK2(N3-N)

K2(N3-N)(7.8)

其中,K为评分者人数;N为被评定的人数或答卷数;S为Ri离开Ri的离均差平方和;Ri为每一个对象被评等级。

例如,有4名评分者,对6份答案进行评分,所评等级如下:

可求得:

Ri19+11+6+8+17+2384

Ri2192+112+62+82+172+2321400

S1400-842÷6224

W×42×(63-6)0.80

作为本节的结束,我们将本节中讨论的几种信度类型及其特点总结于表7.2和表7.3中以供参考:

一般情况下,间隔施测的复本信度(即重测复本信度)值最低;修正后的分半信度值最高。

第三节 影响信度的因素

测量的信度受各种因素的影响,在解释信度系数时要充分考虑这些因素。另外,在编制测验和测验的施测过程中要力图避免这些影响因素。总的来说,对测验的信度造成影响的因素主要有:样本团体的性质、测验的长度、测验难度。

一、样本团体的性质

样本团体的性质对信度的影响主要有以下三个方面:

1.样本团体的分数分布

任何以相关系数表示的信度系数都会受样本团体分数分布的影响。分数分布越广,信度系数就相对越高,分数分布越窄,信度系数就会越低。例如,假设有A、B两项测验,其中A测验的样本团体的分数分布为20~90分,而B测验的样本团体的分数分布在80~90分之间。显然,在第二次重测时,相同的分数起伏对A、B这两项测验的影响不同。在测验A中,被试的成绩波动1、2分,分数的相对位置的变化不大。而在测验B中,被试的成绩波动1、2分就可能导致其分数的相对位置发生很大的变化。因此,测验A的重测信度必然高于测验B。

2.样本团体的异质性

信度系数还会受到样本团体异质性的影响。一般来说,取样团体的异质性越大,信度系数就相对越高。例如,有一项测验,分别施测于A、B两组被试。其中A组被试较为异质(如各年级的学生都有),其分数分布为20~90分,而B组被试同质程度较高(都为二年级学生),其分数分布为80~90分。显然,由于A组被试的分数分布比B组要广得多,按照上面所提到的分数分布与信度的关系,我们可以推知,测验以A组被试为样本团体得到的信度,要比采用B组被试得到的信度高。所以说,同质性样本团体的分数分布窄,得到的信度低,而异质性样本团体的分数分布广,得到的信度较高。

在现实情况下,对被试团体的选择不可能完全理想。往往会因为团体过于同质或过于异质而出现信度被低估或高估的情况。这种情况下,可以采用下面的公式对求出的信度进行修正:

r?'XX(7.9)

其中,r?'XX为估计的信度;rXX为取样的信度;SX为取样团体的标准差;S?'X为估计团体(取样的总体)的标准差。

3.不同团体间能力水平的差异

测验所施测的团体的平均能力水平的不同也会对信度产生影响。例如,在斯坦福-比奈量表中,不同年龄组的信度从0.83~0.98不等。因为对于年幼的团体,他们的平均能力水平低,他们的分数基本上是凭猜测获得的,其靠猜测的测验结果总是不会很稳定的,所以信度值较低。这种情况导致的信度偏差,很难用一般的统计公式来校正,只能通过对各种年龄及能力水平的检验来确定。

二、测验的长度

信度还会受测验长度(即题目的多少)的影响。一般来说,测验越长,信度值越高。一方面,测验越长,题目取样或内容取样就越充分,结果就越可靠。举一个极端的例子,如果词汇量的测验中只包含一个试题,仅依据应试者对一个单词的记忆,来确定应试者的词汇量的大小,其结果必定是非常不可靠的。另一方面,较长的测验也不容易受到猜测的影响。猜对一个题目的概率很高,但如果测验足够长,猜对所有的题目的概率就微乎其微了。

通过下面的斯皮尔曼-布朗公式,可以估计增长或缩短一个测验对其信度系数的影响有多大:

rnn(7.10)

其中,rnn为估计或修正后的信度;rtt为实得的相关系数;n为测验增长或缩短的倍数。

在增加测验长度的时候要注意:只有所增加的题目和原题目在性质上相同时,才能达到提高信度的效果。

三、测验的难度

测验的难度也会对信度产生影响。如果一个测验的难度太低,测验分数会非常集中并聚在高分端,即出现天花板效应,或者难度太大,所有分数都集中在低分端,出现地板效应,都会使测量到的分数分布太窄,导致信度降低。

只有当测验的难度水平能够使测验分数分布范围最大时,测验的信度才会比较理想。一般来说,当所有被试的平均分为测验总分的一半,并且分数从零分到满分分布时,测量的信度最高。从这里我们也可以看到测验的长度和难度会共同起作用。如果只增加测验长度,但没有控制难度,使测验分数不能充分散开,那么增加长度的努力也会变成徒劳。

重要概念和术语

系统误差

随机误差

信度系数

重测信度

复本信度

内部一致性信度

分半信度

同质性信度

评分者信度

讨论题

1.什么是测量的系统误差和随机误差?它们和测量工具的信度有什么关系?

2.重测信度和复本信度考察的内容有区别吗?

3.什么是内部一致性信度?它的意义是什么?

4.用分半法求信度为什么通常要进行修正?

5.比较同质性信度和分半信度。

6.样本团体的性质对测验的信度有什么影响?

7.如何理解测验长度和难度对测验信度的影响?

8.对不同内容的测验的信度的要求一样吗?为什么?

9.它对于考虑人事工作中的测量有什么启发?对不同内容的测量在选取信度时有什么区别吗?

10.如果一个部门的三个经理分别给部门的几十位员工考核,你认为应当怎样检查三位评分者评定的可靠性?