书城管理实用人事测量:简明版
7761500000010

第10章 人事测量的关键技术:项目分析

项目分析是指根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目好坏、对题目进行筛选的程序和方法。掌握项目分析的概念和方法,能够帮助测验使用者评价现有的各种测验。

项目分析可以分为定性分析和定量分析。定性分析主要考虑内容效度,即题目表达的恰当性和有效性等方面;而定量分析主要考察题目难度和鉴别度是否适当。由于测验的信度、效度最终都依赖于题目的上述性质,所以通过项目分析,对测验题目进行选择和修改,还可以提高测验的信度和效度。

第一节 测量的难度分析

难度,通俗地说就是指题目的难易程度。对能力测验来说,难度就是指测验题目是难还是容易,这种测验往往有一个反映难度水平的指标。对于非能力测验(如人格测验),难度是指测验题目的“通俗性”,即测验题目是否容易被人看懂和回答,往往以取自相同总体的样本中,能在答案范围内回答该题的人数指标来表示。难度分析(difficultyanalysis),顾名思义,就是对题目的难度进行估计以确定适宜的难度。由于非能力测验的难度分析相对简单,而且往往可以通过测验编制者的经验来把握,所以下面不对非能力测验的难度分析作具体介绍,而主要介绍能力测验的难度分析,并与非能力测验的难度分析相对参照。

一、通过率

难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示:

P×100%(9.1)

其中,P为试题难度;N为全体被试人数;R为答对或通过该题的人数。

以通过率表示难度时,通过人数越多(即P值越大),题目越容易,难度越低;P值越小,题目越难。所以有些人也将P值称为易度。

1.难度的计算

若试题为二分法反应-计分项目(即答对给1分,答错记0分),P值可以直接采用公式9.1计算。

当被试人数较多时,则可以根据测验总成绩将被试分成三组:分数最高的27%被试为高分组(NH),分数最低的27%的被试为低分组(NL),中间46%的被试为中间组。分别计算高分组和低分组的通过率,再求试题的难度。

P

或P+(9.2)

公式中,P代表难度;PH和PL分别代表高分组和低分组通过率;RH和RL分别代表高分组和低分组通过该题的人数;NH和NL分别代表高分组和低分组的人数。

例如:在100名被试中,选为高分组和低分组的被试各有27人,其中高分组有20人答对第一题,低分组有10人答对第一题,则第一题的难度为:

P+0.56

由于在下面将谈到鉴别度分析时,仍需用到高分组和低分组的百分比,所以这个求项目难度的方法较为常用。

2.选择题的难度修正

在采用多项选择题的测验中,由于猜测的因素,被试的得分可能会比被试的真实得分要高。并且,选项的数目越小,机遇的作用越大,被试的能力被夸大的可能性就越大,就越不能真正反映测验的难度。为了平衡选项数目对难度的影响,吉尔福德提出了一个难度的校正公式:

CP(9.3)

公式中,CP为校正后的通过率;P为实际得到的通过率;K为选项的数目。

假定某题有75%的被试通过,如果该题有5个选项,则校正后通过率实为CP0.69.同样可以得知,在有4个选项时,CP0.67;是非题时(2个选项),CP0.50.当测验汇总试题的选项数目不同时,使用这个公式计算测验的难度较为适合。从公式不难看出,当K很大时,即选项数目很大、猜测概率很小时,CP的值就会很接近P值。

二、等距量表的难度指数

以通过率作为难度指标,实际上是以顺序量表来表示难度,即它仅仅能指出题目难度的顺序或相对难度的高低。例如有3个试题,第1、2、3题通过的人数分别为全体被试的60%、40%、20%,我们可以判定三个项目中,第1题最容易,第3题最难。但是虽然它们的相差数值相同(20%),我们却无法确定题目1与2之间的难度差别是否等于题目2和3之间的难度差别。在需要比较题目差异的情况下,就需要计算等距量表的难度指标。

如果被试的得分呈正态分布,则可以根据正态曲线表,将试题的难度转换成具有相等单位的等距量表,即分数。例如,我们知道,在正态分布情形下,平均数之上或之下一个标准差的距离约占全体人数的34%。因此,如果在一个测验中,某题A通过率为84%(P0.84),可以知道该题的难度为-1σ;如果某题B的通过人数只有16%,则这个题目的难度为+1σ;如果某题C刚好有50%的被试通过,那该题的难度为0.显然,较难的题目难度为正值,简单的题目为负值。根据正态曲线表,我们可以查出任何通过率值相对的σ值。

以分数表示难度,也有不便之处,主要是有小数点和正负符号,使结果不易处理。因此通常需要转换成另一种单位的等距量表,其中较为常用的是美国教育测验服务机构采用的难度指标:

Δ13+4X(9.4)

公式中,Δ(希腊字母delta)为正态化等距难度值;13为平均数;4为标准差的单位,X为正态化Z分数值。

例如,上例中,题A的通过率为0.84,则X值为-1σ,则Δ13+4(-1)9;题B的难度值为0.16,X为+1σ,Δ13+4(+1)17;题C,Δ13.如果一个题目几乎所有被试都通过(99.8%),则其X值为-3σ,Δ1;如果某题答对的人数极少(0.13%),则X值为+3σ,Δ25.因此,Δ量表是以25为上限,1为下限的等距量表,Δ值越大,则难度越高,Δ值越小,难度越低。

对大多数测验而言,只要算出P值即可,但如果要作精确的统计分析,则需要计算出具有等距性质的Δ值。

三、测验难度的确定

(一)题目难度水平的确定

题目难度水平究竟多高合适,依赖于测验的目的、性质和题目形式。

1.从测验的目的考虑

许多测验都希望能准确测量个体间的差异。如果在某题上,被试全答对或全答错,则该题无法提供个别差异的信息,即不能把不同人区别开来。P值越接近于0或接近于1,越无法区分被试间能力的差异。相反,P值越接近于0.50,区别力越高。道理很简单,如果100人中有50人通过,则共会有2500个配对比较信息(50×502500);如果30人通过,则有2100个比较信息(30×702100);而90人通过时只有900个比较信息(90×10900)。

为了使测验具有更大的区别力,应选择难度在0.50左右的试题比较合适。但是在实际工作中并非如此简单。如果难度都是0.50,则试题间的相关将有偏高趋势。举一个极端例子,假定某测验各试题间相关均为1.00,题目难度均为0.50,那么有可能使50%的被试答对所有题目得满分,另外50%的被试无法通过任何试题,而全部得0分。这样仍起不到最大限度区分所有被试的效果。所以在选择题目时,最好使试题的平均难度接近0.50,而各题难度在0.50±0.20之间。

2.从测验的作用考虑

对于选拔用的人事测验,应该尽量使难度值接近录取率。比如,测验若是要辨别或选择少量最优秀的应试者,测验就应该有比较高的难度,P值应该较小。如果录取率为5%,那么题目难度最好也确定为5%,使得恰好能使5%的优秀人选通过;假如测验是要筛除出少数较差的被试,则题目P值应该高,使得只有少数应试者不能通过。

3.从题目的形式考虑

对于选择题而言,P值一般应大于概率水平。P值等于概率,说明应试者可纯粹凭猜测回答。P值比概率还小,说明题目有严重质量问题,即被试即使靠猜,或者说不用猜,都能答出题目。公式9.3是选择题难度修正公式,我们知道真正的难度为0.50时最合适(CP1/2),那么公式9.3可以移项转换成:

P(9.5)

它表示对于具有某种选项数(K)的项目,其较为理想的应得难度值。

对于是非题而言,其难度值应该为0.75最为合适(P0.75);而对于四择一题目,其难度值约为0.63时最为合适(P0.63)。

(二)测验难度水平的确定

整个测验的难度取决于组成测验的各个试题的难度。整个测验难度水平的确定,需要根据测验分数的分布作出。由于众人的心理特性基本上是呈正态分布的,因此如果被试样本具有代表性,则测验结果也应符合正态分布的模型。

如果所获得的分数分布不是正态的,A或B的情形,得分多数偏高或偏低,则为偏态分布。偏态分布又有“正偏态分布”和“负偏态分布”两种。A为正偏态分布,即大多数得分集中在低分端,说明编制的测验对于所研究的样本团体来说偏难,因此应该增加足够数量的较容易的项目。B为负偏态分布,即大多数得分集中在高分端,说明测验过易,应该增加足够数量的有较高难度的项目。

当然,也不是所有测验都要求测验分数呈正态分布。有些效标参照测验,出现偏态分布是允许的。

第二节 测量的项目鉴别度分析

项目鉴别度(item discrimination)是指测验项目对于所测查的心理特性的鉴别能力和区分程度。鉴别度分析可以从项目效度和内部一致性两方面着手。

一、项目效度分析

项目效度分析(item validity analysis)主要以效标为依据,考察被试在每个试题上的反应与其在效标上表现的相关程度,即每个试题所测查的行为是否反映了被试在效标上的表现。在评价试题在测量个体的能力和人格特征方面的效度时,必须选择衡量这些特征的外在标准,这个标准即效标。例如,如果测验是预测被试在工作中的表现,则可以选择工作表现指标(例如上级和同事的评价等)作为效标。通常,鉴别度分析的指标有相关系数和鉴别度指数两种。

1.相关系数

这里的相关系数指项目通过率与效标成绩的相关系数。相关越高,表明项目越具有区分的功能。这一相关系数的计算方法有很多,根据不同的情况采用不同的计算方法。下面列举了通常的几种情况和常用公式:

1)通常情况下,项目的分数以二分法计分,如答对计1分,答错计0分,而效标成绩可能是连续的分数。求此二者之间的相关,应采用点二列相关系数:

rpb(9.6)

公式中,p代表通过该题被试的平均效标成绩;q代表未通过该题的被试的平均效标成绩;p代表通过该题的人数百分比;q为未通过该题的人数百分比;St代表全体被试的效标成绩的标准差。

2)如果假定被试在试题上的反应也是正态分布,只是由于人为方法分成通过或不通过两种情形,则可以采用二列相关公式:

rb(9.7)

公式中,y是正态分布下答对百分比(p)所在位置的曲线的纵轴值。

3)在有些情况下,对没有通过某题被试的效标成绩不感兴趣时,则可用总人数的结果进行计算,公式9.6或9.7都可以转换成:

rpb(9.8)

rb·(9.9)

公式中,t为所有被试的平均效标成绩。

4)当题目与效标均是人为二分的项目时,可以得到四个分数类别:即题目、效标均通过的A类;题目通过、效标不通过的B类;题目不通过、效标通过的C类,和题目、效标均不通过的D类。计算这种相关常采用皮尔逊余弦π公式,所得相关为四分相关系数(rt):

rtcos÷BC(9.10)

公式中,A、B、C、D分别代表每类包含的次数。查三角函数表,可得余弦相关系数。

5)此外,当两个变量都是二分变量时,亦可计算相关系数:

事实上,用来表示项目效度系数的方法至少有50种,虽然方法不同,但所得结果基本上是一致的。至于采用何种方法计算最佳,以方便为标准。

题目效度系数越高,对预测效标越有用。效度系数高于0.20的题目一般可以保留;当效度系数接近于零或负数,则应该作重大修改或删除。

2.鉴别度指数

另外一种衡量项目鉴别度的简便方法,即鉴别度指数(discrimination index),它是比较效标得分高和得分低的两组被试在项目上通过率上的差值:

D PH-PL

当效标成绩是连续变量时,可从分数分布的两端各选择27%的被试组成高、低分组,再分别计算两组每道题目上各自的通过率,二者之差就是各题目的鉴别度指数D。

D值是鉴别题目测量效标有效性的指标,D值越高,题目越有效。当D1.00时,高分组全部通过,低分组全部失败。当D0时,则高分组和低分组通过的人数相同。在一般情况下,D值很难等于1.00,而且也没有必要甚至不能追求等于1.00,因为这种情况往往只是题目分数呈现绝对的双峰分布时才会出现。这时,各题目的同质性也会过高。所以,一般情况下,只要所得D值大于0.30时,题目就可以接受了。

鉴别度指数D与前面提到的项目分析指标rb、rpb、rt,虽然单位、计算公式和数值不同,但其结果和结论却有很高的正相关,因此D可作为上述系数的简便替代方法。目前采用的项目分析法,常用鉴别度指数为依据。

另外,鉴别度D值和难度值P也不是相互独立的指标。当P值为1.00或0时,则高分组和低分组通过的百分比完全相同,因此D值必然为0;而P值为0.50时,则可能是高分组全部通过,低分组全部失败,D值可能达到1.0.因此难度P值处于中等水平时,D值可以达到最大。

3.高、低分组的划分

在题目难度和鉴别度分析中,多次提到要划分高分组和低分组。一般情况下,这一分组是根据效标成绩或总成绩将被试排队,从高分端取27%的被试组成高分组,从低分端取27%的被试作为低分组,其余的46%被试可以不作分析。当效标分数分布是正态分布时,这种划分标准很合适。但是,当分数分布较正态分布平坦时,高、低分组各占比率应该有所调整,一般来说应该高于27%,大约33%较为合适。一般高、低分组各占比率在25%~33%之间都可以。如果比率太小,则所选出来的两组过于极端,更容易有明显区别,故可能是人为夸大了题目的区分力。当样本团体过小时,划分的比例可以适当提高,甚至用50%的标准,即把上下两半被试作为高分组和低分组都是可以的。

二、内部一致性分析

1.项目和总分的相关

有时在进行项目分析时,难以找到合适的效标,这时可以采用测验的总分代替效标,考察每个试题和总分的一致性,即做项目-总分分析(item-total correlation analysis)。这种分析反映的是测验各项目所测查内容的一致性,而不能反映题目对效标的有效性。

内部一致性的计算方法与项目效度相同,只不过用总分替代外在效标成绩。第一种方法是求试题得分与总分的相关程度,仍然可以采用前述的点列相关和二列相关系数,以表示内部一致性高低。第二种方法是比较总分高低两组在每道题上通过率的差异,求得鉴别度指数高低。D值越大,即表示该题能对总分高低不同的被试作出区别。

把项目和总分相关作为项目鉴别度的指标需要满足一个条件,那就是要求每个项目的方差都相同,或者是测验项目较多,各题所贡献的方差比例都较小。因为在计算项目与总分的相关时,有一个局部和总体的相关问题。在总分方差中实际包含有各个试题的方差,这本身就有可能造成某种相关。如果各个题目对总体方差的贡献差异显著,会造成某些题目与总分高度相关,一些题目相关却很低的情况,而这种相关差异是由题目方差不同造成的。

如果不具备上面的条件,最好是计算每题与所有其他项目合成分数之间的相关。这个合成分数可以采用公式9.12进行估计:

rpq(9.12)

其中,rpq为某一项目与所有其他项目合成分的相关;St为总分的标准差;rtp为某一项目与测验总分的相关;Sp为项目的标准差。

三、项目效度与内部一致性的比较

项目效度和内部一致性分析虽然步骤相同,但意义却有差别。在筛选试题时,一定要了解这两种分析方法的意义和性质,这样才能正确地筛选题目,使测验达到预期效果。

项目效度代表题目与外在效标的关系,内部一致性则更多地代表题目与总分的关系。有较高的内部一致性的题目,并不一定与外在效标有很高相关。同样,部分具有很高项目效度的题目,与测验总分的相关并不理想。例如,某项能力倾向测验由80道逻辑推理题和20道数量分析题组成。如果以内部一致性作指标,则由于逻辑题在总分中所占比重较大,结果显然是逻辑题与总分的相关要高。但是如果这项能力倾向测验既想考察应试者的逻辑推理能力,又需要考察其数量分析能力,那么只选择内部一致性高的题目,就会造成所选题目全是逻辑题,改变了测验的初衷。因此,项目效度和内部一致性有时候是有矛盾的,我们在进行分析时一定要全面地考虑问题。

那么究竟选择何种鉴别度指标作为选择题目的依据更为合适呢?一般根据测验的目的确定。如果测验是预测性测验,则应该多采用项目效度较高的试题,这样,各个试题对预测外在效标都有较大的贡献;如果测验要求同质,即希望各个试题都测量同一特质,则应该选择内部一致性较高的题目。有时这两种方法也结合使用。如果所测量的心理变量很复杂,不是单纯的一种特质时,则往往采用分测验或分量表的方法,即各个分测验分别测量不同的内容,要求各个分测验与外在效标有很高的相关,但各个分测验之间彼此的相关很低,同时分测验内部各个试题彼此的相关要求很高。这种方法能够保证每个分测验是在测量某一特质,而这个特质与效标有关,而且是与其他特质不同的。换句话说,当测验所预测的效标具有多重特质时,则宜选取项目效度高的试题(而不必追求总体内部一致性);反之,如果测验相当单纯(如仅测词汇量),而且也没有适当的外在效标,则宜选择内部一致性较高的题目。

四、鉴别度的标准

鉴别度的值具有相对性,采用不同的计算方法或不同的分组标准所得到的鉴别度的值是不同的。另外,鉴别度还与受测团体的同质程度有关;所测团体同质性越强,鉴别度就越小。但若施测于较为异质的团体,则鉴别度就有可能提高。假设有一个心理学知识测验,施测于心理系学生(团体较同质),则鉴别力可能较小,但若施测于一般大学生,鉴别度可能就较大。

由于鉴别度的相对性,很难确定一个筛选项目的绝对标准。因为除了考虑采用哪种区分度指标,以及样本大小和特性外,还要考虑测验的目的、性质和功能。就成就测验而言,一般要求项目和总分的相关达到0.20以上,而鉴别度指数希望达到0.15~0.20以上。一般心理测验,D值在0.30以上就可以接受了。美国测验专家伊贝尔(L。Ebel)提出了鉴别度指数的大致标准作为参考。

第三节 测量的诱答分析

对于包含选择题的测验,还需要进行各个题目的诱答分析。诱答就是指题目中除正确选项外的其他错误选项。测验题目的诱答设计得如何,直接关系到测验题目的好坏、测验的难度、鉴别力以及测验的信度和效度。诱答分析(distracter analysis)是指系统考察测试题目,以诊断题目是否符合一系列测量学要求的过程,主要目的在于避免猜测的影响,使题目真正反映应试者的真实情况。

一、好诱答的标准

诱答分析通常针对能力测验。对于能力测验而言,其测验目的无非是对能力强和能力弱的被试进行区别。这就要求测验题目对于那些能力强、掌握正确知识的被试来说有更大把握选择到正确答案,而那些能力差、没有掌握充分知识的被试往往选择错误答案。另外,对于一个完美的诱答设计,应该使不知道正确答案的被试对题目各个选项随机选择,每个选项被不知道答案的被试选择的概率相同。例如,对于一个四择一的选择题,每个项目被不知道答案的被试选择的概率都应该是25%。

然而,在现实中很难使诱答的设计达到完美。总是有一些选项相对于其他选项来说更容易被排除。有些被试虽然没有掌握解题的完全的知识,但他们能够凭借部分的知识排除不可能的选项,使得猜测正确的机率变大。这就是以选择题为形式的测验所很难避免的猜测问题。而这种猜测的存在使得测验的鉴别度降低,直接影响测验的信度和效度。如何尽量减少猜测的影响,使每个题目真正反映被试的能力,就是诱答分析所要解决的问题。

对于以选择题为形式的人格测验来说,并没有“诱答”之说。但是对各个选项的分析也是必要的。在人格测验,尤其在是自陈量表的人格测验中,选项的设计要力求避免社会赞许倾向。如果测验中出现社会赞许倾向高的选项,具有不同人格特点的被试都会倾向于选择这个选项,测验就无法达到测量个体差异、反映个体真实情况的目的。因此,在人格测验中,选项设计不好同样会导致测验的鉴别力和效度的降低。

对于人格测验中的选项分析,并没有什么既定的方法。一般来说,可以通过统计选择各个选项的人数百分数来估计,如果某个选项总是被大多数被试选取,这个选项就有可能存在问题。在人格测验中,要力求使每个选项被选择的比例大体相同,或遵从某种合乎构想的分布规律(如正态分布),使不同人格特点的被试选择不同的选项。

至于以是非题为形式的测验,可以将是非题看成只有两个选项的选择题,同样可以进行诱答分析。

二、诱答分析的方法

首先,我们来看一个实例,这是一项能力测验中的一个题目:

例:适合关系式 |x-a|≤b(b>0)的点的集合是:

A。-a≤x≤a B。a-b≤x≤a+b

C。-b≤x≤b D。x≥a+b

答案:B。

选择每个选项的人数为:

A。12B。46C。12D。26

选择每个选项的人数百分比为:

A。12.5%B。47.9%C。12.5%D。27.1%

对题目的诱答是否合适,可以先用一种简单的方法进行大致估计。这种方法是观测该题目的鉴别度指数D值。如果D值为正,往往意味着高分组倾向于选择正确答案,而低分组倾向于选择诱答;D值的大小表明了这种倾向性的程度。如果值D为负,则意味着高分组倾向于选择诱答,表明这个题目的诱答设计不合理,需要修改。但是,这样粗略的估计无法告诉我们到底哪个诱答设计不合理,还需要通过进一步的精确分析。

进行诱答分析的最一般的方法,就是分别计算每个选项被作为正确答案选择的次数。如上例所示,计算每个选项被选择的人数和百分比。理想的诱答设计应该作到选择每个诱答选项的百分比相同,这个理想百分比值为:

每个诱答被选择的理想百分比答错的百分比/诱答数目

在上例中应为17.3%。我们看到,A、C选项的百分比低于该标准,D选项的百分比高于该标准。这说明这三个诱答的设计不很合理。A、C相对来说较容易被有经验的猜测者排除,因为题目上的关系式包含了a、b这两个变量,而诱答选项A、C中却只出现了其中的一个变量,一定不是正确答案。由于选项A、C很容易被排除,使得选项B、D被选择的概率提高,被试猜测正确的可能性也就增大了。这样的诱答设计无疑会使没有掌握正确知识的被试猜对答案,致使测验的鉴别力降低。这样的题目就应该重新设计诱答。

在设计诱答时,要注意避免两种情况:第一,不要出现过于容易被排除的诱答,这会使不知道正确答案的被试猜测正确的概率提高;第二,不要出现过于似真的选项,即欺骗性诱答。如果被试掌握了题目所要考察的全部知识仍很难对正确答案与某一诱答进行区分,那么该诱答就是欺骗性诱答(deceiving distracter)。欺骗性诱答的出现使题目实际考察了目标之外的能力,使测验的效度降低。

第四节 其他类型的项目分析及要点

一、速度测验的项目分析

有些测验考察的是被试解决问题的速度。这样的测验叫速度测验(speed-based test)。速度测验往往有很多题目,一般很少有被试能够在限定时间内完成所有的题目。大多数能力测验都限定了完成时间,不是所有被试都能在限定时间内完成所有项目。虽然这些测验不是速度测验,但速度也是影响成绩的一个重要因素。

速度测验的项目分析不能直接采用上面提到的各种方法。因为往往只有一部分被试回答了测验较靠后的题目,这些题目一般都不太难,只是被试的答题速度太慢,没有时间回答。如果按通常的方法,用通过率作为项目分析的指标,势必会造成对这些题目的难度过高估计。同样,由于能够做后面题目的被试的能力往往比其他被试要高,以鉴别度指数(高分组通过率减低分组通过率)来分析往往会造成对后面题目的鉴别度高估的现象。看来,通常的项目分析的方法不能用于速度测验。

对于速度测验的项目分析,有人提出两种方法来分析。第一种方法是对于那些不能被所有被试完成的题目只分析完成该题目的被试的成绩。例如,一项速度测验共有100道题,试测的100名被试中只有80名完成了该测验的第78题,其中回答正确的被试为72名。那么按上面的方法计算,该测验的第78题的难度指数为:72/800.9.但这种方法也有不足之处。首先,如果假定能够完成第78题的被试的能力通常较高,那么这部分被试在该题上的通过率必定较高,这就造成了对该题难度的低估。其次,采用这种方法,越处于测验后部的题目其数据样本越小,统计出的难度指数就越不稳定。另外,由于各个题目所采用的样本不同,无法进行前后各题目之间的难度比较。

第二种方法是延长试测时间,使所有被试都能完成所有题目,然后对所有被试的成绩进行分析。这种方法适用于那些不以速度作为测试目的,但速度影响测试结果的难度测验。但如果测量目标中包含速度因素,这种方法就不适合了。总之,对于速度测验的项目分析尚没有完善的解决办法。

解题速度快慢也是能力大小一种表现,所以有些能力测验中往往包含速度因素,不是所有被试都能完成全部题目。对于这种能力测验的项目分析,要注意以下两点:第一,将试题按估计的难度由易到难的顺序排列,这样即使延长时间让能力差的被试完成后面题目,他们也往往会回答错误;第二,在试测时,不妨适当延长答题时间,尽量让所有被试完成全部题目。

二、效标参照测验的项目分析

前面所谈到的项目分析方法通常只适用于常模参照的测验,而对效标参照测验并不适合,如成就测验。在考察培训效果时,往往会用到成就测验。例如,公司举办了一个培训班,对刚进入企业的新员工进行培训。培训结束后,人事经理想要了解培训班的效果如何时,往往会对经过培训的人员进行一次测试,看员工是否比培训前有所进步。这时,会遇到一个问题,这次测试的题目是否能够真正体现对培训效果的考察。如果测试的题目测试了不属于培训内容的能力,这项测验就不成功。这种情况下,即便该测验能够对能力高低的员工进行很好的区分,也不能采纳,因为这项测验内容没有很好地反映它的效标——培训任务,这就是效标参照测验与常模参照测验的区别。

对效标参照测验的项目分析不能采用上述方法。因为效标参照测验的难度完全取决于效标的难度。例如,如果培训内容很难,那么对培训效果进行考察的测验也必定较难;反之,如果培训内容本身很简单,那么测验也必定简单。另外,对于效标参照测验,鉴别度不能说明问题。例如,当培训内容十分简单时,测验的题目也必定简单,这种情况下可能所有的被试都能答对题目,即试题的鉴别度为零。但是,我们不能由此得出该题不好的结论,因为试题实际上的确考察了培训内容,能够帮助人事经理了解培训效果。

那么,如何对效标参照测验进行项目分析呢?有人用对前后两次施测结果进行比较的方法来确定测验题目的好坏。例如,在培训之前,对所有人员施测该测验。在培训结束之后再次施测。如果某一题目在培训后的平均得分高于培训前,则说明该题目反映了培训的内容和效果,是一个好的试题。这种方法应用较普遍,但也存在一些问题。首先,前后两次施测需要花费较多精力和时间;其次,存在重复测验引起练习效应的问题;另外,如果培训后的成绩等于或低于培训前,不能说明该试题不好,有可能是教师的教学效果不佳。

有些研究者用“教育敏感性”指标来进行分析。教育敏感性(education sensitivity)是指一种教育培训项目能否产生特定效果的可能性程度。选取两组被试(人数相同),一组进行培训,另一组不参加培训。培训结束后,对两组被试施测待分析的测验。计算每个题目的“教育敏感性”指数:

s(9.13)

其中,RH为受培训被试中答对该题的人数;RL为未培训的被试中答对该题的人数;N为总人数。

用这种方法进行项目分析要注意两组被试的匹配的问题。所选取的两组被试必须在能力、知识背景等方面没有差别,要保证两组被试的各方面尽量相同。

重要概念和术语

难度分析

项目鉴别度

项目效度分析

鉴别度指数

项目-总分分析

诱答分析

欺骗性诱答

速度测验

教育敏感性

讨论题

1.为什么题目难度在0.50比较合适?为什么所有的题目的难度都在0.50并不合适?

2.在为人事测验设计考题时,难度上应有什么考虑?和一般的测验有什么区别?

3.题目的鉴别度指标是否越高越好?为什么?

4.为什么划分高分组和低分组时,取33%比27%的被试更稳妥?

5.项目效度分析和内部一致性分析有什么异同?

6.诱答分析是否仅仅用于能力测验?其他测验是否需要诱答分析?为什么?

7.诱答和欺骗性诱答是一回事吗?为什么?如何看待欺骗性诱答?

8.对于速度测验,怎样做项目分析?你有什么建议?

9.鉴别度分析是否适合于效标参照测验?为什么?

10.请对你过去做过的、或你单位曾用过的任何一项人事测量工具进行项目分析,考察各题目的难度。你的结论是什么?