第9章人事测量的关键技术：效度

书签收藏评论目录封面

通俗地说，测量的效度就是指测量的有效性，即能测量到所要测量的目标的程度。一个测量工具可能有多种效度的评估，这些效度的确定依赖于测量的具体目的和评估效度的方法。效度是评价测量工具好坏的重要标准之一。通过对效度的分析，可以了解对所要测量的心理学变量的测量准确程度如何，以及对外在标准的预测能力。

一般说来，效度的作用比信度的作用更为重要。如果一个测验效度很低，无论它的信度有多高，这项测验都没有应用价值。这就好像用磅秤来测量身高，每次的测量值很一致，也就是说信度很高，但它并不代表身高，也就是说其测量值并不反映身高这一属性，效度很低，所以磅秤就不是身高的适宜的测量工具。较高的效度是一个良好的测量工具最重要的特性，是必要条件，也是选择和评鉴测量工具的重要依据。同时，效度好的测验往往它的信度也较高。

第一节人事测量的有效性

一、效度的理论定义

从测量理论角度讲，效度可以定义为：与测量目标有关的真实分数方差与总分方差的比率。“有关的真实分数方差”是由测验所要测量的目标变量所产生的方差。效度的定义用公式可以表示为：

rXY（8.1）

其中，rXY为测验效度；SV2为有效方差；SX2为总方差。

效度定义也可以通过真分数的概念和方差（变异数）分析方法加以说明。我们知道，一组测验分数的总方差等于真实方差与误差方差之和：

SX2ST2+SE2（8.2）

而真实方差还可分为两部分：有关的方差（由被测量对象的变化引起的变化）和无关的但稳定的方差（与被测对象无关但由于量具的原因而有规律地存在的度量值的变化），后者也就是所谓系统误差带来的方差：

ST2SV2+SI2（8.3）

其中，SV2代表有关（有效）方差；SI2代表无关而稳定的方差。将以上公式代入公式8.2，可得：

SX2SV2+SI2+SE2（8.4）

因此可以说，一组测验分数之间的方差是由有效的方差、稳定但出自无关来源的方差和测量误差的方差三部分决定的。公式8.4也许看上去有些费解，但实际上意义很明了，即造成测验分数的变化的原因出自三大来源：测量对象本身的变化、量具的精度造成的系统误差、量具使用中造成的随机误差。

二、信度和效度的关系

根据定义，我们知道信度和效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响；效度的误差则还包括对测验目的来说无关的变量所引起的系统误差。还用前一章游标卡尺的例子。由于设计的原因，或者可能受到工具制作工艺、刻度刻画、金属材料的温度特性等因素的影响，卡尺对长度的反映会出现误差。这些必然现象主要是由于量具自身的原因造成的，而且具有稳定性，不管谁来使用、什么时候使用，都会发生同样规律的误差，因此是系统误差。这也正是效度要考虑的因素。作为一个好的量具，都有一个确定的系统误差的说明，表明该量具的精度范围，这样使用者就可以知道该量具的精确、有效的程度。测量物体是如此，测量人就更是如此了。而另一方面，每一次使用卡尺、不同的人使用卡尺，造成的误差也会不同，这种误差主要是随机误差，是偶然性的，不稳定的，是指测量的一致性如何，它是信度要考察的内容。

由公式8.4不难发现，当测量工具的误差方差（SE2）减小时（亦即测量更稳定可靠时），潜在的有效方差（SV2）比例有可能增加，但是其余的系统误差方差可能大，也可能小，所以说误差方差低（即信度高）并不保证效度就一定高；但效度高的话，信度必然要高。可以这样说，信度是效度的必要条件。

三、效度的性质

需要注意的是，“测验的效度”是简便的说法，实际上效度指的是“测量结果的效度”，是指测量结果的准确性程度，而并不是指测验本身。另外应注意的一个问题是：效度是连续性的，效度高低只是程度上的差别，它不是“全有”或“全无”的变量。因此，我们应避免评价某一测验的结果为“有效”或“无效”，而应区分为效度较高或较低。

效度同时也是针对测量目标而言的，反映了测量结果对测量目标的体现程度。例如，一个数学测验可能对学生的数学成绩的预测效度较高，但对学生的整体智力的预测效度就没有那么好了，而对学生的性格则可能根本没有什么预测效度。因此，在评价和使用某项测验时，应该根据所要施用的用途，有针对性地考察其效度。另外，效度不是直接测量得到的，而是从已有的证据推理而得的。

第二节如何评估人事测量的效度

根据评估效度方法的不同，效度可以分为内容效度、构想效度和效标关联效度这三类。下面对这三类效度及其评估方法分别加以介绍。

一、内容效度

1.内容效度的定义

内容效度（content validity）是检查测验内容是否是所欲测量的行为领域的代表性取样的指标。例如，成就测验往往采用内容效度的评估方法。

在实际工作中，我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境，只能选择一个有代表性的样本，通过观察被试对个别题目的反应，来推测他的总体行为的表现。因此，取样的恰当性就是影响测量效果的一个重要因素。如果所选择的题目偏重于某部分内容，或是过难或过易，就会使测验难以对目标行为或特点进行准确、全面的测量。

内容效度分析时要注意两方面的问题：

1）应避免将测验取样的行为领域过于泛化。例如，逻辑推理测验可以考察应试者的逻辑推理能力，但不能认为这个测验也能测量应试者的阅读能力或其他类型的推理能力。

2）要注意测验分数中无关因素的影响。例如一个测量被试运算能力或机械能力的测验，可能会受到言语理解能力或操作及反应速度的影响。

2.内容效度的评估方法

内容效度的确定一般没有可用的数量化指标，只能靠推理和判断来进行评估。较好的内容效度依赖于两个条件：

●测验内容范围明确；

●测验内容的取样有代表性。

因此，要保证良好的内容效度，应该从测验编制开始，就谨慎地选择合适的测验题目。

确定内容效度的方法通常是由专家根据测验题目和假设的内容范围作系统的比较判断。如果专家们认为测验题目恰当地代表了所测内容，则测验具有内容效度。这种方法的主要问题是缺乏一种数量化指标来描述内容效度的高低；不同判断者的判断可能不一致；如果测验内容范围缺乏明确性，会使效度的判断过程发生困难。

为了使内容效度的确定过程更为客观，可以依次采用如下步骤：

1）确定总体范围，即描述有关的知识与技能及所用材料的来源；

2）编制双向细目表，确定内容和技能各自所占的比例，并由测验编制者确定各题所测的是何种内容与技能；

3）制定评定量表来测量测验的整个效度及其他特点，如测验包括的内容、技能、材料的重要程度、题目对内容的适用性等。由每位评判者在评定量表上作出判断，总结获得测验内容效度的证据。

内容效度的确定还可采用经验的方法，例如，对于成就测验可以检查不同年级的被试的总分和每题分数变化的情况。一般而言，如果随着年级增高，被试的分数和每个题目的通过率也随着升高，就可以推测该测验基本测量了学校的教学内容和目标，这也是测验的内容效度的证据之一。

除了描述性评估方法外，内容效度的确定也可采用一些统计分析方法。例如计算两个评分者之间评定的一致性，即考虑评分者信度。虽然它所代表的是判断信度，但由于来自两个独立的评判者，因此符合程度越高越能反映测验的内容效度。克伦巴赫还提出，内容效度可以由两个独立的但取自同样内容范围的测验得分的相关（即复本信度）来作数量上的估计。若两者相关高，就有证据表明它们具有内容效度；若相关低，这两者中至少有一者缺乏内容效度。

3.内容效度的应用

内容效度最适合于评估教育和职业成就测验。在这种应用中，通过对内容效度的评价可以回答以下两个问题：1）该测验是否是应考察的某种技能和知识的代表性样本；2）测验的成绩是否不受无关因素的影响。其中，内容效度对效标参照测验尤为重要，因为在效标参照测验中，被试的表现往往以测验内容来解释。效标参照测验应用的基本条件是具备足够的内容效度。

内容效度也适合于某些用于选拔和分类的人事测验。这种测验中，测验内容是实际工作的一个样本，应包含实际工作所需要的技能和知识。在这种情况下，应该通过内容效度的分析来确定测验是否的确测量了实际工作中所需要的知识和技能。

内容效度的评估一般不适用于能力倾向测验和人格测验。能力倾向和人格测验不太要求与所取样的行为领域的内在相似性，其测验题目的选择更多地受某种假设的指导，这种假设的正确与否最后由测验的其他效度形式来确定。此外，能力倾向和人格测验与成就测验不同，它们不是建立在某种教学课程或工作知识与技能的基础上。在对相同题目作反应时，每个被试使用的方法和心理过程是很不相同的，同一测验对不同的被试来说测量的是不同的心理过程。在这种情况下，不可能从检查测验的内容来确定测验测量的功能。

二、效标关联效度

效标关联效度（criterion-related validity），也称效标效度（criterion validity），反映的是测验分数与外在标准（效标）的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。

效标是考察测验效用的外在参照标准。例如一个机械能力倾向测验，其效度的标准（效标）可以是成为机械师后的工作表现；对于一个管理能力测验而言，其效标可以是将来管理工作的绩效。效标关联效度往往用于预测性测验。这种测验中，根据测验分数作出的预测一般用于甄选决策，所以，只有当证明测验分数确实能够预测所欲研究的行为时，这种决策才可能正确。

1.预测效度和同时效度

效标效度主要考虑测验分数与效标间的关系。因此效标效度也可以定义为测验分数与效标间的相关程度。效标的测量材料可以在与测验实施大致相同的时间获得，也可以在测验实施很长时间后获得。根据效标材料收集的时间不同，可以将效标效度进一步区分为预测效度和同时效度。

预测效度（predictive validity）的效标资料往往是测量结束后隔一段时间才获得，它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。预测效度适用于那些对人员进行选拔、分类和安置的人事测验，这些测验需要对应试者将来的工作绩效进行可靠的预测。

预测效度的评估通常用追踪法来进行，通过长期观察，积累材料，以衡量测验结果对将来表现的预测能力。例如，可以对那些被测量的应试者进行长期观察，获得他们隔一段时间后的工作绩效的资料，看测验分数是否正确预测了他们的工作绩效的高低。

同时效度（concurrent validity）的效标材料可以和测验分数差不多同时搜集。有时，同时效度可以替代预测效度。因为当测验施测于已存在有效效标材料的团体中时，就不必经过一段时间后再作比较。例如，大学生的测验成绩可以与其在学校的功课成绩相比较，选拔测验的得分也可以与应试者在现在工作中的绩效作比较。因为同时效度的评估不需要长期追踪，所以应用比较普遍。

同时效度和预测效度的差异的根源不是收集效标的时间，而是在于测验目的的不同。前者多用于诊断现在的状态，后者多预测未来的结果。这种差异可以用两种不同的询问方式说明：

1）“某人成功了吗？”“某人患病了吗？”

2）“某人会成功吗？”“某人会患病吗？”

第一类问题属于具有同时效度性质的测验要求回答的问题，而第二类问题则属于具有预测效度性质的测验要求回答的问题，针对的是将来会发生的情形。

2.效标和效标测量

效标是衡量测验有效性的参照标准，是一种可以直接、独立测量的行为。换句话说，要测量效标，就必须把效标行为转化为某种可以操作的测量指标，以便进行比较。这种可操作的测量指标就称为效标测量。因此，效标的概念可以细分为观念效标（conceptual criterion，即效标的实质概念内容）和效标测量（criterion measurement，即效标的具体度量方法）。例如，对于筛选销售人员的销售技巧测验而言，其观念效标是“销售工作的成功”，而效标测量往往用“年销售量”来表示。

效标测量要求能真正反映效度，即它们的相关要高。技术水平可以作为某种机械能力倾向或职业选拔测验的观念效标。如果产品主要由个人的技术水平决定，而与工作环境和个人的其他因素无关，则产品数量可以作为技术水平的效标测量。另外，效标测量还必须具有较高的信度。

效标测量的一个重要特性是客观性。首先要避免偏见的影响，尤其当效标测量是等级评定时，可能会受评定者印象或成见的影响。其次，应防止效标污染。效标污染（criterion contamination）是指由于评定者知道测验分数而影响个人的效标成绩的情形。为避免效标受到污染，应该注意不让评定者看到测验分数，等效标评定材料收集完毕后再公布分数。这样可以保证效标测量结果与测验分数间的独立性。比如，一方面要评价管理者的管理技能，另一方面要评价管理者的管理业绩以作为效标。但往往在效标评价时，由于评价者知道被评价者的管理技能评分，因而影响对业绩的评定。为此，最好将这两种评价分开操作。

3.常用的效标

由于每个测验的用途不同，因而会有不同的观念效标。常用的效标有以下几种：

1）学术成就。这种指标常作为智力测验的效标，其逻辑假定是：智力高（以高IQ分数为标志）的人，其学术成就也应当越大。相应的常见的效标测量有：在校成绩、学历、标准成就测验分数、教师对学生智力的评定、工作中的研究成果、有关的奖励和荣誉等。这些指标也属于对学术能力倾向测量的精确描述，因此，也可以作为某些多重能力倾向测验和人格测验的效标。

2）特殊训练成绩。能力倾向测验常用的效标是被试在将来某种特殊训练中所取得的成绩。例如，机械能力倾向测验的效标可以是在工厂技术培训中的成绩。以特殊训练成绩作效标，其测量值往往采用完成训练后的某种成就测验的成绩、正式安排工作的等级、指导教师的评定等指标。多重能力倾向测验常用学校中类似课程的成绩作为效标的测量值。例如，言语智商用语文课成绩作比较标准，空间视觉能力分数用地理课成绩作比较标准。

3）实际工作表现。在许多情况下比较令人满意的效标测量是实际工作表现，这种效标可用于起选拔作用的一般智力测验、人格测验及能力倾向测验等。

4）团体对照。采用团体对比法确定测验有效性的方法是：用两个在效标表现上有差别的团体，比较他们在预测源分数上的差别。例如，一个音乐倾向测验的效度，可以由比较音乐学院学生的分数与一般大学生的分数获得；一个机械倾向测验的效度可以由比较机械学院学生的分数与一般大学生的分数而获得。这种对照团体几乎可以在任何效标基础上选择，例如学校成绩、评定或工作表现，也可以使用现行的类别，如不同的级别、岗位、部门之间的对照。团体对比法在人格测验中也很常用，例如对社交特质的测验效度，就可以比较推销员或行政官员的测验成绩和工程技术人员的成绩之间的差别。各种职业团体的比较常可作为兴趣测验的效标，而有些态度量表经常也以不同政治、宗教、地理的团体对比来确定效度。

5）等级评定。有时也可以采用其他人对应试者的效标行为的评定作为效标测量。这种评定往往由应试者的老师、同学、上级、同事等观察者作出。这种评定不局限于对应试者某种成就（如工作绩效）的评定，也可以包括观察者根据测验所欲测量的心理特质在被评定者身上的表现而作出的一种个人判断。例如，对应试者的支配性、领导能力、诚实性、独创性或智力等进行评定。评定可以作为任何测验的效标，尤其适合人格测验，因为人格测验的客观效标很难找到。虽然这种评定是主观的，但只要在严格控制条件下，它仍不失为效标材料的有效来源。

6）先前有效的测验。一个新测验和先前有效测验的相关也经常作为效度的证据。当新测验只是现有有效测验的简式时，后者的成绩完全可以作为一种效标测量。同样，纸笔测验可以用效度已知的操作测验成绩作效标测量；团体测验可用个体测验作为效标。必须指出，只有当新测验比先前公认的有效测验更简单、更省时、更经济时，才能用后者作为效标。

三、构想效度

测验的构想效度（construct validity）是指测验能够测量到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察，但是每个构想都有其心理上的理论基础和客观现实性，都可以通过各种可观察的材料加以确定。例如，言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。构想效度关注的问题是：测验是否能正确反映理论构想的特性。比如说，一项言语流畅性测验所测量的是不是真正的言语流畅性，是否对言语流畅性的理论概念中所包含的所有特点（如语速、语句间的逻辑性、口误的数量等）都进行了测量。

1.确定构想效度的步骤

一般而言，要确定一个测验的构想效度，包括三个基本步骤：

●建立理论框架，以解释被试在测验上的表现；

●依据理论框架，推演出各种有关测验成绩的假设；

●以逻辑和实证的方法来验证假设，根据这些累积材料决定这种理论是否能恰当地解释现有材料，如果不能作出恰当解释，则应该修正上述假设，直到能作出恰当的解释为止。

构想效度的确定过程可以用一个简单的例子来说明。例如，某人对研究创造力这个构想感兴趣，他假设或认为那些具有创造力的个体与那些不具备创造力的个体有某些不同，因此可以建立一个理论（或一理论体系）来说明那些有创造力的个体（或具有创造力构想的个体）的行为与其他人的不同，从而使人们能够通过观察个体的行为和根据某种理论分类来辨别具有创造力的个体。如果希望编制一个测验来测量创造力，那么，这个创造力测验必须具有构想效度，即测验分数与根据创造力的心理学理论观察被试行为所作出的判断有相关。如果这种关系不成立，则该创造力测验缺乏构想效度的支持。如果关系不太大，可能有多种原因，例如，测验可能没有真正测量创造力，或者说关于创造力的理论是错误的。如果测验分数与根据理论作出的判断相关很高，表明测验具有构想效度。

由此可见，确定构想效度没有简单的逻辑分析或统计分析，而是从各种来源中逐渐累积资料以确定测验的构想效度。

2.常见的确定构想效度的指标

确定构想效度的一般方法可以分为：

●测验内部的方法，如测验内容效度、内部一致性等指标；

●测验间的方法，如相容效度、因素分析、会聚效度和区分效度等指标；

●效标效度的研究，如发展变化等指标；

●实验和观察方法，检验是否有构想效度。

常用的指标有：

1）发展变化。智力测验中最常用的标准是年龄差异。通常是考察实际年龄来观察测验分数是否逐年增加。在儿童期，一般认为能力是逐年增强的，因此如果测验有效，测验分数应该反映这种变化。所以，验证智力测验的构想效度时，可以检查不同发展水平儿童的表现。在工作中，人们的经验会随时间而积累，所以，如果要考察某项技能的效标，可以假定该技能在一定时间范围内是随该项工作的年龄的增加而增加的。而这个假定实际上也是年资工薪的理论基础之一。工龄增加，经验丰富，技能增加，对组织的贡献也就增大，报酬自然也就应该多。当然，这个假定并不是对所有的人在所有的时间段内都成立，这就需要加以考察验证。

2）与其他测验的相关。测量相同特质或构想的测验，彼此之间应该有高相关。因此一个新测验与相似的旧测验之间的相关，可以作为衡量新测验所大致测量的相同行为的程度的标准。这种相关系数有时又称做相容效度。与效标效度不同，这类相关较高，但不很高。如果一个新测验与现有的有效测验的相关很高，而且不是更简便或易于实施，那么就没有必要编这个测验。与其他测验的相关还有另一种用途，就是表示新测验是否受到某些无关因素的影响。一般来说，测量不同构想或特质的测验之间，相关要很低，因此，一个能力倾向测验不应该和人格测验有高相关，学术能力测验不应该与管理技能测验有太高相关。

3）因素分析。因素分析（factor analysis）是分析行为资料内部关系、结构特性的一种统计技术，比较适合于对构想效度的研究。通过因素分析可以找出测验中所包含的特质。卡特尔就是通过因素分析的方法从一系列形容词中归纳出16种共同因素，最终按照这16种特质构造成16因素人格测验的。

采用因素分析材料的构想效度分析过程可以这样进行：首先，对测验的所有项目进行因素分析统计，抽取出能够解释测验结果的大部分变异的一些共同因子，这些共同因子可以用来对测验的组成进行描述，然后比较由这些共同因子描述的测验组成是否与测量目标（某种特质或能力）的理论构想一致。

4）内部一致性。有些测验，尤其是人格测验，多以内部一致性作为构想效度的指标，这是因为如果测验的所有题目被验证为具有很高的内部一致性，说明它们都是关于同一内容的，吻合于同一种构想。具体计算方法将在下一章有关“项目分析”的内容中介绍。一般地，这种方法常以测验的总分为标准，有时也以获得不同总分的被试的差异为标准。用来考验内部一致性的方法主要有三种：

（i）考察总分数较高和较低两类人在各题目上通过率的大小，比较每个题目上总分最高的27%的被试与总分最低的27%的被试，如果前者在该题上的通过率显著大于后者（一般要求在30%～40%以上），则认为题目是有效的，否则应淘汰或修改。

（ii）计算题目与总分的相关，如未达显著水准，应予淘汰。采用以上这两种方法选择题目，其结果内部一致性必然较高。

（iii）求分测验与总分的相关。例如，许多智力测验大多包括很多个分测验（例如词汇、算术、推理等）。在编制这种测验时，常要求各分测验与总分有显著相关，如果这一相关未达显著水平，则应予删除。

5）会聚效度和区分效度。1960年坎贝尔（D。T。Campbell）指出，要确定一个测验的构想效度，则该测验不仅应与测量相同特质或构想等理论上有关的变量有高的相关，也应与测量不同特质或构想等理论上不同的变量有低的相关，前者称为会聚效度（convergent validity），后者称为区分效度（discriminate validity）。这就是坎贝尔和费斯克（D。W。Fiske）1959年提出的构想效度的一种考验方法。例如，一个数学推理能力测验与数学课成绩的相关就是会聚效度；而该测验与阅读理解能力测验的相关显著低，就是区分效度，因为在测验设计时，已将阅读能力作为数学推理能力的无关因素来考虑。区分效度特别适合于人格测验，因为人格测验比较容易受到各种无关变量的影响。

第三节影响效度的因素

影响效度的因素有很多，分别由测验本身、样本团体、效标、信度带来的各种影响因素。信度对效度的影响已在本章第一节中具体介绍，现将前三种影响因素分别加以介绍。

一、测验的因素

凡是能造成测验结果误差的因素，都会影响测验的效度。一个测验的效度高低，很大程度上取决于该测验受无关因素影响的程度。受无关因素影响越小，则效度越高。由测验本身带来的影响因素有测验题目的质量、测验实施中的干扰、测验的长度、被试的因素等。

1.测验题目的质量

题目的指导语不明确、试题的表达不清晰、试题太难或太容易、题目中出现额外的线索、诱答设计不合理、题目过少、试题的安排和组织不恰当、试题不符合测验目的等因素，都会影响测验的效度，使效度降低。

2.实施测验时的干扰因素

测验的环境太差、被试不遵从指导语、计分错误，都会使测验的效度降低。对于效标效度，效标获取的时间与测验时间相隔越长，测验结果与效标的关系受无关因素的影响就越大，所求得的效度必定越低。很显然，这些因素使得测量分数反映的不单是测量内容，而且是无关因素的干扰。细心的读者会注意到，这些因素同样也会影响信度，因为它们会使测量结果波动不定。

3.被试的影响因素

在第五章中，我们已经谈到，被试反应定势、测验动机、情绪和身心状态都会对测验的结果造成影响，所以这些也将会影响测验效度。

4.测验的长度

一般来说，增加测验的长度通常可以提高测验的信度，而效度系数能否达到最大值也受信度的影响，因此，增加测验的题目往往也能提高测验的效度。不过，效度增加的前提是这些增加的题目必须与测量的目标相关。

测验长度对效度的影响可以用下面的公式来表示：

r（nx）y（8.5）

其中，r（nx）y为测验增长到原来的n倍后，测验（x）与效标（y）的相关（即增长后的效度系数）；n为测验增长的倍数；rxy为原测验的效度系数；rxx为原测验的信度系数，根据公式可以推知，要达到满意的效度水平，测验题目需要增加几倍。

二、样本团体的性质

对效度的计算往往是通过对样本团体的分数进行各种分析而得到的，所以样本团体的性质也会对测验的效度产生影响。这种影响体现在三个方面：

1.同一测验对不同的团体所测量的功能可能是不同的

例如，同一项算术测验，对于能力较差的被试可能测量的是数学推理能力，但对于能力强的被试，可能测量的只不过是对以前所学内容的回忆能力和计算能力。在评价效度时，我们要力求使样本团体的性质与所要测量的团体的性质尽量相似，这样所求得的测验效度才会较高。

2.对于同一个测验，效度团体的性质不同，效度也会有较大的差别

效度团体的性质包括年龄、性别、教育水平、智力水平、动机水平、职业等有关特性。同一测验对不同性质的团体可能有不同的预测能力，因此我们将这些对测验的效度产生影响的因素称为干涉变量。例如，对出租汽车司机实施能力倾向测验后发现，测验成绩与司机的工作成绩的相关仅达0.20，这是相当低的预测效度。但是，当把对开车有兴趣的司机抽出来单独计算效度时，却发现效度是0.60.这说明该测验虽然对所有的司机的工作成绩没有预测能力，但对于“有工作兴趣的司机”这一亚团体却有较好的绩效预测力。在这个例子中，兴趣就是一个干涉变量。

在进行效度分析时，必须将影响效度大小的干涉变量找出来。美国测量学家吉谢利（E。E。Ghiselli）提出一种确定干涉变量的方法，其步骤如下：

●用回归方程求得每个人的预测效标分数，将他们与实际效标分数相比较，可以得到差数D，如D的绝对值很大，说明测验中可能存在干涉变量。

●根据样本团体的构成分析，选择不同的对照组，分别计算效度，从而找出干涉变量。

●根据干涉变量将欲测团体分为高预测性和低预测性两个亚团体，从高预测性团体获得的测验的效度较高。

3.样本团体的异质性对效度也会有影响

用相关系数表示的效度系数会受到取样团体的分数分布的影响。如果其他条件相等，那么样本越同质，效度越低。反之，效度越高。

三、效标的性质

在采用效标关联效度时，效标的性质如何，会影响对测验效度的评价。一般来说，如果其他条件相同，所测量的行为或心理特质与效标行为或特质越相似，效度系数就越高。比如，假设我们要建立一项管理能力测验，现在要为这个测验选定效标。也许有人会考虑采用下列效标来源：学历、升入现职位的速度（年限）、近三年管理工作的业绩、同行的评价、上司的评价等。显然，这些效标与测验内容的同质性并不相同，将测验分数与它们求相关时，得到的效度值大小也就不同。

另外，效标与测验分数之间的关系是否线性也是一个很重要的影响因素。因为，皮尔逊积差相关的前提假设是，两个变量的关系是线性的均匀分布。如果测验分数与效标之间的关系是非线性的，采用皮尔逊积差相关将会低估相关的大小，造成效度的低估。

重要概念和术语

内容效度

效标关联效度

效标效度

预测效度

同时效度

观念效标

效标测量

效标污染

构想效度

相容效度

因素分析

会聚效度

区分效度

讨论题

1.信度和效度是什么关系？

2.内容效度能用量化方法测量或表示吗？确保内容效度的确定过程更为客观的方法是什么？

3.内容效度适用于能力倾向测验和人格测验吗？为什么？

4.什么叫效标污染？它对现实中的人事评价如绩效考核的启示是什么？

5.主观评价能否用来做效标？为什么？

6.什么是构想效度？对人事测量的启示是什么？

7.考察测验内部一致性的方法有哪些？比较它们的功能。

8.是否有些因素会同时影响信度和效度？为什么？

9.为什么增加测验的题目能提高测验的效度？

10.你认为，若要考核一个管理人员的能力，可能的效标有哪些？为什么？

第9章 人事测量的关键技术：效度

第9章人事测量的关键技术：效度