第2章人事测量概论

在“企业竞争就是人才竞争”的今天，人才的素质越来越被企业所重视。随着人才素质要求多元化的发展，过去单凭经验选人、评价人的方法已不再适合。对人才素质的考察需要科学、客观的方法。因此，人事测量也就变得越来越重要。

本书将有大量的篇幅向读者介绍人事测量技术在人力资源管理与开发领域如何实际操作和运用。但要真正做到对人事测量灵活地运用，还应首先对人事测量的原理有一个基本的了解。所以这开卷第一篇的目的就是向读者介绍人事测量的基本原理。在本篇中，你将能够了解到下列内容：

●什么是人事测量，它的功能、用途、基本程序；

●人事测量的历史和现况；

●一项成熟的人事测验如何编制；

●如何建立测验记分体系和解释体系；

●如何建立一个稳定的实用测量数学模型；

●实施测验时应注意哪些问题；

●怎样对测验的可靠性和有效性进行评估；

●如何对测验的各个项目进行分析。

第一节什么是人事测量

一、人事测量、心理测量与心理测验

关于人事测量，首先要澄清一些相关的概念。

心理测量（psychological measurement）是通过科学、客观、标准的测量手段对人的特定素质进行测量、分析、评价。研究心理测量的学科叫做心理测量学（psychometrics）。这里的所谓素质，是指那些完成特定工作或活动所需要或与之相关的感知、技能、能力、气质、性格、兴趣、动机等个人特征，它们是以一定的质量和速度完成工作或活动的必要基础。

人事测量（personnel assessment）是心理测量技术在人事管理领域的应用，它以心理测量为基础，针对特定的人事管理目的如招聘、安置、考核、晋升、培训等，对人的素质进行多方面系统评价，从而为人事管理、开发提供参考依据。相对来说，人事测量是一个更广泛的实用概念，它通常要求运用多种心理测量工具来完成。

心理测验（psychological test）是心理测量的一种具体方法和手段，它是结合心理学和统计学方法评价特定个体在特定素质上相对于特定群体所处的水平的手段。心理测验是人事测量中最常采用的方法之一。除测验法之外，人事测量还经常采用观察法、访谈法、调查法、情景模拟法等等。

心理测量是人事测量的基础。人事测量是以人为对象，是对人的测量，这正是以心理测量为基础进行的。绝大多数人事决策都需要以人事测量为基础。例如，招聘人员时，要测量应聘者的能力、工作动机；考虑晋升时要评价能力是否胜任新的职位；计划培训时要考察对象在哪些方面对于完成规定的工作任务有不足。所有这一切都要运用心理测量。所以，要从事人事测量，首先要掌握心理测量。

具体来说，心理测量是通过对人的有限的具有代表性的行为进行观察，依据预先确定的原则，对贯穿在行为活动中的心理特征进行推论和数量化分析，由外部行为推及内在特征。这是因为个体的心理活动和心理特征是很难用直接测量的手段来度量的，需要通过对心理特征的外显结果——行为进行测量，来推知个体内部的心理活动状态和心理特征。因此，心理测量的对象实际上是行为样本，而不是心理状态。这种由行为表现到心理状态的推论并不是主观随意的，它必须在心理学有关理论的基础上，采用客观、科学的方法进行推断。

二、心理测验的五个基本要素

心理测验是人事测量的重要手段，是对行为样本的客观的和标准化的测量。它包含以下五个基本要素：

1.行为样本

人们在对一类事物的某种特性进行考察时，往往无法对这类事物的每一特定情况进行逐个观测，而总是抽取这类事物中有典型代表性的一部分进行观测，进而推论该类事物的普遍特性。例如，在进行产品的废品率检测时，无需对每一出产产品进行逐个检测，而只需随机抽取一定比率的产品进行检测。

对个体行为或行为特征的测查同样无法做到对所有情况面面俱到。在进行心理测量时，往往只能对经过科学选择的少数行为样本进行测查，借以推测个体的心理特征。例如，要考察个体的数学运算能力，可以选择一定数量有代表性的运算题进行测量。如果是检查小学生是否具备多位数加法的技能，我们不需要穷尽所有可能的加法算题，而是通过有限个算题举例，来判定其技能。个体对所抽选出来的问题的解决行为就叫做行为样本（behavioral sample）。我们通过对这个行为样本的测量推测个体对所有运算问题的解决行为，进而推断个体的数学运算能力的优劣。

由于实际上只考察了有限的行为样本，由此去推论总体行为，其结论是否可靠，取决于所抽选出的行为样本能否很好地代表总体行为。为此，必须获取一组能够提供足够有用的信息，能恰当反映个体行为特征的行为，即要保证行为样本具备一定数量和具有代表性。

首先，行为样本的数量必须足够多，以使从样本到总体的推测错误率尽可能最低。例如，从个体对一两道运算题的解决情况来推测个体的运算能力，这种推测的风险是极大的，因为应答者猜对的概率很大。也就是说，从少数一两个行为，我们无法判断被评价者是靠猜还是靠真正的能力解决问题。

其次，要保证所选样本具有对总体样本的代表性。例如，我们不能只靠检测个位数加法题目来代表多位数加法能力的检测，因为个位数加法只是多位数加法的一个特例。又比如，我们不能只通过测查个体的计算能力来判定其财会技能，因为基本的计算能力只是财会技能的一部分，不能代表所有财会行为。

2.标准化

标准化（standardization）是指测验编制、实施、记分和测验分数解释必须遵循严格的统一的科学程序，保证对所有被测者来说施测的内容、条件、记分过程、解释系统都相同。只有这样才能保证测验的客观性和准确性。

要达到测验的标准化，应做到：

1）测验题目的标准化

对所有属于同一群体的被测者来说，对同一项心理测验，测验题目所引发的被测者的心理状态、行为反应可以不同，但呈现在被测者面前的测验题目本身应该是同样的。例如，一个数理逻辑能力测验题可能引起不同被测者不同的推理过程，但题目本身对所有人来说是一样的。又例如，一个测查工作动机的题目可能引发不同被测者不同的联想和反应，但题目本身对所有的人都是一样的。只有保证题目标准化，即对所有被测者给定的条件一样，才能通过考察不同被测者的不同反应来判断其内在素质特征。这里，真正的输入（自）变量是假定的被测者的内在素质，输出（因）变量是所观测到的被测者的反应即应答行为，包括行为的过程和结果。

2）实施过程和记分的标准化

标准化的人事测量在实施时必须保证所有被测者在相同的环境中接受施测，并得到标准化的测量指导说明。只有这样才能确保测验结果不受其他无关因素的影响。比如，如果同样的测验，有的人在炎热、潮湿、昏暗的环境接受测量，有的人在舒适明亮的环境接受测量，或者有的考场主考人口齿不清、解释含糊，而有的考场主考人口齿清晰，解释明确，由此造成的被测者的反应差异，我们无法判定究竟是由于被测者本人真实素质的差异所致，还是由考场环境的差异所致。

同理，测验的记分也必须有标准化的程序。要做到不同的记分者对同一被测者同一测验答案的记分方法和结果是相同的。人事测量中有一部分方法是相对较依赖主观记分的，如“无领导小组讨论”和“公文筐测验”的部分内容，这种类型的测验要做到记分系统的完全标准化相对较为困难。在这种情况下，虽然很难要求不同记分者记分结果完全一致，但通常要求有较高的相关，一般相关系数要达到0.80甚至0.90.目前，这类测验在记分方法、程序上已可达到相当客观化、量化的程度。

3）选用有代表性的常模

常模（norm）是一组具有代表性的被试样本的测验成绩的分布结构，包括它的集中趋势（通常用平均数表明）和离散度（通常用标准差表示）。常模是用以比较不同被测者测验分数的标准，它能够说明某一测验结果分数相对于同类被测者所处的水平。因此，心理测验的常模实际上起到度量衡的度量定制的作用，就如同确定如何计量长度（厘米、尺）或重量（克、两）一样，心理测验的常模确定如何表达能力的水平、工作动机的高低、职业兴趣的强弱或某种行为倾向（如内外向）的大小。

平均数（mean）是常模的重要内容之一。这也是一个最通俗的统计概念，它的数学定义是一个数据序列所有数据之和除以数据个数的商，即：

M=（i1，2……，N）（1.1）

例如，如果一组大学生能够在30分钟内平均正确回答30道逻辑推理题的2/3，即20道题，则这20道题的记分分数为一般大学生的平均值。平均分（数）描述了相应被测者群体平均的水平。

只有平均数还不够，因为我们还不能把一个被测者的原始测验分数和平均分直接比较来判断它的高低。比如，一个人在上述的逻辑推理测验中得了17分，比平均分差了3分，但这3分究竟意味着什么？如果所有大学生的逻辑推理测验分布在16～24分，那么这个17分可能就相当差，因为它几乎是在所有人成绩的最低端。但如果所有大学生该项测验的分数分布为5～30分，那么这个17分就可能是还不错的成绩了。所以，只有平均分还不能反应一个测验分数的真实水平。这就需要常模中的另一个概念“离散度”，两者合在一起才能共同确定心理测验的度量定制。

离散度最常用的表示方法是标准差。标准差（standard deviation）数学定义为一个数据序列各数据与平均数之差的平方和除以数据个数之商的平方根，通常记作S，即：

S=（i1，2……，N）（1.2）

其中，M为平均数；N为数据个数；Xi为各数据值。

标准差取值越大，说明数据分布越分散，离散度越大。

标准差的实用意义可以从以下这个例子体现出来。5个考官给甲、乙两个应聘者就某项能力打分。5个考官给甲的分数分别是1、2、3、4、5分，而给乙的分数都是3分。甲、乙两个人的平均分一样，都是3分。但谁更好？因为通常是一个职位两个甚至更多的人应聘，我们总希望能把应聘者区分开来。针对这个例子，显然乙得到了一致的评价，而对甲的评价则众说纷纭，褒贬不一。也就是说，两个同样的平均分，“含金量”不同。相对来说，乙要更好一些。实际上，乙的得分的标准差为“0”，而甲的得分的标准差为“1.41”。

从以上说明可以看到，一般来说，测验的原始分数并没有多大的意义，而是要通过以离散度为基准与平均值的比较来体现被测者的特点。在智力测验中，人们关心的往往是自己的测验得分是高于一般水平还是低于一般水平。这就需要将测验的原始分数转换为标准分数，如将智力测验的原始分数转换为标准IQ分数。通常这个转换公式设定为：

IQ=100+15×（1.3）

其中，X为实得原始分；M为平均分；S为标准差。

这个公式很好地体现了常模的作用，其意义是，把智力分数转化为以100为平均分、以15为标准差的标准（智商）分数。举例来说，如果一个人的实得测验分数刚好等于平均分，那么代入公式，后端分子式取值为“0”，最后结果刚好为“100”分。如果一个人的实得分数刚好高于平均分一个标准差，那么代入公式，后端分子式取值刚好为“15”，则最后得分为“115”分。

常模是否可靠，关键是有没有一个具有代表性的被试样本，即建立常模的这些被试样本要有足够的数量，而且是依据随机抽样或分层随机抽样原则抽选出来的。例如，如果要建立一般人的智力测验的常模，就不能用大学生作为智力测验的被试样本，因为他们的分数无法代表一般人的水平，而往往是高于一般水平。

3.难度的客观测量

测验题目的难度水平影响到测验的客观性。测验的题目太容易，所有人都成功地完成所有项目，得分都很高，或测验题目太难，使得大部分人的得分很低，都会使所有被测者的反应趋于一致，抹消了个体差异，无法就某一素质将不同的被测者很好地区别开来，致使测验的目的无法达到。通常将测验题目过于容易，致使大部分个体得分普遍较高的现象，称为天花板效应（ceiling effect），而将测验题目过难，大部分个体得分普遍较低的现象，称为地板效应（floor effect）。在编制测验题时要力求避免出现这两种情况。选择题目时，通常以通过某一题目的人数的百分数来作为难度的指标。有关的具体方法我们将在第九章详细介绍。

4.信度

信度（credibility）是指测验结果的可靠性、稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。这种可靠性体现在：

●测验结果跨时间的一致性——被测者在不同时间所测结果一致；

●测验内容的一致性——同一测验内的各部分题目所测的是同一种行为或行为特征；

●不同评分者之间的一致性——不同评分者对同一测验结果的评分一致。

一项成熟的心理测验都具有比较理想的信度。信度较低的测验其测验分数的稳定性较差，往往不能反映被测者的真实水平。有关信度的具体内容我们将在第七章详细介绍。

5.效度

效度（validity）是指所测量到的结果是否反映了所想要考察的内容，也就是说，该测验所测的是不是它想要测的东西。例如，在一项考察管理人员逻辑推理能力的测验中，如果题目的文字表述过于晦涩，行文十分怪癖，又过多使用不常见的词汇，可能决定测验分数高低的就主要是被测者的语文理解水平，而不是逻辑推理能力。这样的测验就没有测量到本应该测的素质特征，其结果无法用于评价被测者相应的能力，其效度很低。

效度指标主要包括效标关联效度、内容效度和构想效度等。具体内容将在第八章详细介绍。

第二节人事测量的功能与用途

人事测量是人事决策的主要信息来源之一，是通过科学方法对个体的行为和内在素质进行分析的手段。人事测量的最主要的作用，是为人事决策提供可靠、客观的依据，为人事决策提供参考性建议，是人事决策的基本工具。它的具体功能涉及甄选、安置、考核与培训等几个方面。

一、甄选

在人事管理领域，人事测量可以用来对人才进行选拔。随着社会的发展，工作本身对人的素质和心理适应性的要求越来越高。但过去单凭个人经验的选拔方法无法对人的心理素质进行科学准确的评估。人事测量的运用可以使人事决策更为科学、准确，并可大大提高甄选效率。例如，美国1942年通过使用弗朗那根（J。C。Flanagan）等编制的全套心理测验选拔程序，使飞行员淘汰率由65%下降到36%。中国空军也于20世纪80年代中后期开始研制和启用飞行员选拔的心理素质检测系统，使招收飞行员的成功率有了显著的提高。所有这些都体现了人事测量对于人事安置的科学贡献。另外，对团体实施的人事调查和访谈还可以帮助管理者诊断管理中的问题。

人事甄选的一个关键技术问题，是如何预测未来工作的绩效。人事测量恰恰可以为预测应聘者将来的工作行为和绩效提供重要的科学依据。通过各种能力测验我们可以预测个体在将来胜任工作的可能性；通过对个体的人格测量，我们可以预测个体将来工作的方式和风格，以及其融合于团队的可能性。在大多数情况下，对个体的预测与甄选过程是分不开的。对人才的甄选离不开对应聘者未来工作绩效的预测。

二、安置

随着社会化大生产的发展，人们之间的分工越来越精细，不同的工作对人的素质要求有所不同，这就要求在人员和工作之间选择最佳匹配。通过人事测量，可以对个体的兴趣、人格、能力、技能等多方面进行分析，为实现人才的合理安置提供信息。例如，通过职业兴趣测验可以确定个体最适合的职业方向，通过一般能力测验可以帮助个体确定其最佳能力，为个体的职业选择提供参考。又例如，通过人事测量手段，我们可以得知个体的内-外向特点，根据测量结果可以将外向个体安置于需要大量社会交往的岗位上，如销售员、公关人员等，而内向的个体，则可以安置在研发、质检等岗位上。

三、考核与培训

人事测量能够提供关于个体的行为的描述，形成对被测者的全面的评价，从而为人事考核及培训提供依据。在人事管理领域，对员工的能力水平、工作满意度水平及可供开发的潜力等方面进行评价，是对员工进行考核或培训时应了解的信息，而通过各种心理测验、人事调查手段可以获取以上信息。一方面，现代的人事考核已不仅仅局限于单纯的工作产出绩效考核，也越来越多地涉及工作中的行为、态度、胜任力等，这些内容的考核不同于传统的绩效考核，很难由直接的工作产出来表示，这就需要运用专门针对行为和内在品质进行量化描述、分析的心理测量技术。另一方面，培训作为人力资源开发的重要组成部分，其内容越来越复杂，成本越来越大，如何提高培训针对性和效率，使培训能够有的放矢并事半功倍，就需要依靠人事测量。运用人事测量，可以判断员工各方面为工作所需要的素质，描述其素质结构，为制定有效的培训方案提供依据。

人事测量的应用领域广泛，尤其是在现在的人事选拔中，人事测量的作用越来越受到人们的重视。在管理工作中灵活运用人事测量手段可以帮助管理者作出最佳人事决策，及早发现管理问题，并且能够帮助管理者最大限度、最合理地运用企业的人才资源。

第三节人事测量的基本程序

人事测量的程序依据其测量目的的不同而有所不同。例如，在人才选拔过程中运用人事测量需要涉及到确定测量内容、方式和录用标准等方面，但对于以诊断、评价为目的的人事测量，其测量内容往往不是事先确定的，对测量结果也不一定要设定能否接受的标准。

一、确定测量目的和内容

根据不同的测量目的确定具体的测量内容是人事测量的第一步。在选拔过程中，这一步最为关键。错误的测量内容将导致甄选决策的失败。测量内容应根据所选拔岗位的任职素质要求，通常可以工作分析、职务说明为依据，针对不同职务、不同岗位、不同企业特征及某些特殊需要来确定。

对于以选拔为目的的人事测量，另有一个重要的程序是确定选拔的标准，即确定什么样的应试者可以被企业录用。这种标准的确定可以分两步进行。首先，在确定测量内容的同时确定大致标准，如选用外向者，职业兴趣为经营取向者等；其次，制定精细的标准。它可以是一个绝对的标准（如某一个分数线），通常这种情况是企业采取“淘劣”策略，即达不到这一基本标准的人决不录用。它也可以是在测量结果出来后，根据组织所需人数或筛选比例确定具体、细致的标准，如某项技能分数百分位达到90%以上录用等。这种情况通常是企业采取了“择优”策略，即从应聘者里选拔相对较好的人选。

对于以诊断、评价等为目的的人事测量，确定测量内容就相对简单。可以根据诊断、评价的内容确定测量内容。例如，要想了解员工偏好哪种工作，可以对员工的职业兴趣进行测量。要想确定是否要对管理人员的沟通技能进行培训，可以测量他们的沟通技能，为培训计划提供依据。

二、确定测量的基本形式和测量工具

测量的形式和工具根据测量内容的不同而不同。例如，需要对应聘营销人员的口头表达、情绪控制等方面进行测查，就不宜采用一般的纸笔测验，而最好采用情境模拟测验，如小组讨论测验。如果应聘者的动机对工作绩效高低有决定性影响，但考虑到一般自陈量表（即基于自我评价的问卷）的动机测验题目表面效度（surface validity）（即从题目表面是否容易看出出题人的意向和答案倾向）过高，或应聘者容易表现出较高的社会赞许性（social desirability），即题目本身的答案反映了一般社会价值倾向，应答者很容易表现出反应偏差，投其所好，故可能不适合于在招聘考核中采用时，就可以采用隐蔽性比较高的投射测验（如主题统觉测验）来对应试者的动机进行评定。

测量形式和工具的确定也是非常重要的一步。不恰当的测量方法会使测量结果不能满足测量目的，甚至会导致收集到虚假信息，误导决策的制定。在后面的“实务篇”中具体列举了许多根据不同要求对测量工具进行选择和组合的实例。

三、测量的实施与数据采集

在测量的实施过程中，要注意做到客观化、标准化，保证收集到的测量结果能够公平、真实地反映应试者的状况。要做到客观和标准，就要严格按照测验的实施要求进行测量，防止个人主观情感对测量结果的“污染”。并且，在收集测量资料的同时，要注意将实施测量的过程中相关的信息及可能对决策产生影响的细节记录下来，作为决策的辅助材料。例如，将在考察范围之外，但有重大意义的应试者的特殊表现（如特殊的个人经历或特长）记录下来。另外，对测量结果造成影响的特殊因素也应进行记录，例如考场的干扰、应试者突然患病等。

通常，要求测量的现场环境要空气通畅、新鲜，照明充足，温度、湿度适宜，干净整洁，安静，没有外界干扰，每个被测者的桌椅应尽可能舒适，并有足够的空间，尤其避免多个被测者同时应试时相互影响、干扰。如果安排的测量内容较多，不同内容之间应安排适度的休息，条件允许时可提供茶水。总之，要尽量排除无关因素的干扰，使被测者在一个比较舒适的环境中接受测量，以保证被测者正常的发挥。在以后我们介绍的每一项测量中都会涉及具体的测验环境的安排或要求。

四、分析测量结果

对测量结果的分析通常包括对测量结果的计分、统计和解释。对于心理测验来说，它的计分和统计方法往往是预先建立的，使用者只需按照测验说明进行操作即可。对于已经计算机化操作的测量就更为简单了，在测验完成之后统计结果也立即完成并可打印出报告。

然而，对结果的解释就比较复杂了。对单一测量结果的解释可以参照常模或效标进行解释。但很多情况下，人事测量包括多个一同实施的测量，需要将多个不同测量的结果进行结合而作出整体的解释，这需要分析者对各项测量有充分的了解和足够的经验。对单一测量结果的解释将在本篇第六章中具体介绍，对测量组合的解释请参考“实务篇”。

五、根据分析作出决策或对决策的建议

决策与测量的目的联系紧密，以选拔为目的的测量，其决策内容为候选人名单；以安置为目的的测量，其决策内容为岗位与应聘者的匹配；以评价为目的的测量，其决策内容为对应试者素质的评价；以诊断为目的的测量，其决策内容为应试者的问题和特长或应试团体的状况和管理问题；以预测为目的的测量，其决策内容为应试者将来的绩效和工作表现。

在进行决策的过程中要注意：测量结果只是决策信息的一部分，在参考测量结果的同时，也要考虑其他的因素。另外，在进行人事选拔时，测量结果往往只给出参考性建议，实际的决策需要有关部门通盘考虑后作出。

运用人事测量，是出于人事管理科学化的目的，反过来，对待人事测量，也需要抱以科学的态度。既要尊重科学，追求客观性，推动人事测量在实际工作中的运用，又要合理地看待人事测量的可靠性和有效性，不宜过分夸大它的精度和适用范围。实际上，就像所有物理学的度量衡，如秤、尺、量筒等精度都有一定限度，都有误差一样，人事测量这种针对人（人的行为及其内在品质）的度量也是有精度上的限制，也有相当的误差。拒不采用有效的客观的人事测量辅佐人事管理是不科学的，盲目使用甚至滥用人事测量，乃至造成对被测者和组织的损害，也是不科学和不道德的。

六、跟踪检验和反馈

在多数情况下，还需要对测量结果及聘用结果进行跟踪，主要是根据工作绩效对测量结果和聘用进行检验，这就为此前的工作提供了重要的反馈，为测量取得经验性资料，为进一步矫正测量以达到更大的精确度提供了依据。可以说，到这一阶段，才真正完成了一个人事测量作业环路。

重要概念和术语

心理测量

心理测量学

人事测量

心理测验

行为样本

标准化

常模

平均数

标准差

信度

效度

表面效度

天花板效应

地板效应

社会赞许性

讨论题

1.什么是人事测量？人事测量和心理测量是什么关系？

2.人事测量常用方法是什么？

3.人事测量的功能是什么？为什么要运用人事测量？

4.心理测验的要素都有哪些？

5.常模的概念和意义是什么？

6.为什么只有平均数仍不充分，还要有标准差？

7.为什么心理测验必须要标准化？

8.比较测验的信度和效度的概念，它们有什么区别？

9.讨论人事测量的基本程序，说明工作分析与人事测量的关系。

10.你是否接触过人事测量？你所在的单位使用人事测量吗？为什么？是如何使用的？如果不使用，为什么？

第2章 人事测量概论

第2章人事测量概论