第37章能力的测量

书签收藏评论目录封面

能力作为一种心理特性，并不能直接测量，而是通过分析个体怎样解决问题及得到的结果来判断个体的能力的属性和水平。根据能力的分类，能力测验一般可以分为智力测验（intelligence test）、能力倾向测验（aptitude test）和成就测验（achievement test）。

智力测验，作为最早的心理测验，由于在理论上至今仍然未能给智力下一个公认的明确定义，因而智力测验的目标范围始终存在争议。但就目前通用的智力测验而言，一般注重的是表现在认知活动中的稳定的一般能力，如言语能力、数学能力、记忆能力、空间知觉、推理能力等。

能力倾向测验泛指用以测量潜在才能的测验。其目的在于发现个体的潜在才能，深入了解其长处和发展倾向。例如，美国大学入学考试用的学力测验（Scholas‐tic Aptitude Tests，SAT），其目的就是为了测量个体到大学后学习成功的可能性。潜在才能是指个体未来发展的可能性，即在给予一定的学习机会时可能达到的水平，而不是个体现在已经具有的能力。

成就测验，主要考察受测者在学习和训练后所具有的知识和技能水平，由于它被广泛地应用在教育工作中，因此有时也被称为教育测验（educational test）。根据不同的标准，还可以对之进行更为细致的分类。影响成就测验成绩的不仅是能力，而且包括习得的知识。

8.4.1 智力测验

早在4000多年前，在中国便有了对智力的考查———用于官员选拔的考试制度，其内容涉及道儒、法律、农业等方面，是对一个人的综合性知识、能力进行考查。我国民间常见的七巧板、九连环、挑线绷、猜谜语、打灯谜等，都是带有普遍性的人们喜爱的智力训练工具。美国著名心理学家伍德沃斯称“九连环”为“中国式的迷津”，载入其所著的枟实验心理学枠中。

虽然关于智力研究和智力测验题在中国古代就出现了，但是现在受到广泛认可的现代智力研究和现代智力测验却是在西方开始的。

19世纪中叶，达尔文的进化论激发了人们对智力和心理能力的研究。可以设想，如果生存的重要因素是对环境的适应，那么，在人类进化中，智力必定起着重要的作用。高智力的人由于其对环境的优良适应性必定通过自然选择，被保留下来。根据这种思想，达尔文的表兄弟高尔顿爵士（F .Galton）对智力进行了第一个系统性研究，这揭开了西方智力测验史的序幕。

高尔顿率先利用仪器进行人类学测量和心理测量，通过测量身高、体重、肺活量、听力、视力、色觉等来研究能力的个体差异。他还进行了许多感官和运动的测试，并以数量代表心理特质的差异，得出了一个尖形穹窿曲线，该曲线印证了高斯分布在心理学中的重大意义，也是许多现代智力测验的数学理论基础：人的心理能力的分布应顺应正态分布规律。除此之外，他还研究天赋的遗传，调查人的能力及其发展，推进了差别心理学，并且首次运用了建立在感觉辨别基础上的能力测验。

在高尔顿之后，法国心理家比奈（A .Binet）和其同事西蒙（T .Simon）制订和出版了第一个正式的智力测验，它的产生是为了分辨出不适合在一般学校学习的智力落后儿童，从而给以特殊教育，随后这个测验受到广泛认可，并被推广到众多国家的智力测验量表。受到比奈—西蒙测验的影响，美国陆续出现了斯坦福—比奈量表、瑞文测验、韦克斯勒智力测验等诸多的智力测验。

8.4.1.1 斯坦福—比奈量表

1905年，西方第一次出版了关于可实施的智力测验的出版物：比奈—西蒙量表，该测验被用于区分发育迟滞儿童与正常学龄儿童。比奈和西蒙希望一个客观的智力测验可以使学校减少对更为主观的、甚至可能是带有偏见的老师评价的依赖，以让儿童获得更好的教育。他们采用了统计的方法，使得儿童与同龄儿童群体的平均状态比较，以获得儿童的心理年龄（mental age）。

这种更具有科学性和能被广泛使用的智力测验很快引起了心理学家们的注意，不久便被各国的心理学家广泛引入，特别是在美国，智力测验受到了极大的重视，美国心理学家很快在这一领域占据了高点。其中最著名的是美国斯坦福大学特曼（L 。Terman，1921）的工作，他于1916年把比纳—西蒙测验结合美国实际加以修订，称为斯坦福—比奈量表。在特曼的新测验中，他采用了智商的概念。

智商就是心理年龄与实际年龄之比。

如果一个10岁的孩子所测得的心理年龄为12，那么他的IQ为120.而同一生理年龄的孩子如果只完成了8岁孩子的任务，那么他的IQ值为80.那些心理年龄与生理年龄相当的个体的IQ值为100.所以，100是平均的IQ值。

这个智商由于是用智力年龄除以实足年龄而求得的，因此可称为比率智商。比率智商的计算方法只适用于儿童，它的不足之处在于当人发展到一定的年龄后，智力并不随着年龄增长，老年时甚至有下降的现象，使用心理年龄做计算将不符合实际情况。

在1937年、1960年、1972年、1982年以及1986年，研究者对斯坦福—比奈测验进行了一系列修订，这样使得斯坦福—比奈测验能对正常人群、发育迟滞和天才人群都提供精确的IQ估计值，并成为极具影响力的智力测验。

8.4.1.2 韦氏智力量表

韦克斯勒（D 。Wechsler）在研究及应用中发现了斯坦福—比奈测验的不足之处：无法预测成人能力、军人素质的优劣，这使得韦克斯勒决心编制成人智力测验，其后更发展了一系列的智力测验，使得他成为继比奈之后对智力测验研究贡献最大的人。

韦克斯勒在1939年发表了韦克斯勒—贝尔维尤智力测验。这一测验包括言语和操作测验。这样除了总的IQ 值，人们还可以分别估计言语和操作的IQ 值。在经过一些修改之后，在1955年这一测验被叫做韦克斯勒成人智力测验（W A IS），后发展为WAIS‐R（Wechsler，1981），目前已发展至第四版。

W A IS‐R中有6个言语分测验，以评估语词表现的能力：常识、理解、算术、相似（指出两个东西的相似之处）、数字记忆广度（要求顺背和倒背一些数目）和语词（对词语下定义）。这些测验包括书面和口头表达两种。5个操作分测验是对测验材料的操作，包括：译码（给出9个符号与9个数字的匹配规则，被试在另一张纸的符号下面写出相匹配的数字）、木块图（被试要用木块拼出卡片上的图形）、图画补缺、图片排列和拼图。每一被试都得接受每个分测验，每个分测验都会获得一个原始分数，经过换算后可以得到被试的能力剖面图以了解智力不同侧面的发展情况，还可以进一步计算出言语量表分、操作量表分和全量表分。

在他的智力测验中，韦克斯勒依据统计学原理提出了智商的新计算法，称为离差智商。

离差智商是确定个体在相同条件的团体（例如同年龄组）中的相对位置，它实质上是将个体的成绩和同年龄组被试的平均成绩比较而得出的相对分数。韦克斯勒指出，可以假定，人们的智商分布呈平均数为100和标准差为15的正态分布形式。

上面公式中MX代表团体平均分数，X代表个体测验的实得分数，s代表该团体分数的标准差，z代表该人在团体中所处的位置，即他的标准分数。

采用离差智商的最主要的优点是解决了比率智商所产生的IQ 分数的意义在各年龄阶段不守恒的问题，而且其分数便于与百分位等级进行换算。离差智商分数的基本意义与传统的比率智商分数相一致，所以它们之间可以进行比较。

除了适合于18岁以上人群的WAIS‐R，也有针对儿童的相应测验：韦氏儿童智力测验第三版（WISC‐Ⅲ，Wechsler，1991）适于6至17岁的儿童；韦氏学前和初级智力量表修订表（WPPSI‐R，Wechsler，1989）适合于4至6岁半的儿童。这2套智力测验量表都和WAIS‐R具有类似的结构，都考察了受测者的言语智商、操作智商和全智商、其分测验也相似。

WAIS‐R、WISC‐Ⅲ、WPPSI‐K组成了智力测验家族，可以获得全年龄段的IQ情况，这样研究者可以追踪特定智力能力的发展。由于这一原因，在对同一被试的不同年龄施测时，韦克斯勒量表具有特别的价值。但是也存在一定的缺点：三套测验的衔接欠佳；测验的起点偏难，有的分测验方法对低智力者难以说明，不便测量低智力者；有的分测验题目过多，增加测验时间；有的项目过少，难以调整项目难度。

虽然斯坦福—比奈量表和韦氏量表受到了广泛的运用，但是他们的局限性也日益暴露：智力测验主要进行了量的分析，只测了受测者当时的智力，没有考虑其发展的速度和趋势，智力测验只是部分地反映了一个人的智力水平等。

8.4.1.3 画人测验

画人智力测验是一种能引起儿童兴趣的简便易行的智能测验方法，属于筛查或筛选方法。它不需特殊工具，也不需要复杂的指导语，不受测量者的语言、行为等外界因素的干扰，能在很短的时间内，提供有关非语言的儿童能力测量的工具。

早在19 世纪晚期，就有研究者对儿童画人进行研究，描述了儿童画人的年龄特征，并论述了画图可以反映儿童的神经、精神发育状况。此后，儿童画人就作为用于估计儿童的发展状况的一种方法。1926年，美国明尼苏达大学发展心理学家古德纳夫（F 。Goodenough）女士在对儿童画人进行系统研究的过程中发现：儿童的图画与年龄、学业皆有密切关系，于是她编订了画人智力测验量表，发表了儿童的画人与其智力相关的研究结果，并出版了枟画人智力测验方法枠一书，首次建立了用于能力测量的古氏画人测验（draw a man test）。她把儿童画人作为衡量儿童智力发展水平的标准。此测验量表可供集体或个人施行，且无时间限制，一般在15分钟以内就可完成。测验方法简单，只需一张白纸和一支铅笔，指示被试：在纸上画一个男人即可。对人的形象没有具体要求。当被试画完以后，由主试按照标准化的量表评分。古德纳夫编制的量表共包括51项内容，画中每出现1项得1分，分数代表各年龄被试的智力水平。

古德纳夫女士首先提出画人法可作为一种智能测验并对该法加以标准化且提出了详细的评分法以来，画人智力测验作为一种标准化的心理测验，由于其简便、科学，而具实用，故一直受到人们的重视和广泛应用。在这些研究与应用的同时，画人智力测验也进行了多次修订，画人智力测验的最新版本是于1988 年发表的枟Draw a Person a Quantitative Scoring System枠（简称DAP）（J 。Naglieri，1988）。

8.4.1.4 瑞文标准推理测验

瑞文标准推理测验是纯粹的非文字智力测验，一共由60张图组成，按逐步增加难度的顺序分成五组，每组都有一定的主题，题目的类型略有不同。从直观上看，瑞文测试五组测验分别考察了知觉辨别能力、类同比较能力、比较推理能力、系列关系能力和抽象推理能力，每一组中包含12道题目，按逐渐增加难度的方式排列；每个题目由一幅缺少一部分的大图案和作为选项的6～8张小图片组成。瑞文测试中要求被测者根据大图案内图形间的某种关系———这正是需要被测者去思考、去发现的，看小图片中的哪一张填入（在头脑中想象）大图案中缺少的部分最合适。这五个方面得分的结构，一定程度上有助于了解被测者的智力结构。瑞文测试结果可直接用正确题数的多少进行比较以区分受测者的智力水平。整个测验经修订，还发展了彩色型、高级型。高级型瑞文推理测验用于智力较高的人，彩色型瑞文推理测验主要用于儿童。此外，还有瑞文测验联合型———基于标准型和彩色型，一共由72张图组成，分为6组，前三组彩色，后三组黑白。

瑞文智力测验的优点在于适用的年龄范围宽，从5 。5岁到70岁；测验对象宽泛；可以用于智能诊断和人才的选拔与培养，用瑞文标准推理测验可以进行各类比较性研究，特别有利于做跨文化研究，以及正常人、聋哑者和智力迟钝者之间的比较研究。

8.4.2 特殊能力倾向测验

特殊能力倾向测验是鉴别个体在某一方面是否具有特殊潜能的一种工具。这类测验最初是为了弥补智力测验的不足而编制和使用的，最早出现的特殊能力倾向测验是机械能力倾向测验。由于职业选拔与咨询的需要，各种机械、文书、音乐及艺术能力倾向测验纷纷出现，同时视力、听力、运动灵敏度方面的测验也广泛应用于工业、军事上的人事选拔与分类。

8.4.2.1 美术能力测验

编制美术能力测验，首先必须分析美术创作应具备的条件和能力，然后再设计测量这些能力的测验，并经过有效性的考验。但判断美术能力的强弱，并无客观的标准，所以这对美术能力测验的编制造成了一定的困难。在这一方面，比较著名的研究者有梅尔（N 。M eier，1942），他经过长期的研究，分析出构成美术能力的要素，编制了梅尔艺术鉴赏测验（Meier art judgment test）。

梅尔艺术鉴赏测验主要测量了被试的审美能力，分为艺术判断和审美知觉两个分测验。

艺术判断测验，包括100对不着色的图画，内容有风景、静物、木刻、东方画、壁画等，每对图画中的一幅是名画的复制品，另一幅是模拟名画，但在技巧或结构方面稍加修改（比原作差）。让被试在两者之中挑出他认为较好的一幅。这些图画的好坏标准是根据25位艺术专家的意见决定的。被试选择正确的图画所获得的分数即为其成绩。

审美知觉测验，包括50道题目，每题为一件艺术作品的四种形式，每一种形式相对于另外三种在比例、整体性、形状、设计及其他特征上有不同，要求被试按其优劣排出等级。

美的判断包含理解与价值判断，美术活动往往包括鉴赏、批评、表现等方面的活动。一个具有较高艺术评鉴能力的个体并不意味着他一定会创造出较好的作品。因此，除了需要测量艺术鉴赏力，还需要测量个体的艺术创造力。常见的用于测量艺术能力的测验有洪恩艺术能力倾向问卷（the Horn art aptitude inventory）。该测验采用工作样本测验，需要高度的创造力，适用于大、中学生和成人。测验内容包括三部分：

素描画，要求被试画出常见物体的素描，以判断被试作品的线条品质与画面布置的技能；

随意画，测量被试用指定的图形画成简单的抽象图案的能力；

想象画，给被试12张卡片，每张卡片上印有几条线条，被试根据这些线条画成一幅草图，由这些草图来评判被试的想象力和作画技巧。

8.4.2.2 音乐能力测验

和美术测验一样，音乐能力测验与音乐造诣的标准之间的相关性并不高，所测量的音乐能力的一般因素也不明显。虽然音乐测验分数与智力测验分数间有正相关关系，但较高的智力水平并不一定是音乐能力的基础。有些幼儿或有些弱智者也可能表现出相当的音乐能力。比较著名的音乐能力测验有西肖尔音乐才能测验（Seashore measures of musical talents）和音乐能力倾向测验（musical aptitude profile）。

在1920—1939年间，艾奥瓦大学的西肖尔（C 。Seashore）及其同事对音乐能力进行了开创性的研究，从而产生了最早也是最为突出的音乐能力测验。与后来发展出的音乐测验比较，西肖尔测验的刺激材料主要是一系列音乐调式或音符刺激，而后来的测验多采用有意义音乐选段。该测验的刺激由唱片或磁带呈现，每一项目共有两个音或两个音阶，测量被试音乐能力的六个要素包括辨别音调的高低、辨别音强的高低、辨别节拍、辨别时间的长短、辨别音色或音质以及音调的记忆。每一项目的音阶差别开始时显著，随后越来越细微，没有音乐才能的人，仅能区分显著的差别，不能区分细微的差别。这个测验偏重于听知觉方面。测试材料共有两套，分别用于测量专攻音乐和非专攻音乐的人。该测验适用于小学生到成人，每个测验约需10分钟。西肖尔测验中的音高辨别测验也用做某些军事及民用职业的听觉筛选测验。

音乐能力倾向测验（简称MAP）由戈登（E .Gordon）在1958年编制，测验材料用录音机播放，包括250个原版的小提琴和大提琴短曲选段。不要求被试有音乐知识或任何音乐方面的个人史，测量三种基本音乐因素：音乐表达、听知觉和音乐情感动觉，相对应地有三个分测验：T测验、R测验和S测验。前两个分测验都有正确答案，要求被试比较两个测验相同或相异；后一个分测验要求被试回答两个录音带的音乐哪个更具韵味。

8.4.3 创造力测验

比较有名的创造力测验是美国心理学家托兰斯（E .Torrance）等人编制的托兰斯创造思维测验（Torrance’s tests of creative thinking，T TCT），该测验是在教育情境中发展起来的，主要考察流畅性、灵活性、独创性、精确性这几个变量。

该测验包括12个分测验，托兰斯将每个“测验”称为“活动”，以缓解被试的紧张心理。主要有3 套测验，每套皆有两个复本，适用于从幼儿至研究生的文化水平。

● 言语创造思维测验：包括7项活动。活动1～3，要求被试根据所呈现的图画，列举出他为了解该图而欲询问的问题、图中所描绘的行为可能的原因及该行为可能的后果；活动4，要求被试对给定玩具提出改进意见；活动5，要求被试说出普通物体的特殊用途；活动6，要求被试对同一物体提出不寻常的问题；活动7，要求被试推断一种不可能发生的事情一旦发生会出现什么后果。测验根据流畅性、变通性及独创性记分。

● 图画创造思维测验：包括3项活动。活动1，要求被试把一个边缘为曲线的颜色鲜明的纸片贴在一张空白纸上，贴的部分由他自己选择，然后以此为出发点，画一个非同寻常的能说明一段有趣的振奋人心的故事的图画；活动2，要求利用所给的少量不规则线条画物体的草图；活动3，要求利用成对的短平行线或圆尽可能多地画出不同的图。此套测验皆根据基础图案绘图，根据流畅性、灵活性、独创性和精确性记分。

● 声音语词创造思维测验：这是后发展起来的测验，两个分测验均用录音磁带实施。活动1，为音响想象，要求被试对熟悉及不熟悉的音响刺激做出想象；活动2，为象声词想象，十个诸如“嘎吱嘎吱”等模仿自然声响的象声词展开想象。两个活动皆为言语性反应，对刺激作自由想象，并写出联想到的有关物体或活动。根据反应的罕见性，记独特性分数。

通过托兰斯创造思维测验获得的创造力与智商（一般智力）的关系。

第37章 能力的测量

第37章能力的测量