书城教材教辅心理学
44996000000051

第51章 智力测验

早在2000多年以前,中国的先哲们就提出了许多测量人的智力以及其他心理特征的思想和方法。据张耀翔考证,中国在战国时代已有九连环试验。在20世纪20年代,被美国哥伦比亚大学教授Ruger采入他的心理学实验中,并将实验结果著为《中国连环》(the Chinese Ring Puzzles)一书,得到学术界的关注。七巧板是另一项中国人对世界智力测验的贡献。七巧板的创用年代早于世界上智力测验中广泛使用的任何拼板。而且,张耀翔认为,当今世界上许多智力测验中的拼图部分,可能就是受了七巧板的启发而编制的。尽管如此,真正的现代智力测验的出现只是近一百多年的事。

一、智力测验概述

(一)智力测验的起源与发展

1.高尔顿:生理计量法

采用科学方法评定智力高低的历史,迄今只有100多年。在19世纪80年代,英国生物学家高尔顿的行为个别差异研究被认为是智力测验工作的开始。高尔顿相信,人类的一切知识来自感觉器官。因此他以各种敏锐度为指标,以线条长短(视觉)与声音强弱(听觉)的判断为试题,从而测量并推估智力的高低。此种偏重感官的主理计量法虽可以作为个别差异评定的工具,但测验结果却不具教育上实用价值。因此,到19世纪末,科学心理学兴起之后,心理学家们放弃了高尔顿生理功能取向,改以心理取向鉴别人类的智力。

2.比奈——西蒙:心理年龄

19世纪末、20世纪初法国实施义务教育制。这就需要有一种方法能够鉴定哪些儿童不能接受普通学校教育,他们需要特殊教育。这也是最早的智力测验的初衷。比奈和他的同事西蒙受命承担了这一任务,他们开始研究怎样在公共学校用对智力迟钝的儿童进行最佳的教育。他们认为,在制定教育计划之前,必须先确立一套测量所教育儿童的智力的方法,并于1905年编成了世界上第一套智力测验——比奈——西蒙智力量表。

该测验研究的关键意义在于把智力操作成绩进行量化。具体做法是,对每一个实际年龄上的儿童都制定一组问题或测验条目。这些条目的特点是:可以客观地记分;在内容、性质上因年龄而有区别;不受儿童生活环境差异的影响;要求通过判断和推理而不是机械记忆来解决。把这些条目对所有年龄的儿童进行测试,找出适宜于各个不同年龄的相应条目作为衡量各年龄智力的标准依据。比如,某个题目刚好7岁的儿童有60%能够完成,就把这个题目作为代表7岁儿童一般智力的标志。对每个年龄都找出6个题目作为智力标志,每个题目都代表2个月的智力。累加一个人所完成的题目数,就可以得到这个人的心理年龄(Mental age,简称MA)。如,一个5岁儿童完成了所有5岁组的题目,还完成了3个6岁组的题目,他的心理年龄就是5岁6个月。如果某儿童的心理年龄等于其实际年龄(Chrono logical age,简称CA),则为普通儿童;如果超过实际年龄,则为智力优秀儿童;如果低于实际年龄,则为智力落后儿童。心理年龄这一术语一直沿用至今。

3.推孟:比率智商

比奈测验很快传到了美国。斯坦福大学的心理学家推孟(L.T erman)于l9l6年修订、发表了比奈测验的美国版,命名斯坦福——比奈智力测验。由于当时美国劳工雇佣和后来第一次世界大战录用士兵军官的需要,这一测验在美国很快得到推广普及。

推孟对比奈测验衡量智力的方法做了重大修改。以前的比奈测验在用心理年龄作为直接指标时遇到一个问题。例如,一个5岁的迟钝儿童心理年龄为3岁。随着他年龄的增长,到了10岁时,他的心理年龄并不是5岁,而是6岁。这就是说,智力迟钝者的智力发展特征是,心理年龄并不一定保持比实际年龄低两岁的水平,而是会越来越落后于实际年龄。这样,如果直接用心理年龄并不能反映出相对于实际年龄的落后程度。然而,大致说来,智力年龄和实际年龄的比值MA/CA却是相对稳定的。于是推盂首先引入了智商(intel ligence quotient,简称IQ)的概念。具体公式是:

IQ=(MA/CA)×100

假设某人,其实际龄为8岁2个月,如果以月为单位,他的实际为98个月,亦即CA=98。

该人接受斯——比量表后的成绩是:

通过8岁组的全部题目,其基本心理年龄即为96个月;

通过9岁组4个题目,再加8个月;

通过10岁组2个题目,再加4个月;

11岁组(及以后)的题目全未通过,月数不再增加;

总的成绩,其心理年龄计为108个月。

则此人的智商即为:IQ=MA/CA×100=110

按此公式计算,智商乃是心理年龄与实足年龄的比值,故而称为比率智商(ratio IQ)。公式内乘以100的目的是消去小数,以整数值表示智商的高低。由比率智商的计算方式看,它基本上仍沿用了早期比奈的心理年龄的观念,只是改用智商之后,能以数值表示智力,使智力品质的心理特征更具科学意义。

4.韦克斯勒——离差智商

斯坦福——比奈量表创用的比率智商的方法,一致沿用了很多年。只是在对施测结果进行解释时必须参照本年龄组样本。比如,一个5岁儿童的测验成绩是110,在同龄群体中,该个体的智商要比其他84%的人高。如果一个10岁儿童的测验成绩也是110,那么,他的智商也同样优于其他84%的同龄个体吗?答案是否定的,因为每一年龄组样本的正态分布曲线可能不同,有可能10岁组儿童,智商必须提高到115,他在该年龄群体的位置才能达到84%。为了解决这一问题,著名心理测验学家韦克斯勒(David Wechsler,1896~1981),继斯——比之后编制了数个著名的智力测验,创用了一种离差智商(deviation IQ)。之所以如此命名,是因为采用了统计学上标准差(standard deviation)的观念来表示智商的高低。标准差是用来表示一组数值分布的分散情形,标准差的数值愈大,分散性或变异性也愈大。标准差的计算方法是,样本中的每一数与平均数相减,所得差值平方之后求和,再除以样本数,最后开方得到的平方根即为该样本的标准差。所谓离差智商,是指一个人的智力偏离本年龄组平均水平的方向和程度。测验规定,100为平均水平,该年龄50%的人低于该水平,50%的人高于该水平。如果一个人智商分数高于100,则表示高于平均水平;若小于100,则表示低于平均水平。这种智商的特点,从它本身并不能知道一个人知道什么或能做什么;它反映的是一个人与其同年龄组人的智力分布相比较下,所处的水平位置。

x是个人分数,X是进行测验标准化时抽测的同年龄组平均分,N是被抽测的人数,S是标准差。100分为定义的平均智商。从公式中可以看到,如果x大于平均分X则智商大于100分;若两者相等则智商等于100分,否则就小于100分。

在解释智力测验结果时,维克斯勒的做法是,先把测验结果的原始分数转化为标准分数(Standard Score),使其平均智商为100,标准差为15。因此,任何个体,只要在智力测验上得到的智商是115,那么他在群体中的位置就是优于84%的人。正态分布曲线有助于理解离差智商的含义。直到现在,虽然仍然以智商(IQ)一词表示智力的高低,但实际上指的是离差智商所代表的概念。

(二)智力测验与性向测验、成就测验的关系

智力测验与性向测验和成就测验同属能力测验范畴,三者既有相似之处,又有区别。能力测验是一个概括性名词,这类测验主要以应答的速度和正确性为指标判定结果。一般是分数越高或正确答案越多表明能力越强,成就越大。由于对能力的认定与实施目的不同,实际使用时,能力测验被分为智力测验、性向测验(又称能力倾向测验)和成就测验。

目前通用的智力测验一般注重的是表现在认知活动中的稳定的一般能力,如言语能力、数学能力、记忆能力、空间知觉、推理能力等。通用的智力测验,如比奈智力量表、韦氏儿童智力量表等,这些都可视为对个体的基本能力素质的考察。

性向测验泛指用以测量潜在才能的测验,其目的在于发现儿童的潜在才能,深入了解其长处和发展倾向。如美国大学入学考试用的学能测验(Scho lastic Aptitude Tests,SAT),这一测验度量的是到大学后学习成功的可能性。潜在才能是指个体未来发展的可能性,即在给予一定的学习机会时可能达到的水平,而不是个体现在已经具有的能力。

成就测验或称成绩测验,主要考察受测者在学习和训练后所具有的知识和技能水平,由于它被广泛地应用在教育工作中,因此,有时也被称为教育测验(educa tional test)。根据不同的标准,还可以对之进行更为细致的分类。影响成就测验上成绩的不仅是能力,而且包括习得的知识。

二、智力测验的技术指标

选择一个智力测验来度量智力水平时,首先应该考虑测验结果的一致性和准确性,即测验的可靠性和有效性。这是任何一个良好的测量工具都必须保证的前提,在测量学上称之为信度和效度。

(一)信度

信度即可靠性,是指多次测验结果的一致性程度。一个好的测量工具,对同一事物反复多次测量,或由不同的人使用,其测量结果应该保持不变。但是任何测验都只是对一个行为样本进行测量,以它为基础所做推论就不可能绝对精确。正如你在一门课程上的多次考试,由于题目不同,每次所得分数也不会完全相同一样,测量的结果总包含着一定的测量误差。通常,我们用两个测量结果的相关系数来表示信度,称之为信度系数大小介于0与1之间。根据误差源的性质,一个测验的信度可以分为以下几种。

1.重测信度

重测信度是指测验结果跨时间的一致性。它是用同一个测验对同一组人前后进行两次测量,两次测验分数的相关系数就是重测信度。

2.评分者信度

评分者信度是指不同评分者之间在测验结果计分上的一致性。当测验结果是由评分者主观评定时,评分者信度尤为重要。例如在体操比赛中,裁判评分的一致性直接影响着运动员的名次,因此,一般都要取消两极各一个分数后再求平均成绩。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。

3.内部一致性信度

内部一致性信度又称同质性信度,是指一个测验或分测验中各题目所测内容的一致性。智力测验通常由许多不同的题目构成,内部一致性信度可以通过将测验题目区分为两半,比较人们在两部分上的得分情况获得。如果测量题目之间具有很高的相关,表示具有高内部一致性,或者说同质性信度很高。一般说来,智力测验的同质性信度较高。从测量方法上考虑,这样求得的信度也称分半信度。

(二)效度

效度是指测量的有效性,即一个测验对它所要测量的特性准确测量的程度。一个测验总是为一定的测量目的而设计编制的,并具有一定的操作规则和使用范围,判断它的效度高低,首先要看它达到测验目的的程度,如果能正确地测量出所要测的东西,那么它就是高效度的测量。例如,用英文书写的算术题测量儿童算术能力,他的成绩不佳,可能出自算术能力低,也可能出自英文水平差未能理解题意。因此,作为能力测验便是无效的。同理,智力测验只能用来度量智力,而不能用它来度量个性,否则也是无效的。心理学家一般将效度进一步分为内容效度、构想效度和预测效度。

1.内容效度

所谓内容效度是指测验题目对预测的内容或行为范围取样的适宜性程度。例如,教师在讲课告一段落后要进行考试,而考题不可能包含讲过的所有内容,必须从中选出一个有代表性的题目样本,编制成测验,然后根据考试分数推断学生对该范围内知识技能的掌握情况。如果测验题目不是该范围内的有代表性样本,或者过难或者过易,那么由此做出的推论,其效度必然很差。

2.构想效度

构想是指心理学理论所涉及的抽象而属假设性质的概念或特质,如智力、焦虑、自我、外向性、攻击性等。构想效度表示一个测验是否达到了对某一理论概念或特质的测量。如果一个智力测验测得的结果与该测验所依据的智力理论或假设相符合,那么,我们说该测验具有较高的构想效度。

构想效度的确定通常需要综合评价各种不同的资料,一般采取两种途径:一是考察它与度量同类构想的测验是否相关,二是考察它是否与不应有关的东西无关。例如,羞怯测验的分数应与一个人出现在聚会上的次数、团体中的发言多少以及父母和朋友的评价有关,而与度量其他构想的测验分数,如空间知觉、推论能力等基本无关。

3.预测效度

预测效度又称效标关联效度,是指一个测验对处于特定情景中的个体的行为进行预测的有效性,也就是对我们所感兴趣的行为能够预测到什么程度。被预测的行为是检验测验效度的标准,简称效标。一个心理构想的外部行为表现可能很多,因此,用于检验测验的效标也很多,效标关联效度也就不止一个。如果一个人在选拔消防员的测验上得分很低,而他在防止火灾和灭火中表现得与真正的消防队员一样好,那么,毫无疑问,这个测验不能用于消防员选拔,它的预测效度太低了。

如果一个测验是有效的,它必定是可靠的。但反过来,一个测验具有很高的信度,它并不一定是有效的。比如,如果我们使用一个指标偏高的秤测量体重,尽管每次测量都得到一致的结果,但它并不能准确测出人的体重。

三、常用智力测验

能力测验根据不同的维度可以分为不同的类型。按照能力类别分为一般能力(智力)测验和特殊能力测验;按照实施对象可以分为个别测验和团体测验;按照测验的内容或材料可以分为言语性测验和非言语性测验;按照测验关注的焦点分为速度测验和难度测验。不同的测验各方面有着很大的不同,这里只介绍几个比较有代表性的智力测验。

(一)斯坦福——比奈智力测验

比奈的智力测验发表后,美、英、德、日、意等国分别将其翻译成本国文字并结合各自的国情予以修订。其中以1916年推孟在美国斯坦福大学修订的版本最负盛名,称为斯坦福—比奈测验(Stanford-Binet Test),并广泛地流行到世界各国。在我国,最早是陆志韦于1924年翻译并修订了斯坦福—比奈测验。

斯坦福—比奈测验是一种个别施测的标准化智力测验,自1916年修订完成并广泛使用后,又经过1937年和1960年两次修订,内容上作了很多变动,1986年出版最新的第四版。适用于2~18岁的被试。测验题目经过严格的筛选,按从易到难的顺序排列在各分测验中,由受过专门训练的测试人员对儿童进行单独测量和计分。目前的版本由15个分测验构成,代表着4个主要的认知领域:言语推理、抽象或视觉推理、数量推理和短时记忆。在测验过程中,每一步骤的实施必须遵照标准程序。测验一般从低于儿童年龄的较容易的题目开始,在儿童不能回答更难的问题时结束。

(二)韦克斯勒智力测验

韦克斯勒智力量表(Wechsler Intel ligence Scales)是美国临床心理学家韦克斯勒于20世纪中期编制的三种智力量表的总称,是目前世界上使用最多的智力测量工具。它包括韦氏成人智力量表(Wechsler Adult Intel ligence Scale-Revised,简称WAIS-R),测量16岁以上成人的智力;韦氏儿童智力量表(Wechsler Intel ligence Scale for Children,简称WISC),用于6至16岁学龄儿童;韦氏幼儿智力量表(Wechsler Preschool and Primary Scalecf Intel ligence,简称WPPSI),测量4至6岁半学龄前儿童的智力。这三种量表项目类别相似,只是内容及难度方面存在差异。

韦克斯勒认为:“智力是个人有目的行动、理智地思考以及有效地应付环境的整体的或综合的能力。”基于这种认识,他在成人智力量表和儿童智力量表中都设计了11个分测验,以对智力进行全面考察。这些分测验分别度量个体的言语能力和操作能力。言语能力的测量包括常识、词汇、类比、理解、算术和记忆广度,操作能力包括图片排列、填图、积木、译码、拼图等。

韦氏量表的一个重要特点是摈弃了心理年龄的概念,但保留了智商概念。它运用统计方法,以儿童在同一个年龄团体中成绩所处的位置确定智商高低。用这种方法确定的智商又称离差智商。它的另一个显著特点是,不仅给出了一个人的智商总分,而且还给出了言语和操作两方面的各个分量表分,使我们可以更加清晰地了解一个人的智力结构,以及他在智力发展上的优势与弱点,从而对儿童智力的培养提供了科学依据。韦氏智力量表也需要进行个别施测。个别施测不仅使测量更加准确,减少干扰,而且可以获得许多其他信息,如对待测验结果的态度、情绪表现等,从而有助于做出更准确的判断。

(三)团体智力测验

个别施测的智力测验虽然具有许多优点,但它花费大,速度慢。为了弥补这个不足,心理学家还编制了适用于集体测量的团体智力测验。团体智力测验最早出现在第一次世界大战时期。面对150万应征人伍者,为了适应战争的需要,美国陆军先后研制了甲、乙两种纸笔型团体智力测验。后来团体智力测验被广泛用于学校、企业、军队等人员选拔和招聘工作中。目前,广泛应用的团体智力测验是英国的瑞文标准推理测验(SPM),由60道题目组成,两个瑞文标准推理测验的题目示例。

四、智力测验的应用和局限性

(一)智力测验在学校教育中的应用

智力测验,通俗地说就是测量人的聪明程度的方法。由于人们认识到智力对人的成长具有十分重要的作用,所以智力测验颇受欢迎,尤其是儿童智力测验。目前,智力测验主要用于三个方面:医学方面、儿童保健方面、学校教育及人材选拔方面。比如有以下情况的孩子,可以考虑做一下智力测验:(1)出生时有窒息、产伤、颅内出血或体重不满2500克的孩子;(2)患有某些染色体异常、遗传性代谢缺陷(比如先天愚型、苯丙酮尿症)等疾病的孩子;(3)患有由于碘缺乏导致的呆小病的孩子;(4)出生后发生颅脑损伤、感染(如脑膜炎)、缺氧(如由于某些疾病导致休克、昏迷或惊厥大发作)、中毒(一氧化碳或其他化学毒素如铅、汞等造成的中毒);(5)怀疑患有“多动症”、“孤独症”等疾病的孩子;(6)虽然没有明显的疾病史,但在儿童生长发育过程中发现其语言表达、动作灵敏度、对外界的反应,以及计算、模仿能力都比同龄儿童低下的孩子;(7)上学后多次考试成绩不及格,并可以排除不用功或学习方法不当的孩子;(8)孩子处处表现比同龄孩子优秀,比如动作的掌握、模仿的逼真程度、语言的表达能力、计算数学题的速度、回答问题的能力、对外界事物的反应等等,对这样的孩子可作智力测验,以供研究;(9)幼儿园或学校进行某种专业(如绘画、计算、知识竞赛等)人才选拔时,可采用智力测验的方法进行筛选;(10)某些家长或学校根据自己的孩子或学生的特点,也可以提出智力测验要求。

在学校教育中,评价儿童智力发育主要有如下意义:(1)为早期教育提供依据。儿童生长发育有其规律性,早期教育应依据其规律性,不能超越其实际水平和能力,不能要求过高、过急;(2)及早发现有缺陷的儿童,充分利用早期神经系统可塑性强的时机,改善环境进行训练,及早进行干预,以促进其智力发育;(3)辨别智愚,因材施教。如有的小儿动作发育较迟钝,有的语言发育较晚,可根据每个儿童存在的具体问题加强教育和训练。

(二)智力测验的局限性

儿童智测的目的在于了解儿童的智商状况,有目的、有针对性地实施教育,提出适合儿童发展的目标,挖掘他们的最大潜能。但是,如果把握不当,过分迷信测验结果,很有可能陷入误区。如何正确看待儿童智力测验,著名心理学家潘菽说过:“心理测验是可信的,但不能全信;是可用的,但不能完全依赖它。”因为测验毕竟是一种工具,作为工具总有其局限性。其局限性主要体现在,理论依据不足,准确性及预测性有限,存在文化偏差等,因此,在使用智力测验时一定要慎重。