一、心理测验的概念
心理测验(psychologicalt testing或mental test)是运用心理测量技术将人的心理现象量化的一种手段。人类的个体心理特征千差万别,心理现象纷繁复杂,对人的心理现象能不能像血压、脉搏那样测量,这个问题在我国古代就有人思考过。如战国时期的思想家孟轲曾对齐宣王说:“权,然后知轻重;度,然后知长短,物皆然,心为甚,王请度之。”2000多年前孟子就认为心与物二者之间具有一种可测量的特性。美国近代著名心理学家桑代克(Thorndike)也曾说过:“凡是客观的东西都以数和量的形式存在于世,心理现象是客观存在的,所以也能数量化。”测验心理学家麦柯尔(Mcall)进一步补充了桑代克的看法,认为“凡是具有数量的事物都必定可以测量”。心理现象与物理、生理现象一样,也是客观存在的一种现象,也应与物理、生理现象一样,可以进行测量,可以作量化分析。心理测量,便被用做取得心理行为变化的量的数据,用来比较、鉴别和评估不同个体之间心理行为上的差异,或同一个体在不同时期、不同条件或不同情境下的心理反应与心理状态。心理测验的发展,说明了人的心理现象是可以测量的。
心理测验目前尚无统一的定义。Anastasia认为:“心理测验实质上是行为样本的客观的、标准化的测量。”Cronbaek认为:“一个测验是观察一个人行为的一种系统性方法,并用一个数量化或范畴系统作为辅助手段来描述这种行为。”更完整地说:心理测验是在标准情境下,取出个体行为样本进行分析和描述的一种方法。
(一)标准情境
所谓标准情境实质上是标准化过程。一方面要求对受试者用同样的刺激方法来引起他们的反应,即测验材料的内容、答案、施测的条件与指导语以及评分方法等都是统一规定不变的;另一方面要求受试者的心理状态处于最佳时期。
(二)行为样本
这里所说的行为,系指个人的认知过程(包括感知、智力和记忆等)和个性等。测验研究如同对空气、人体血液等进行物理化学分析时的取样研究一样,取部分代表全体。所谓行为样本,是指有代表性的样本,即根据某些条件所取得的标准样本。有时会出现偏差,因此要通盘考虑样本的有效性、有限性与偏离度。
(三)结果描述
心理测验的结果,一定要加以描述,才有意义。描述方法大体分为两类,即数量化和范畴化。如对智力行为可进行数量化描述,有的心理品质不便数量化,就采用划分范畴的方法即范畴化。当然,可数量化描述的心理品质也可范畴化,例如,个性测验结果以内向或外向表示,智力划分为平常、超常和低下。这些均属划分范畴的范围。
二、心理测验发展简史
心理测验的出现与研究人的个别差异有密切联系。关于人的个别差异的观察与描述自古就有。在西方,个别差异的问题早被科学家重视,如希波克拉底提出的气质学说等。在我国古代的文、史、教育、医学的典籍中也早有记载。如孔子有三千门徒,其中有七十二贤人,这些贤人就是一些品德高尚、才智过人的人。到了汉朝,实行荐贤制,荐贤就是挑选个别能干的人。三国时代,蜀国丞相诸葛亮在其《心书》中提出用行为观察法来识别个体人格特点的七大要点:“问之以是非,以观其志;穷之以辞辩,而观其变;咨之以计谋,而观其识;告之以祸难,而观其性;临之以利,而观其廉;期之以事,而观其信。”同时,在我国古代也出现了七巧板、华容道、九连环等娱乐工具,是原始的对个体智力进行测验的工具。
近代心理测验的历史只有100多年,随着自然科学的发展人们已认识到,凡是客观的事物都以质和量的形式存在。人的心理特征存在个体差异,是客观现实,而且这种差异也可以用数量化的手段来表示。
英国人类学家高尔顿(Golton)是对人类个体心理差异进行研究的首创者,他通过各种调查,认为遗传在智力发展中起很大作用。1860年,他开始研究智力测验,并设计了一些智力测验量表,将统计学的方法引入心理测验,被认为是现代心理统计学与教育测量学的先驱。1879年,德国心理学家冯特(Wundt)在莱比锡大学建立了世界上第一个心理实验室,主要研究个体反应时的差异。他的学生即美国心理学家卡特尔(J。M。Cattell),在这个实验室里发现,不同人的反应时是有差别的,从而启发并激励了卡特尔认为:“心理学不能达到自然科学的准确与精密,除非它建立在实验与测量的基础之上。”卡特尔一生从事心理测验研究,对心理测验的理论和实践都作出了很大的贡献。
1895年,美国心理学会责成一些人组成心理测验委员会,1896年这个委员会设计了一系列测量量表,并开始对大学生进行测验。
19世纪末,欧洲许多教育家提出对低能儿童实施特殊教育。为此,1905年,法国教育当局委托心理学家比奈(Binet)和医生西蒙(Simon)首先编制了第一份“儿童智力量表”,又称“比奈―西蒙智力量表”,对智力落后儿童进行鉴别,取得了一定的实用效果,这一成果引起当时各国心理学界的关注。1916年,美国斯坦福大学心理学家推孟(Terman)对该量表进行了全面修订,创立了“斯坦福―比奈智力量表”。该量表引入了“智商”概念,使之更加完善。此后,西方掀起了心理测验研究的热潮,使心理测验工作更加普遍地开展起来。
继“斯坦福―比奈智力量表”之后,20世纪40年代“韦克斯勒智力量表”问世,这个量表共分三种,即韦氏成人智力量表、韦氏儿童智力量表和韦氏学龄前儿童智力量表,韦氏智力量表采用“离差智商”的计算方法,更能反映出不同年龄阶段的智力状况。这一量表的信度、效度都很高,目前已成为世界上运用最广泛的智力测验量表之一。我国的心理测验也有较长历史,1917年在清华大学首先引进了“斯坦福―比奈智力量表”,1920年在南京高师开设了心理测验课;随后,北京高师、武昌高师等高等学校相继开设了心理测验课;1922年中国教育促进会在济南成立了心理测验专业组,请各国专家讲学,向外国学习。同时,自己还编制了十几种测验量表。当时参加的人有南京的肖孝嵘、艾伟,燕京大学的陆志伟、吴天敏。抗日战争和解放战争时期心理测验工作低落下来。解放后,我国照搬苏联的心理学,恰好当时苏联反对心理测验,而我国在“左”的思想影响下,一直对此无人问津。直到1979年,全国医学心理学专业委员会在天津开会,才又恢复了我国的心理测验工作。十几年来,我国的心理测验工作进展很快,全国心理学会还于1984年末成立了心理测验工作委员会。目前修订的有韦氏成人智力测验量表(WAIS)、韦氏成人成套记忆测验、明尼苏达多相人格调查表(MMPI)、艾森克人格问卷(EPQ)等。
目前,心理测验已被医学、教育、工业、体育、军事等各个领域广泛使用。心理测验在医学临床上被喻为“心理CT”,可帮助诊断、鉴别、评估治疗效果,进行临床研究。近年来,我国的医学心理学家已经对各种心理测验的临床应用发生兴趣,研制并修订了各种测验量表。心理测验在我国医学临床上有着广阔的发展前途。
三、心理测验的分类
心理测验种类很多,据统计,英语版的测验已达5000余种,1985年出版的《心理测验年鉴》第9版(MMY-9)共收录了1409个测验,我国最常用的心理测验也有300余种。如此繁多的测验,种类五花八门,但大致可归纳为以下几种。
(一)按测验目的分类
1.智力测验
目的在于测量人的智力水平,常用的有比奈―西蒙智力量表、斯坦福―比奈智力量表、韦克斯勒智力量表等。临床应用于儿童智力发育情况的鉴定及脑器质性病变、退行性病变的诊断参考,还可用于某些精神疾病的诊断参考。
2.人格测验
根据普通心理学中关于人格的理解和看法,对一个人的人格进行测量与评估。常用的有明尼苏达多相人格调查表、艾森克人格问卷、卡特尔16种个性因素测验、主题统觉测验、洛夏墨迹测验等。这些量表在临床上运用非常广泛。
3.诊断测验
指专门用于临床的心理测验,如H-R神经心理学成套测验、医院焦虑抑郁情绪测定表、康乃尔心身症状调查表等。其中H-R神经心理学成套测验的应用很广泛。
4.特种能力测验
指检查人的特种能力,如推理、绘画、音乐、操作等能力的测验。
(二)以测验的性质分类
1.文字测验
测验项目均用书面文字或口头言语回答。如明尼苏达多相人格调查表、艾森克人格问卷均属文字测验。
2.非文字测验
这类测验也称操作测验,其项目多用实物、图片、模型之类的直观事物所组成,测验多以操作方式进行。如洛夏墨迹测验、主题统觉测验等。
(三)按测验的方法分类
1.问卷法
指采用文字材料以回答问题的形式让被试作出答案的倾向性选择。问卷法的测试经统计处理,结论易于作出数量化确定。明尼苏达多相人格问卷、艾森克人格问卷等均属此类。
2.作业法
一般用非文字材料,让被试者在规定时间内进行实际操作,多用于测量感知觉、运动、特殊操作等能力。如瑞文推理测验、卡特尔联合能力测验。
3.投射法
将一些无结构、无主题的墨迹图或人物图像呈现给被试,让被试者根据自己的理解和体验作出回答,借以分析归纳受试者的主观体验、情绪倾向和内心冲突。如洛夏墨迹测验、主题统觉测验等。
(四)按测验的组织方式分类
1.个别测验
指测验一次只有一个被试对象。通常测验者与被测验者是一对一、面对面地进行的。临床方面大都采用个别测验。
2.团体测验
在同一时间内由一个主试或几个主试一起对数量较多的被试者实施测验。由于这类测验在实施中对被试的行为不易控制,因此在临床诊断中应慎用团体测验。
除以上分类外,还有教育测验、职业测验、多种功能成套测验、兴趣和才能测验等。
四、心理测验实施的条件
一个有效的心理测验,不管它是什么类型,都必须经历大量复杂而严肃的工作。除应对测验的施测环境保持安静,对测验材料、测验涉及个人隐私及测验结果进行保密外,从理论上说还要求具备以下几个条件:
(一)效度(validity)
效度是指一个测验能够量出所要测量的事物的真实程度,它反映测量工具的准确性或真实性。效度是编制心理测验时最重要的条件。如果一个测验测得的结果不能反映其所要测的事物的真实程度,那么就无法对测验的结果进行解释,就不能说这个测验是有效的。如以算术测验为例,如果题目是用古汉语写的,一个人因语文水平限制读不懂题,这并不能说他的算术能力低,这种测验就是效度不高的测验。
(二)信度(reliability)
信度是指一个测验在对同一对象进行的几次测量中所得结果的一致程度,即测验工具的可靠性与稳定性。在编制时要进行信度测量,根据不同时间的数次测验结果求出它们的相关系数。相关系数高,则测验信度高,结论自然可靠。比如智商测验,今天测的结果是100,一个月后再测还是100或100左右,这叫可靠。在测验时,一个人所得分数会受情绪、健康、测验指导语等偶然因素的影响,偶然因素造成的影响越大,则信度越低,反之越高。
(三)常模(norm)
为了对个别测量结果进行正确评定,必须与规范的标准比较后才能作出判断,这种标准称为常模。常模是测验取样的正常平均值的水平,是用来解释测验结果的依据。个别测量结果通过与常模进行比较,便得出优或劣、正常或异常的结论。心理测验的常模是通过标准化的程序建立起来的。常模有年龄常模、百分等级常模、标准分数常模等,用于测验时,要根据实际需要选用适合的常模。
(四)标准化(standardization)
所谓标准化是指施测方法、记分方法、标准结果的换算法都要按一定的规定进行,不得例外,否则会影响对测验结果的正确评定。
(五)鉴别力
指测验项目对所测量的心理特征的区分程度,即该量表区别个体差异的能力,如果某个测验结果的数学标志设计过粗或过细,将会影响对个体差异的鉴别。