元分析(Meta-Analysis)基本原理及设计
虽然理论上的回顾和相关证据的详细评估已经出现(Hawkins&;Pingree,1982;Ogles,1987;Potter,1993),但迄今为止,尚未有人就涵化数据从整体上进行一个元分析。赫雷特-斯克杰鲁(Herrett-Skjellum)和艾伦(Allen)(1996)最近完成了一项关于电视与性别角色感知的元分析,其中包括了一些和我们这里相同的有关元分析的研究。尽管他们不从涵化的视角解释他们的数据,但他们的结论——显示出一个小的确定效果——是与涵化相关联的。
或许元分析的最大理由就在于它剔除了我们在回顾中的主观色彩。那些回顾者基于学院派或政治因素的制约,将涵化研究描绘成另外一种方式。由于这些分歧,人们就会怀疑是否批评家们正在读着同样的研究。虽然我们不作如下假设,即一个诸多结果的纯粹整合会在某种意义上自动地提供关于效果的“真实”根据,但与先前的回顾性研究相比,我们的数据资料的确让我们用一个更加系统的方式来看待涵化。
元分析纠正了传统的叙述文献回顾中的许多误区。例如,当批评家将公布的有意义的结果的数字简单相加时,形成类型II的差错的风险是相当大的(Hunter&;Schmidt,1990)。元分析能够使我们更加清楚这一研究,对那些不一致的结果,它可能会以另外的方式去解释。
在元分析中,每一个观察结果都被假定为来自意味着有代表性的“真实”效果的分布状态中的随机抽样。如此一来,样本量的调节就使得这种对真实效果的分析比任何单个的研究有了一个更好的估计。但是元分析所做远不止这些。累计的数据被检验,以便发现这一组关联是否是类似的、同质的(借用Mullen的术语,1989),或用以观察跨越不同研究所得结论中有多少可见的变量反映了样本的误差(借用Hunter和Schmidt的说法,1990)。如果结果是庞杂不一的,或者假如在样本误差因素被排除掉或其他判断都尽可能考虑到之后依然遗留许多无法解释的变量,那么元分析家就可以推断出一个理论驾驭的相关变量的研究,而这些变量可能一直主导着那些看得见的效果。(在下文中,我们严格地在统计学意义上使用“效果”一词,而且,我们强调,涵化和那种所谓刺激——反应式因果关系的效果观念是两码事。)
研究摘选
我们将自1976年以来公开出版的广泛综合的涵化研究书目文献进行检索归纳以开始我们的研究。无论从文化指标计划或者诸如商务和多种与世界范围内关联的网页之类的在线数据库里,这些都是很方便得到的。进一步的计算机和参考书目搜索未发现新的、另外的引文。从超过300部的书目中,我们建构了一个这些研究的基本数据库:(a)测试电视收视量(不论测量方式)与被认为提供了电视答案的因变量之间的关联;(b)分类引证或批评作为结论解释的涵化理论。出于其他某些原因,一些适合这些标准的研究也不能包括进来。
一些高度支持涵化理论的研究被排除了,原因是这些研究没有将受访者作为分析单元。例如,摩根(1983)发现,因看电视而加深恐惧感的人群显示出较强的涵化迹象,而在另一项研究中,可以观察到一个跨越全美各地区的变化受冲蚀的主流化倾向(1986);罗思柴尔德(Rothschild)(1984)用同质性很高的贵族人群作为分析对象。其他研究涉及相关议题但没有提出能够编码的相关数据(e.g.,Reep和Drambot,1989,考察观众对经选择提供的人物的评估在多大程度上是依据性别、某些特别播出的节目等等诸如此类)。
研究设计是另外一个因素。几乎所有的涵化研究都是以观察测量为基础的。存在着涵化关联的实验性测试或者可认识变量的实验性操纵,但这些都依赖短期现象,因而不能真实地测到涵化过程。
于是,我们仅将到目前为止最为共同的,纵览、概观类型的涵化研究纳入视野,而忽略了小规模的相关调查(一些例子,见Bryant等,1981;Shapiro,1991;Tan,1979;Wakshlag,Viol,&;Tamborini,1983;Zillman&;Wakshlag,1985)。
在一些案例中,理论上无法确定“电视答案”应该是什么。我们将所有研究尽可能地编码,以便产生一些与涵化理论有理由的关联,而没有滥用、轻信那些远离临界点的东西。自然,在一些案例中,这种判断可能有些侥幸;在总体上,我们尽最大可能地包容极端。然而,对于一些研究而言,明显不合理的涵化关联期望是能够推断出来的。
例如,冈特(Gunter)和沃伯(Wober)(1983a)测试个人对于火灾、洪水、心脏病、突如其来的打击、车祸、食物中毒,等等诸如此类的风险感知,而波特(1986)考虑由事故、癌症、肺炎以及心脏病引发的死亡的百分比的测量。没有任何证据表明电视以任何方式代表着这些风险,依照它们是否符合涵化预期来将测试结果编码,这显然是不可能的。
只有正式出版的研究结果被包括进来,来自非公开出版的参考资料、论文和报告等类似数据被排除了。或许有人争论,说这样做偏袒了有“较大”结论的研究,而那些不重要的结果往往在一些领域不给出版;然而,在涵化的案例中,这看上去是极端不可能的,因为这些刊物没有流露任何意愿去发表主张驳斥涵化理论的论文。这也保证了我们的分析更加光明正大。我们获取了格伯纳及其同僚提交的许多非正式出版的报告(暴力素描流程报告,认证报告及其他)。这些报告包含着大量支持性数据,但我们无法将这些数据与任何可比较的未公开出版的来自其他渠道的数据在量上进行平衡,后者可能(或不可能)是相反的。于是,在常规意义上没有“出版”的数据未被包括进来。这也使数据的可重复性得以保证。
没有某项研究仅仅因为逻辑方法上的“欠缺”,或者因为电视收视这一自变量的测量方式而被取消。这个变量携带了许多变化的形式,包括收视时间的自我陈述(每天、每周、“昨天”,抑或一天中的不同时间),收视特定节目的频度和类型(在顺序级别上),看节目的数量,以及日记测量(参见Potter,1994,关于多种手段被使用的讨论)。基于他们有关自变量的测量来排除某项研究是不恰当的,因为那种分歧本身就代表着涵化学说的一个重要部分。这样,我们将所有相关的可操作的收视情形都纳入视野,目的是在元分析中确定用不同方式测量电视收视是否有着不同的结果。
资料数据累积
在元分析中,单个的研究通常被看做一个分析单元,每一个独立的研究(或者独立的数据设置)得出一个单个的结果——也就是说,一个关于效果大小的单个评估——以此用于之后的元分析的一组积累起来的数据。当然,有许多研究提出了多种结果——例如,他们对一个建构可能用好几种测量方法——那就不总是独立的。在这些案例中,元分析倾向于选择一项结果去“代表”一个特别的研究或者去平均呈现出来的关联,以便元分析中的每一个材料都构成一个“独立的”测量。(对独立性假设的违背不影响效果大小的测量,但它确实影响效果的可观测的变化和由于样本误差造成的可预测的变化的测量;Hunter和Schmidt,1990,第480页。)
涵化研究提出了对一个极端事物出现多种结果的问题。这些涵化著作几乎从未报告过一个单个的“效果”(例如,一个F测验或者一个关联);通常是在一个单个的论文中去发现许多关联,或者非线性系数,或者ANOVA含义测验,或者类似的人或物。
在我们的选择标准之下出现了82个已发表的研究,其中包括了总数达5633的不同结果。如此高数目的多样化(并且是非独立的)结果是由3种因素导致的,而3个不同的解释被要求完成一个跨越各研究的意味深长的独立汇合。
首先,一些研究包含着因变量的多种测量。有些研究将一组变量组成表征某种情形的指数(例如,3项关于“丑恶世界”的指数)。但有时候单个的项目被分解开来进行分析。当不同的因变量被用来测量一个单独的基本的尺度或因素时,结果被简单地平均了。虽然由于可靠性的减少,这个源于平均值变量的效果测量比从那些放在组合指标中的同样的变量所得效果要小(Hunter和Schmidt,1990,第456页),但这已经是疑问最少的一种情形了。
第二,许多研究提出了大量的偏向性关联,这些关联经常是第一位的;我们编码的5633个结果中的几乎40%是有所偏向的。例如,在一些研究中,在收视量和一些因变量或指数之间的关联被提出是受如下因素控制的,即性别、教育、收入、年龄、其他媒介的使用以及更多因素——先是个别地然后是同时地起作用。这些显然不是独立的测试,但是平均这些因素并非解决问题的恰当方式。典型的元分析需要在无顺序影响的测量状态下去做;采用偏向性关联或次级系数是不可取的,因为那样一来效果大小的不同测量就没有可比性了(Hunter和Schmidt,1990,第502页)。因此,我们不采集任何带有偏向的数据(或次级资料),而只是分析最简单的关联。
然而这样做又在涵化研究上提出了一个问题,即何处存在的有意义的关联是虚假的。通过为大量的非独立结果申明第3种缘由,这个问题部分地得以缓解。第3种缘由就是,涵化研究是如此经常地在变化的人群中被分开来进行分析。也就是说,可能性(跨越样本标签的)关联在男性和女性、年轻人和老年人等类似的情形中被非常典型地提了出来。这成为一个十分重要的手段,例如,在主流化的分析中即如此。但是由于这些受测试的群体是重叠的(例如,同样公众的计算人数要多于一个群体的计算人数),因此这些测验也是非独立的。它不能形成任何观念来平均所有这些分离的群体,因为如果那样的话,其结果将相当于把作为样本的整个数据当作一个整体。
因此,我们决定在实施涵化分析时,不仅从整个样本,而且从人口统计学上分成不同群体。在文献中受测试的大量人群中,我们化繁为简,只聚焦于3个关键性的人口统计学标记:性别、受教育程度和年龄(虽然我们的较大的数据库包含了其他一些人群的数据)。那就是说,在我们为整个作为一个整体的独立样本积累和分析数据之后,我们也根据男性和女性、受教育程度的高低以及那些不同年龄的受测群体等情况来进行分离开来的元分析。这些不是跨越人群的独立测试(例如,女性在整个受测人群中受教育程度较高),它们更显示人口学分类上的独立性(例如,男性对女性)。这虽然不是标准的元分析程序,但这种做法似乎更为恰当合理,它被赋予涵化数据资料应有的本性和检验人群变量所需的方式,这是不同于检验调节变量的一些方式。(当然,它不涉及多种还原控制的选项,后者是我们分离地进行的。)
进一步的精炼与限制
很显然,涵化研究提出了一个令人迷惑的广泛产生歧义的议题的有关数据的多样性,涵化研究运用大相径庭的研究方法,从许多独立的样本中得出大量矛盾、分歧的数据资料,使之服从于多种多样的统计资料程序,被报告的信息的类别上也缺乏一致性(如信度测量、标准偏差等)。一些研究报告结果来自好几个不同的数据库;一些报告引发了一个以上的种类不同的研究;并且一些数据库利用了在大量出版物中报告过的研究。所有这些意味着在能够进行元分析之前必须对研究结果进一步精炼、删繁就简。
对于某一项而言,涵化文献中没有单个的因变量;但一个广泛的局部领域的变化却被揭示出来了。因此,为将事物保持在其复杂的所以如此的层面,我们仅将涵化结果集中于3个领域:(a)暴力(包括恐惧和丑恶世界量表);(b)性别角色;(c)政治信仰和倾向。关于年龄、少数民族、宗教、职业、科学、健康、家庭以及其他主题象征的涵化研究有待他们自己的元分析。
对于那些已经报告的没有一个特定系数的结果我们不予编码。例如,作者在谈及效果时往往表述道:“数据显示,当变量Y被作为进一步的控制被提供时,表X没有相对地改变。”在类似的案例中,没有明确给出数据,也就没有作任何编码。我们也没有对那些被高度提炼但没有被明确提出的数据进行编码。例如,格伯纳及其同僚(1981a)、摩根(1984)、摩根和尚翰(1992b)都提交了总结几乎1500个相关性的表格,但由于他们没有给出确切的系数,所以没有一项用于编码。