定群研究资料分析一般有两种情况,当观察人群流动性小,比较稳定时,不论观察时间的长短和发病频率的高低,以观察开始时的人口数作为分母,整个观察期内发生的病例数作为分子,可计算得到该观察期内的累积发病率(cumulativeincidence,Cl),或累积死亡率(cumulativemortality,CM),Cl=n/N,式中,狀表所观察期内的发病或死亡人数,N表示观察开始时的人数。1995年在美国开展的一项对13568名少年儿童健康问题纵向研究(addHealth),在随访一年之后结果显示超过9%的少年儿童被报告患有中重度抑郁症状,就是基于这样一种统计分析的方法。
当观察人群的流动性较大,由于研究对象进入研究队列的时间先后不一,或由于各种原因造成研究对象的失访,每个对象的随访时间不同,用观察开始的总人数作分母计算率就显得不够合理。此时以人时(person一time)为单位进行率的计算比较适宜,即以观察人数乘以观察时间作为分母。因为以人时为单位计算的率带有瞬时频率的性质,称为发病密度(incidencedensity,ID)。观察时间可以为年、月、日等,一般以年为单位,即以人年(person一year)为单位计算发病率或死亡率。ID=n/(PT),式中,n表示观察期内的发病或死亡人数,PT表示观察人时的总和。比如300个对象观察了3年,就可算做900人年,精确计算方法可参考有关书籍。
五、流行病学研究中的质量控制
流行病学研究之目的是为了探索存在于医学客观世界的真理。但是医学事件如此复杂,往往使人眼花缭乱甚至被假象所迷惑,特别是精神和行为障碍的研究受社会心理因素影响更大,如不注意质量控制,将会导致研究结果与真实情况不一致。我们把研究所得到的实际值与真值之间的差异称为误差,显然误差越大研究者所获得的信息就距离真理越远,流行病学与医学统计学为发现和控制各类误差提供了理论基础及实用方法。
(一)误差与偏倚
流行病学研究是对群体进行的研究。生命科学的基本规律之一是:同质总体中个体之间存在变异,不同质的总体其变异性相对固定。由于这种变异性的存在,即使采用最真实、最可靠的生物学指标在同质总体的个体之间以及同一个体不同时间所测得的结果仍然会出现不一致。理论上的真值对群体而言是计算出总体中全部个体测量值的平均值,对个体而言是无数次测量结果的平均值。现实的临床研究是对样本个体一次测量结果进行的研究,是从样本的均值估计总体均值。样本均值和总体均值之间的误差称抽样误差,随着抽样样本人数的增加,抽样误差减少,如果将总体中全部个体均抽为样本,抽样误差亦即随之为零。除因变异导致误差以外,还有一类无法控制的、目前尚不明确的原因造成的误差,人们把它归因于机遇,称随机误差,此类误差无固定方向,随机产生,它和抽样误差混在一起,有时很难区分,由于此两类误差符合正态分布的原则,医学统计学采用概率统计的方法用标准差及标准误估计误差对真值的影响,以上两类误差是不可避免误差,只能控制,不能完全消除。
除以上两类误差以外所有的误差统称偏倚(bias),主要指系统误差,也包括过失误差、条件误差、顺序误差等等,大多数由人为因素造成,对结果的影响更大。所谓系统误差,指由一定来源、使研究结果按照一定规律偏离真值的误差。此类误差可来源于受试者,如抽样不均匀、分配不随机或观察单位本身的变化所引起,可来源于观察者所谓个人误差,来自测量仪器所谓仪器误差,来自测试环境及其他非实验因素所谓条件误差,来自统计分析方法使用不当或理论上的不完善等各个环节。规律性的偏离可以是恒向、恒量的,也可能是周期性的,医学科学研究中一个随机误差很小的实验会因偏倚导致结果完全失真,而这种偏倚无论采用什么高级的统计分析手段也无法矫正。
由此可见,流行病学研究获取研究数据实际值的变异包括与测量目的无关的偶然因素引起而又不易控制的变异(随机误差),与测量目的无关但恒定的可以控制的变异(偏倚)及与测量目的有关的真实变异三部分组成。儿童精神医学的流行病学研究常常使用各种心理测量,在测量理论中,信度的本质被定义为一组测量值的变异数(包括与测量目的有关的真变异数和与测量目的无关由偏倚引起的变异数)与总变异数(实测值的变异数)的比率,这个比率越高说明随机误差越小,所以信度是一种可靠性指标;效度被定义为与测量目的有关的真实变异数与总变异数的比率,比率越高说明真实性越高。在总变异中随机误差引起的变异既影响信度又影响效度,系统误差引起的变异则只与效度有关。
(二)常见偏倚种类
偏倚的分类有多种,为便于记忆,采用选择偏倚、信息偏倚和混杂偏倚三种分类。
1.选择偏倚(selectionbias)这类偏倚是指由于选择对象的方法有问题或缺点而导致结果偏离真实情况,即选入的对象与未选入者之间出现了某些特征的系统误差。这种偏倚常产生于研究设计的阶段,比如在利用住院病人作研究对象时,病例只是该医院或某些医院的特定病例,由于病人对医院及医院对病人双方都有选择性,所以作为病例组的病例不是病人全体的随机样本。某些大医院有较多转诊病例,他(她)们多为重病或有较多合并症,其病因可能与一般病例不尽相同,如果住院病人中有较多转诊的病例作为研究对象也可能造成偏倚。如果对照是选用医院的某一部分病人,而不是全体人群中的一个随机样本,同样会产生偏倚。这称为住院偏倚,也叫Berkson偏倚。
选择的研究对象可以因各种原因失访或退出观察,在病例对照研究中,病例组一般对调查热心,积极配合,对照组则认为自己身体健康,常常借故躲避调查,如在前瞻性队列研究时,在较长的追踪观察期内,总会有对象迁移、外出、死于非终点疾病或拒绝继续参加观察而退出队列;历史性队列研究时,有些人可因档案丢失或记录不全等造成资料缺失,这称为无应答偏倚(non一responsebias)。临床研究的对象应为目标人群的随机无选择偏倚样本,但在实验设计时总会以各种原因排除部分对象,比如在现场干预实验中,研究者往往对某些受试者的反应有倾向性,对效果最差的研究对象的实验结果特别注意,从而较易发现这些对象不合标准,而使之被排除在实验之外,将效果较好的研究对象留在实验组中,由此获得的结论往往使干预效果偏高,此类偏倚称排除偏倚(exclusionbias)。
2.信息偏倚(informationbias)信息偏倚也称观察偏倚,系指收集资料阶段由于测量暴露或结局的方法有缺陷,致使各比较组之间产生了系统误差,它可来源于被研究者、测查工具及研究者本身。信息偏倚主要表现在:(1)回忆偏倚和报告偏倚:回忆偏倚大多由于研究对象的某些特征不同,造成某些对象对过去的事件回忆不准确而引起偏性。例如病例因患某病,故其本人或家长能详细回忆出以往的暴露史,而健康人则常遗忘以往的暴露,或因某些事件发生频率很低,或时间间隔过久,被研究对象遗忘,造成提供信息与实际情况不符,称回忆偏倚。当调查某些敏感性问题或个人隐私时,调查对象可能隐瞒事实不愿作正确答复,这种有意说谎而造成的偏倚称报告偏倚。