苡菥莼
经验的失落:传统综述
“三人成虎,十夫揉推;众口所移,毋翼而飞。”
——《战国策》
这是个信息横流的时代,每年数以百万计的生物医学文献使得想要跟随原始文献的步伐成为不可完成的任务。即使是在单个领域里,有关的临床研究动辄上百,其结果也常常纷繁芜杂,各说其是,临床医生难以对这些原始信息的可信度进行判断。综述让人们看到了研究合并可能带来的希望。
然而,普通综述对数据的合并并不如人们所幻想的那样严格和精确。其中一个比较明显的问题是,传统上,综述者很少以一种开放的目光来对待各种可能的结果,他们更愿意自己的个人经验或者预先形成的观念入手,这样的综述难免不带上有色眼镜。纵然综述者全面看待了各种可能性,传统的叙述性综述(narrative review)很少交待参考研究的选择纳入标准、质量评价情况以及数据合并方案等等。因而,传统综述无可避免地掺入了大量偏倚(bias),难以获得足够的真实性(validity)。
尽管如此,这种叙述性综述仍广为传播,具有广泛的影响力。直至20世纪八十年代,始有一些评论员发现了传统综述产生中的不足及其带来的偏倚。他们发现,基于同样的研究,不同的综述者居然得出了许多截然不同的结论——无一例外的,它们更多的像是作者个人观点的辩护辞,而不是对研究证据的总括和客观评论。
1992年,这个问题再次被提出并予以强调。艾黎奥特. 安特曼(Elliot Antman,)及其同事在他们的两篇文章中报道了两个骇人听闻的发现:
“如果早先就对关于溶栓治疗对心脏病发作效果的原始研究进行系统性评价的话,那么它的疗效早在70年代中期就该明了。”
“遗憾的是,我们的教科书和叙述性研究无法对当前知识进行有效的总结。”
现有的原始对比研究是个大宝藏,很多重要结论急待从中提取,然而传统综述并不能很好地完成这项任务,人们需要一种更严格的文献处理方法。系统评价即是在人们的不断探索中形成的一种二次研究方法和理论。不过在论述系统评价之前先让我们来看看另外一个东西。
证据的积淀:随机对照试验
“应用随机对照试验之所以重要,是因为它比其它任何证据更为可靠”
——阿齐. Archie Cochrane《疗效与效益,健康服务中的随机反映》
正如Cochrane所说,随机对照试验(randomised controlled trials, RCTs)是临床原始研究中最可靠的证据,更重要的是,RCT的数据是绝大多数系统评价结果的唯一来源。
实验设计
临床实验的设计根据其几大要素可分为随机对照试验、非随机对照试验、队列研究、病例-对照研究及交叉试验等等(如图)。随机化和平行对照是RCT的两大要素,这样的设计才能最大限度地减小受试对象选择及分配所带来的偏倚,因而RCT被誉为“gold standard”。
RCT在设计上类似于基础科学研究的对照实验,其显著特点即是病人在分配上只单纯地遵循概率的原理,不夹杂人意识感情的影响。我们知道,只有站在相同的平面才能论高低,两组病人若没有基线情况(如年龄、性别、病情等等)的一致性,在治疗结束时将难以对所研究干预的效果进行评判。随机化分配病人正是达成这种可比性的最重要一环。复杂如计算机随机表,简单如抛硬币法,都是纯以概率说话的随机化方法,决定病人进入试验组还是对照组。
偏倚无处不在,远非随机化所能完全克服。治疗过程中医护人员的态度、病人的配合度均会致命地影响结果的可靠性。为避免出现实施偏倚(performance bias),必须限制病人和医护人员对分组情况的知晓,随机化方案的隐藏(concealment of randomization)和盲法(blind)就是针对这种偏倚设计的。二者是同一保密措施在不同阶段的实现。所谓“盲”即是“keep from informed”的意思,干预措施要求做到“indistinguishable”,病人不知道分组和干预措施的差别称为“单盲”,如医务人员也排除于知情者之外则称为“双盲(double blind)”,双盲常常是高质量的RCT所必备的要素。人们熟知的安慰剂就是实现盲的一种方法。
除此而外,优秀的RCTs常常还会采用盲法检测疗效,并对病人的失访或受试退出作意向治疗分析(intention to treat analyze, ITT),以排除检查偏倚(detection bias)和失访偏倚(attrition bias)对结果真实性的影响。可见,对证据的追求总是跟偏倚的克服息息相关。一步步偏倚的剔除,完成了RCT对证据的积淀。
随着多因素疾病如恶性肿瘤、心脑血管疾病和各种慢性疾病成为危害人类健康的主要问题,对这些疾病的治疗不可能像急性传染性疾病一样简单而有效。小样本的临床实验常常无法满足统计学对检验效能的要求,而大规模随机对照试验往往超过一个单位的承受能力,因而目前的随机对照试验仍以小样本临床研究为主,其不高的检验效能一直困扰着临床医师,而难以作出确切的结论。
1979年,Archie Cochrane提出将各专业领域的所有随机对照试验收集起来进行系统评价,合并单个研究而获得较大的样本量,提高检验效能,为临床医疗时间提供可靠证据。随着统计方法的逐步完善,80年代即出现了跨国合作的对某些常见疾病和重要疾病某些疗法的系统评价,这对改变临床实践和指导临床研究方向产生了重大的影响,被认为是临床医学发展史上的一个重要里程碑。
智慧的合并:系统评价
“科学的方法,可能看起来繁琐和生硬粗暴,但是与科学发现相比,要重要得多。”
——卡尔.萨根《魔鬼出没的世界》
系统评价(systematic reviews)在英文字面上很容易让人误解它是一种更严格的综述,然而在原始研究的取舍、数据的提取与处理,以及维护更新等方面的差异都无法在将它跟传统综述联系起来,因而中国循证医学中心将其翻译为“系统评价”。
简单地说,系统评价也是种原始文献的合并处理方法,将多个RCT的数据合并以求获得更为真实的结论。经过统计师、临床流行病学家和临床医生的不懈努力,系统评价的理论和方法不断完善,业已形成统一的施行规范。经典干预研究的系统评价的施行应该包括下面这些步骤:
◇ 临床问题的构建 临床问题的构建决定了研究的针对性和实用性,决定了相应临床研究的取舍。一个问题的构建需要对受试病人、干预措施以及相应的临床结局有一个清晰明了的描述——用什么措施处理什么病人,可能会得到什么结果。只有研究共同临床问题的随机对照研究才能用于系统评价进行合并,保证各试验间的同质性是得出真实结论的基础。
◇ 原始文献的获取 依据临床问题制定检索策略、检索数据库和查找索取原文,这是科学研究都要做的枯燥乏味的一步。而Cochrane系统评价优于传统综述的一点正是文献的全面性,力求收集到该领域所有已发表和未发表的RCTs,而不介入研究者本身的意愿。
◇ 文献质量评价 为保证结果的真实性,Cochrane 协作网要求评价员对所纳入的RCTs进行严格的质量评价。影响文献质量的因素除前面所述的平行对照、随机化、随机方案隐藏、盲法及对失访的ITT分析而外,还包括研究的样本含量计算、受试人群同质性检验及统计处理方法等等。一个RCTs从设计、施行到撰写过程中对上述要素的把握将直接影响文献质量的高低及其在系统评价中所占的权重。
◇ 数据的提取与合并 系统评价多有对临床结局指标的定量统计分析,将从多个RCT中提取出的相关数据进行合并,得到一个可用于指导临床决策的最可靠结果,即所谓的“meta-分析(meta-analyze)”。Cochrane 协作网发布的Review Manager(Revman)即是专门用于meta-分析的规范化软件。这是出结果的一步,数字往往容易被过度关注,事实上统计结果不等价于临床结果,系统评价的结论也不能由meta-分析的结果来代替,是非好坏应有个综合的评价。
◇ 结论陈述 meta-分析所得出的仅仅是统计结果,评价员必须根据文献和临床实际情况得出具有一定实用性和针对性的临床应用建议。
另外,Cochrane 系统评价员需定期检索新发表文献,对系统评价进行更新,保持结论的真实性。
需要指出的是,完成一个优秀的系统评价并不是想象中那么简单,“systematic”这个徽章的获得需要付出大量细致而繁琐的劳动,因为毕竟,这是具有最高可靠性的临床证据。
参考文献
1. Davies H, Crombie I. What is a systematic review? Bandolier February 1998.
2. Grimes DA, Schulz KF. An overview of clinical research: the lay of the land. Lancet 2002; 359: 57-61.
3.Matthias Egger, Smith GD, Altman DG. Systematic Reviews in Health Care. BMJ book, 2001.
4. 王家良。临床流行病学——临床科研设计、衡量与评价。上海科学技术出版社,2001.
[此贴子已经被作者于2003-4-21 22:20:45编辑过]
|