查看原文
其他

你做的临床试验,样本量足够吗?(附大量实例)

2016-12-17 李延龙 医咖会

临床试验中合理的样本量是决定整个试验成败的重要因素之一。样本量过小,无论试验结果是否存在差异,均可能由于随机误差过大而无法得到一个肯定的结论。


新英格兰医学杂志刊出的一篇综述《The Primary Outcome Is Positive — Is That Good Enough?》中[1],作者认为当临床试验的主要结局阳性时,还应当考虑11个问题。(表1)


表1 主要结局阳性时应当考虑的问题

1. P<0.05就是强有力的证据吗?

2. 治疗的获益有多大?
3. 主要结局在临床上是否重要(以及内部一致性如何)?
4. 次要结局是否支持研究结论?
5. 研究结论是否在重要的亚组之间保持一致?
6. 临床试验的样本量是否够大?

7. 试验是否提前终止了?

8. (治疗的)安全性问题是否抵消了治疗效果?
9. 治疗效果和安全性之间的平衡是否存在患者特异性?
10. 研究设计和执行是否有缺陷?
11. 这些结果适用于我的患者吗?


上一期,我们讲了“研究结论是否在重要的亚组之间保持一致?”,今天,我们探讨一下“临床试验的样本量是否够大?”

一、如何考虑样本量估计

ICH E9 临床试验统计原则(1998) 指出,临床试验的样本量必须足够大,以可靠地回答研究假设所提出的相关问题;同时又不应该太大而造成浪费。样本量主要可以从以下几个方面来考虑[2]


1) 首先考虑试验设计,包括设计类型、对照选择、主要指标;


2) 其次明确统计分析方法,并提出效应量假设;


3) 然后根据试验特点定义统计特征,包括检验水准,检验效能;


4) 再根据相应的样本量估计方法算出样本量;


5) 最后根据试验脱落率、剔除率和依从性等适当调整。


众多类型的样本量计算方法可回顾:


1. 实例教程:手把手教你计算样本量

2. 样本量计算之RCT遇到连续变量

3. 5张动图告诉你样本量是咋变化的

4. 样本量计算之横断面调查+分类变量

5. 样本量计算之横断面调查+连续变量

6. 样本量计算之成组设计的病例对照研究

二、小样本临床试验的结果可靠吗?

2000年新英格兰医学杂志发表了一项小样本临床试验[3],探讨了N-乙酰半胱氨酸(NAC)是否能预防造影剂肾病(CIN)发生。研究者招募83例拟进行CT检查的慢性肾衰竭患者,CT检查前一天和当天各口服两次NAC(600mg)或安慰剂。研究发现,41例使用NAC的研究对象中有1例出现CIN(2%),而42例使用安慰剂的研究对象中有9例出现(21%) (RR=0.10, 95%CI: 0.02-0.90, P=0.01)。研究者充满信心地认为使用NAC可有效预防肾脏损伤。


然而,基于该小样本研究,更加严谨的结论应该是:NAC可能是有效的。“可能有效”的结论才能促进后续样本量更大、结果更确定的临床试验。


不幸的是,2013年一项纳入了10项临床试验(共1916病人)的Meta分析[4]发现,并没有充分证据支持N-乙酰半胱氨酸可预防造影剂肾病,并且各研究间存在较大的异质性(图1)。



图1.  NAC和安慰剂预防CIN的森林图


由此可见,当一项临床试验得到积极的结果时,不应该被成功冲昏头脑,而应该更加谨慎地评估临床试验的样本量是否可以确证研究发现。

三、充满争议的“预防性”PCI

急性心肌梗死是威胁人类健康的最主要疾病之一,急诊经皮冠状动脉介入(PCI)治疗已经成为最有效的降低ST段抬高型心肌梗死(STEMI)患者死亡率的治疗方法[5]。STEMI患者常合并有多支病变,急诊PCI术中是仅处理梗死血管(部分血运重建)还是一次性处理“梗死血管+非梗死血管”(完全血运重建)一直是心血管介入领域一个非常有争议的问题。


2013年发表在新英格兰医学杂志的一项PRAMI研究[6],探讨了多支血管病变的STEMI患者接受完全血运重建是否优于部分血运重建。该研究将465例STEMI患者随机分到完全血运重建组(234例)和部分血运重建组(231例)。主要复合终点包括顽固性心绞痛、非致命性心肌梗死、心源性死亡。结果发现,相对于部分血运重建组,完全血运重建组主要复合终点发生风险降低65%(9% vs 23%, HR=0.35, 95%CI: 0.21-0.58, P<0.001)(图2)。



图2. PRAMI试验的主要结局


然而该研究结论并没有获得一致认可,争议主要集中在PRAMI研究中主要结局事件发生相对较少(完全血运重建组21例,部分血运重建组53例);整个纳入计划持续5年却提前终止;以及太好的治疗效果(风险降低65%)。


另一项随机对照研究CvLPRIT[7]中,纳入了296例STEMI合并多支病变患者,随机分为部分血运重建组(146例)及完全血运重建组(150例),主要复合终点为12个月内的主要不良心脏事件(MACE),包括全死因死亡、心梗复发、心衰、缺血所致的再次血运重建(PCI)。结果显示与部分血运重建组相比,完全血运重建组的MACE发生风险降低了55%(10.0% vs 21.2%, HR=0.45, 95%CI: 0.24-0.84, P=0.009)(图3)。



图3. CvLPRIT试验的主要结局


然而,CvLPRIT研究中主要结局的各组分——全死因死亡、心梗复发、心衰以及再次血运重建在两组之间的差异并没有统计学意义(表2)。


表2.  CvLPRIT试验的主要结局



DANAMI3-PRIMULTI试验[9]对627例多支病变患者进行了随机治疗,再次肯定了多支血管病变的STEMI患者进行完全血运重建优于部分血运重建。主要复合终点包括全因死亡、非致死性心梗或缺血所致的血运重建。相对于部分血运重建组,完全血运重建组主要复合终点发生风险降低了44%(13% vs 22%, HR=0.56, 95%CI: 0.38-0.83, P=0.004)。值得注意的是,复合终点的两个组分——全因死亡与非致死性心梗在两组之间的差异也没有统计学意义。



图4. DANAMI3-PRIMULTI试验的主要结局


尽管以上三项临床试验都明确了多支血管病变的STEMI患者接受完全血运重建优于部分血运重建,但是三项研究样本量都偏少,另外,CvLPRIT和DANAMI3-PRIMULTI研究均未发现在全死因死亡与非致死性心肌梗死等重要终点指标方面的差异,因而仍需更多强有力的证据支持完全血运重建的使用。


计划纳入3900例研究对象的COMPLETE研究(ClinicalTrials注册号: NCT01740479)[9]正在重新评估多支血管病变的STEMI患者接受完全血运重建和部分血运重建的收益,敬请关注。


临床试验无小事,样本量作为整个研究成败的关键之一,值得我们认真对待。

参考文献

1. N Engl J Med. 2016, 375:971-9.

2. 中国卫生统计. 2015, 32:727-31.

3. N Engl J Med. 2000, 343:180-4.

4. Plos One. 2013, 8: e55124.

5. 中华危重症医学杂志电子版. 2012, 40:18-26.

6. N Engl J Med. 2013. 369:1115-23.

7. J Am Coll Cardiol. 2015, 65:963-72.

8. Lancet. 2015, 386:665-71.

9. https://clinicaltrials.gov/ct2/show/NCT01740479?term=NCT01740479&rank=1


精彩回顾:

1. P值小于0.05,就万事大吉啦?

2. 如何正确看待“P<0.05”?

3. “P<0.05”和“疗效肯定”并不是一回事!

4. 主要结局为替代或复合指标时,应注意什么问题?

5. 次要结局就可以忽略?大错特错!

6. 为什么越来越多的临床试验会做亚组分析?

医咖会微信:medieco-ykh长按二维码关注我们吧

我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群,和其他小伙伴们一起交流学习吧。


点击左下角“阅读原文”,看看医咖会既往推送了哪些研究方法。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存