NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起

2020年4月29日,国际顶级医学期刊《柳叶刀》在线发表了由国家呼吸疾病临床研究中心等多家单位实施的在中国武汉进行的新冠肺炎(COVID-19)抗病毒药物瑞德西韦全球首个随机、双盲、安慰剂对照、多中心临床试验结果:

遗憾的是,这项结果显示,与安慰剂相比,抗病毒药物瑞德西韦治疗危重症住院患者,并未加快COVID-19的恢复速度,也未降低病死率。

详见公众号报道:无效!中国大陆学者《柳叶刀》首发瑞德西韦最高证据等级的临床试验成果

一项临床试验,结果是阴性的,为什么?接下来怎么办?这是很多人想了解的答案。2016年9月,《新英格兰医学杂志》发表了长篇文章《主要结局是阴性的,接下来怎么办》,值得一看。

NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起


这篇文章,列举了试验的主要结局为阴性时,应该考虑的12个问题,可以为下一步研究提供一条路径。我们将它初步翻译过来。有兴趣者可以阅读。

现在进入正题!

一个临床试验的结果要可靠,必须预先设定假设,之后对数据进行探索分析,这样才有助于避免得到假阳性结果。然而,一个不合理但普遍的做法是,用主要结局的P值是否小于0.05将随机试验分为阳性或阴性。

上述观点过于简单。P值应该理解为一个连续的值,P值越小时,只能说明:假设治疗无效,那么现有结果来源于随机因素的可能性越小,但不能说明疗效越大。此外,任何试验结果的解释应当考虑全部证据(即主要结局、次要结局和安全性),而不仅仅是一个单一的结局。

主要结果失败时的关键问题

NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起


  • 是否有潜在获益的迹象?
  • 试验的把握度是否不足?
  • 主要结局是否恰当(或者被准确定义)?
  • 所选择人群是否合适?
  • 治疗方案是否合理?
  • 试验实施过程是否存在缺陷?
  • 非劣效性的结论有价值吗?
  • 亚组分析是否发现阳性信号?
  • 次要结局显示阳性结果吗?
  • 改变分析方法有帮助吗?
  • 是否存在更积极的外部证据?
  • 是否有强有力的生物学理论支撑治疗?

1.是否有潜在获益的迹象?

是否应该从大于0.05的P值推断出治疗获益的信号(“趋势”)需要深思熟虑。当试验的主要结果完全中立时,解释就很简单。例如,当特罗曲班和阿司匹林在患有缺血性中风的患者中进行PERFORM试验时,在综合主要结局(缺血性中风,心肌梗塞或其他血管性死亡原因)方面未显示出显着的组间差异(HR,1.02;95%置信区间[CI],0.94至1.12)。此外,特鲁罗班没有发现任何安全优势。这些发现支持对“阴性试验”的解释。

相比之下,在TORCH试验中,在慢性阻塞性肺疾病(COPD)患者中评估了沙美特罗加丙酸氟替卡松与安慰剂的疗效比较,其任何主要死亡原因的P值为0.052,在所有其他结局中都有显着的益处”(例如,COPD恶化和健康状况)。因此,该试验的结果值得比“阴性试验”更具建设性的解释。

2.试验的把握度不足吗?

有些时候研究中包含的患者太少,将增加了无法显示出显著治疗益处的风险,即使这种作用存在(2型错误)。

例如,在一项比索洛尔和安慰剂对收缩性心力衰竭患者的试验中,6主要结局(任何原因导致的死亡)的HR是0.80(95%CI,0.56至1.15;P = 0.22)。但是,该研究只有621名患者,该试验的功效不足。幸运的是,申办者坚持了下来,随后的CIBIS II试验7其中包括2647名患者,显示接受比索洛尔的患者的死亡率低于接受安慰剂的患者(HR,0.66;95%CI,0.54至0.81;P <0.0001>

通常,当试验规模太小而无法检测到适度的治疗效果时,将结果描述为结论性而非阴性是适当的。足够有力的研究需要累积足够数量的原发事件,这可以通过招募更多患者,招募高危患者,延长随访时间,指定更容易发发生的结局(包括使用复合疗法)来实现或其组合。

3.主要结果是否适当(或被准确定义)

复合结果的使用增加了主要事件的数量,但不一定增加统计把握度。例如,在PROactive试验试验中,将吡格列酮与安慰剂进行比较的2型糖尿病患者的主要合并症为死亡、心肌梗塞、风、急性冠脉综合征、或血管内手术或截肢。吡格列酮组有514个主要事件,而安慰剂组有572个主要事件,P值为0.08。对于更常规的死亡,心肌梗塞或中风的复合结果,吡格列酮组有301例事件,而安慰剂组有358例事件(P = 0.03)。因此,添加额外的结局只会造成随机噪声,从而将潜在的实际效果稀释为无意义。

试验成功与否也可能取决于对结局的定义和判断方法。例如,坎格雷洛与氯吡格雷在接受经皮冠状动脉介入治疗(PCI)9的患者中进行的CHAMPION PLATFORM试验因无效而提前停止,因为未显示坎格雷洛对主要结局(死亡,心肌梗塞或局部缺血-在48小时内血运重建)中期分析时,发现坎格雷洛组和氯吡格雷组患者结局事件的发生率分别为7.0%(1851/2654)和8.0%(210/2641),坎格雷洛并未显示出对主要终点有益(HR:0.87;95%CI:0.71-1.07;P=0.17),导致这项试验因无效而被提前终止。

然而,对于生物标志物阳性的急性冠脉综合征患者,围手术期心肌梗死的定义并不能有效地识别PCI后不久发生的心肌梗死;如果采用更加准确的心肌梗死定义,则有可能得到阳性结果。 心肌梗死的更精确定义可能有助于阳性结果。10因此,在随后的CHAMPION PHOENIX试验中,更仔细地判定了生物标志物的兴衰和临床事件,以更好地区分围手术期心肌梗塞。本次试验将主要结局事件定义为48小时内的死亡、心肌梗死、支架内血栓形成或缺血导致的血管重建。结果发现坎格雷洛组的48小时主要结局(死亡,心肌梗塞,支架血栓形成或缺血性血运重建)的发生率比氯吡格雷低22%(P = 0.005),并获得了美国和欧洲法规的批准。

4.所选人群合适吗?

一个新的治疗方法何时失败的恰当问题是,是否研究了错误的患者人群。例如,两项涉及稳定冠心病患者的伊伐布雷定的大型试验(BEAUTIULUL 和SIGNIFY )未能显示出任何治疗益处。然而,在涉及慢性心脏衰竭的SHIFTY试验中,将研究对象调整为未发生心衰并且心率大于等于70的稳定性冠心病患者,主要的结果显示,心血管死亡或住院心脏衰竭的发病率,伊伐布雷定低于用安慰剂(P <0.0001>

5.治疗方案合适吗?

6.试验实施过程是否存在缺陷?

如果对研究方案的依从性差,则真正的治疗效果可能会被稀释或完全消失。例如,在TOPCAT试验中,一项18个国家对螺内酯与安慰剂进行的六国研究表明,患有心力衰竭且左心室射血分数得以保留的患者,综合结局(心血管死亡,心搏停止或因心力衰竭住院)显示螺内酯的趋势不明显(HR0.89;95%CI为0.77至1.04;P = 0.14)。但是俄罗斯和格鲁吉亚的患者很少发生主要预后事件,研究者认为此次试验在选择患者入组的实施过程中存在缺陷,导致美洲患者与俄罗斯及格鲁吉亚患者的组成和基线数据上存在较大不同。 仅对其他四个国家进行的分析得出了显着的治疗效益(HR,0.82;95%CI,0.69至0.98;P = 0.026)。关于这一事后证据是否足以令人信服,建议将螺内酯用于心力衰竭且左心室射血分数得以保留的患者,一直存在争议。

7.非劣效性的结论有价值吗?

当新疗法未能显示出优于主动对照的优势时,是否可以主张非劣效性?如果新疗法具有其他优势(例如,其侵入性较小或具有较少的副作用),那么这种主张可能是理想的,但是在大多数情况下,仅在预先指定了非劣效性假设的情况下才可以提出该主张。例如,在VALIANT试验中,有20其中并发心肌梗塞的患者接受缬沙坦,卡托普利或两者同时使用,对缬沙坦的主要结局(因任何原因导致的死亡)没有显示益处(HR,1.00;97.5%CI,0.90至1.11;P = 0.98) 。但是,该置信区间不包括预先确定的非劣效性界限1.13,这使研究人员得出了缬沙坦不劣于卡托普利的结论。因此,对于因不良副作用(例如,咳嗽,味觉障碍或皮疹)而不能服用卡托普利的患者,缬沙坦是可以接受的替代药物。

8.亚组分析发现是否会发出积极信号?

尽管在任何主要试验中都应考虑亚组的发现,但对于主要结果的总体结果是中性或阴性的试验,这种考虑往往会产生误导。

因为对亚组而言,隐含着潜在的交互作用危害。这种定性的交互作用很少是合理的(除非存在很强的机制基础),并且通常不对其进行多次比较调整。即使从交互作用的统计检验得出的结果是有意义的,通常也应认为这些发现最多可用于产生假设。的确,我们很难想到这样一个例子:在亚组中,一项结果明显为阴性的子组的明显获益导致了后续试验的证实。”

然而,这种情况激发了一项大规模的国际性冠状动脉血运重建策略的试验。SYNTAX试验的PCI比较CABG治疗冠状动脉旁路移植术(CABG)的患者三支或左主冠状动脉疾病,未得到总体较好的结果。但是对于患有左主干冠状动脉疾病的亚组(进一步排除具有高解剖复杂性的患者),PCI似乎是CABG的可接受的替代方案(可能更好)。这项事后亚组分析为正在进行的EXCEL试验进行PCI与CABG在左主冠状动脉疾病和低至中度解剖复杂性患者中的动机提供了动力,该研究的结果有望在2016年秋季进行。

9.次要结果显示积极的发现吗?

如果主要结果为阴性,则次要结果的阳性结果通常被认为是用于产生假说的。

当然,新药的监管批准不太可能随之而来。但是,在某些情况下,次要发现足以令人信服,从而影响准则和实践。例如,在氨氯地平与阿替洛尔治疗高血压的ASCOT试验中,25非致命性心肌梗塞或致命性冠心病的复合主要预后的HR为0.90(95%CI,0.79至1.02;P = 0.11)。但是,有关氨氯地平在中风,总心血管事件,因任何原因导致的死亡和新发糖尿病方面具有优越性的数据支持的证据不胜枚举(P <0.001>NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起


很少有研究能够适当地评估其对死亡率的影响。因此,当大型试验显示全因死亡率降低时,正确解释可能具有挑战性,这是合理的,但未预先确定-特别是在主要结果为阴性的情况下。例如,在MATRIX试用版中,接受PCI的急性冠脉综合征的患者被随机分配接受比伐卢定或普通肝素的程序性抗凝治疗。死亡,心肌梗塞或中风的30天复合主要预后没有明显差异(RR为0.94;95%CI为0.81至1.09;P = 0.44)。然而,比伐卢定与严重出血的发生率显着降低以及全因死亡率降低(相对危险度0.71;95%CI,0.51至0.99;P = 0.04),以前的一些研究也观察到了这一结果。尽管比伐卢定在机械上看似合理,但降低比伐卢定死亡率的这一发现理想地需要进行额外的充分试验以解决。

10.替代分析可以提供帮助吗?

协变量调整

协变量是指受试者在开始临床试验之前被测定或观察到,预期会对所分析的因变量产生影响的定性或定量变量,如年龄、体重、疾病特征或研究中心等。协变量校正就是在数据统计时应用数学模型评估协变量的变化对研究结果的影响,是统计学中必不可少的一个重要环节。

包含与主要结果密切相关的基线变量的协变量调整分析将比粗略的未经调整分析产生更大的统计功效。但是,如果未精确指定协变量或未将调整后的分析预先声明为主要变量,则该发现将被认为是探索性的,而不是会影响试验的主要结论的发现。

例如,在卒中或短暂性脑缺血发作后阿托伐他汀与安慰剂的SPARCL试验中,未经调整的分析得出了对复发性卒中的主要结局有利于阿托伐他汀的临界结果(P = 0.05)。一项预先指定的、经过协变量调整的分析,其中包括地理区域,进入事件以及持续时间,年龄和性别,得出的危险比为0.84(95%CI,0.71至0.99; P = 0.03)。不清楚哪个是预先指定的主要分析。在5%的显着性水平应该是最重要的前提下,人们可能会争论该试验是否为“阳性”。一个更合理的结论是,总体上有适度的证据表明有治疗益处。

接受治疗分析或符合方案集分析

意向性治疗(ITT)分析是依据受试者的随机分组情况对两种干预措施进行比较的主要方法。当意向性治疗分析无法达到统计学意义时,有人提出不依从和治疗交叉可能掩盖了实际治疗效果的争论,认为按治疗或按方案进行的分析可能更接近事实。不幸的是,使用按治疗或按方案治疗的人群会导致选择偏倚,因为不遵循治疗方案的患者和转用其他治疗策略的患者可能会有与实际治疗无关的不同预后。因此,此类分析很少影响基于意向治疗原则的有关治疗功效的结论。

在STICH试验中,CABG对比药物治疗左心功能不全的患者,在意向性治疗分析中,中位随访4年时因任何原因导致的主要死亡死亡的危险比为0.86(95%CI,0.72至1.04; P = 0.12)。

然而,在本试验中,单纯药物治疗组有17%的患者在随访结束前交叉接受了搭桥术,CABG组有9%的患者交叉接受了单纯药物治疗。

然而,接受治疗分析及符合方案集分析的结果却显示,CABG联合药物治疗可有效降低全因死亡的发生率。将第一年接受CABG的所有患者(包括交叉接受CABG的患者)与仅接受药物治疗的患者进行比较)和按方案分析(其中来自任何患者的数据)排除第一年内交叉的人),CABG的死亡率较低(分别为P <0.001>

尽管如此,主要结论仍然是“药物治疗和CABG在主要结局方面没有显着差异”。此外,STIH研究中的10年随访数据显示,在意向性治疗人群中,CABG的死亡率低于单纯药物治疗的死亡率(HR,0.84;95%CI,0.73至0.97;P = 0.02) 。因此,全部证据支持CABG在左心功能不全患者中的重要作用。

NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起


一个相关的问题是如何解释交叉率高的试验问题。例如,在BARI 2D临床试验,在2型糖尿病患者中立即进行冠脉血运重建与强化药物治疗之间的比较,死亡和主要心血管事件的5年主要预后没有显著差异(分别为P = 0.97和P = 0.70)。但是,药物治疗组中有42%的患者已进行了临床指征的血运重建,这引起了人们对仅药物治疗的价值的疑问。尽管这种交叉是最初的保守治疗方法的一个组成部分(并允许大多数患者避免血运重建),但是当交叉频繁发生时,公平地问是否可以在其他策略之间做出适当的区分。

重复事件分析

在对诸如心力衰竭之类的慢性疾病的研究中,常规的综合统计分析关注于第一次事件发生的时间,而忽略了随后发生的任何重复事件。这种方法可能导致严重的统计能力损失和对治疗效果的低估。

CHARM-Preserved试验比较坎地沙坦与安慰剂对于左室射血分数正常(LVEF>40%)的慢性心力衰竭患者的疗效。试验纳入3023例慢性心衰患者,随机分为坎地沙坦组(1514例)和安慰剂组(1509例),平均治疗随访36.6个月。该试验主要结局为心力衰竭导致心血管死亡或入院的复合终点。

该试验结局数据的分析采用了两种方法,一种为传统分析方法,即只考虑因心力衰竭导致首次入院或心血管死亡的时间。结果显示,相比安慰剂组,坎地沙坦治疗组主要复合终点事件发生风险无显著差异(HR 0.89;95%CI, 0.77-1.03, P = 0.118)。

另一种为重复事件分析方法,即将心力衰竭导致的所有反复入院和心血管死亡时间纳入分析。结果显示,相比安慰剂组,坎地沙坦治疗可有效降低主要复合终点事件的发生风险(HR 0.75;95% CI, 0.62-0.91, P =0.003)和心力衰竭导致反复入院的发生风险(HR 0.68;95% CI, 0.54-0.85, P<0.001)(图3)。

NEJM: 临床试验主要结局是阴性的,接下来怎么办?从瑞德西韦说起


11.是否存在更多积极的外部证据?

一项具有足够统计效力、既往研究也有阳性证据支持的临床试验,最终主要结局为阴性,这样的矛盾虽然看似奇怪,但确实时有发生。如何解释这一矛盾,又该下怎样的结论,值得深思。此时不要急于判定该临床试验结果与既往研究结果孰对孰错,而是应先对既往研究的把握度与质量进行研究。

首先来说,如果既往试验并非随机对照试验或者以替代终点作为主要结局,那么其结果的可靠性值得商榷。一般来说,在入选患者类型、治疗方案及结局设定等方面相似的试验或Meta分析中得到的外部证据,会更有参考价值。

例如,ASPEN试验,评估了2型糖尿病患者使用阿托伐他汀与安慰剂的差异,复合主要结果(合并心血管事件)的HR比为0.90(95%CI,0.73。1.12;P = 0.34)。鉴于在不同患者人群中进行的其他试验中他汀类药物相关的阳性结果,ASPEN试验的结果令人失望。在较大的CARDS试验中,该研究还涉及2型糖尿病患者中阿托伐他汀和安慰剂的比较,复合主要预后的HR(与ASPEN试验相似)为0.63(95%CI,0.48至0.83;P = 0.001) ,并且对这两项试验的meta分析也得出了肯定的结论。明显的不一致不是很大(请注意重叠的置信区间),因此也许ASPEN只是“不幸的”他汀类药物试验,其中真正治疗效果存在随机变化。

尽管如此,鉴于患者选择,临床研究的实际方法,结果的定义以及试验设计和实施的其他差异,应谨慎地解释meta分析的有利发现。通常,来自大型,有足够能力的随机试验的证据比来自较小研究的meta分析的证据更可取。大型试验与先前的meta分析之间的差异值得进一步研究以解决这些矛盾之处。

12.有没有强有力的生物学原理支持这种治疗?

需要警惕有关生物学原理的争论。一项3期试验中的几乎所有新疗法都具有大量来自动物研究和早期试验的支持性科学数据。然而,历史上充满了许多大型试验的记录,这些试验均未显示出任何疗效迹象(或迄今未曾预料到的安全问题)。例如,增加高密度脂蛋白胆固醇水平可能是减少心血管事件的一种新方法的假设看起来很有希望,但是没有任何胆固醇酯转移蛋白抑制剂的试验能够实现这一希望。大自然常常克服了我们竭力破坏事物秩序的最大努力。因此,如果试验中的方法学缺陷不是治疗失败的原因,通常是时候“继续进行”,同时试图了解失败的生物学原因。

讨论

上面解释的12个要点可用于协助确定在临床试验未能为其主要结果产生积极发现时下一步该怎么做。当然需要谨慎。研究人员可以选择向三个方向之一移动。



分享到:


相關文章: