NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起

2020年4月29日,國際頂級醫學期刊《柳葉刀》在線發表了由國家呼吸疾病臨床研究中心等多家單位實施的在中國武漢進行的新冠肺炎(COVID-19)抗病毒藥物瑞德西韋全球首個隨機、雙盲、安慰劑對照、多中心臨床試驗結果:

遺憾的是,這項結果顯示,與安慰劑相比,抗病毒藥物瑞德西韋治療危重症住院患者,並未加快COVID-19的恢復速度,也未降低病死率。

詳見公眾號報道:無效!中國大陸學者《柳葉刀》首發瑞德西韋最高證據等級的臨床試驗成果

一項臨床試驗,結果是陰性的,為什麼?接下來怎麼辦?這是很多人想了解的答案。2016年9月,《新英格蘭醫學雜誌》發表了長篇文章《主要結局是陰性的,接下來怎麼辦》,值得一看。

NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起


這篇文章,列舉了試驗的主要結局為陰性時,應該考慮的12個問題,可以為下一步研究提供一條路徑。我們將它初步翻譯過來。有興趣者可以閱讀。

現在進入正題!

一個臨床試驗的結果要可靠,必須預先設定假設,之後對數據進行探索分析,這樣才有助於避免得到假陽性結果。然而,一個不合理但普遍的做法是,用主要結局的P值是否小於0.05將隨機試驗分為陽性或陰性。

上述觀點過於簡單。P值應該理解為一個連續的值,P值越小時,只能說明:假設治療無效,那麼現有結果來源於隨機因素的可能性越小,但不能說明療效越大。此外,任何試驗結果的解釋應當考慮全部證據(即主要結局、次要結局和安全性),而不僅僅是一個單一的結局。

主要結果失敗時的關鍵問題

NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起


  • 是否有潛在獲益的跡象?
  • 試驗的把握度是否不足?
  • 主要結局是否恰當(或者被準確定義)?
  • 所選擇人群是否合適?
  • 治療方案是否合理?
  • 試驗實施過程是否存在缺陷?
  • 非劣效性的結論有價值嗎?
  • 亞組分析是否發現陽性信號?
  • 次要結局顯示陽性結果嗎?
  • 改變分析方法有幫助嗎?
  • 是否存在更積極的外部證據?
  • 是否有強有力的生物學理論支撐治療?

1.是否有潛在獲益的跡象?

是否應該從大於0.05的P值推斷出治療獲益的信號(“趨勢”)需要深思熟慮。當試驗的主要結果完全中立時,解釋就很簡單。例如,當特羅曲班和阿司匹林在患有缺血性中風的患者中進行PERFORM試驗時,在綜合主要結局(缺血性中風,心肌梗塞或其他血管性死亡原因)方面未顯示出顯著的組間差異(HR,1.02;95%置信區間[CI],0.94至1.12)。此外,特魯羅班沒有發現任何安全優勢。這些發現支持對“陰性試驗”的解釋。

相比之下,在TORCH試驗中,在慢性阻塞性肺疾病(COPD)患者中評估了沙美特羅加丙酸氟替卡松與安慰劑的療效比較,其任何主要死亡原因的P值為0.052,在所有其他結局中都有顯著的益處”(例如,COPD惡化和健康狀況)。因此,該試驗的結果值得比“陰性試驗”更具建設性的解釋。

2.試驗的把握度不足嗎?

有些時候研究中包含的患者太少,將增加了無法顯示出顯著治療益處的風險,即使這種作用存在(2型錯誤)。

例如,在一項比索洛爾和安慰劑對收縮性心力衰竭患者的試驗中,6主要結局(任何原因導致的死亡)的HR是0.80(95%CI,0.56至1.15;P = 0.22)。但是,該研究只有621名患者,該試驗的功效不足。幸運的是,申辦者堅持了下來,隨後的CIBIS II試驗7其中包括2647名患者,顯示接受比索洛爾的患者的死亡率低於接受安慰劑的患者(HR,0.66;95%CI,0.54至0.81;P <0.0001>

通常,當試驗規模太小而無法檢測到適度的治療效果時,將結果描述為結論性而非陰性是適當的。足夠有力的研究需要累積足夠數量的原發事件,這可以通過招募更多患者,招募高危患者,延長隨訪時間,指定更容易發發生的結局(包括使用複合療法)來實現或其組合。

3.主要結果是否適當(或被準確定義)

複合結果的使用增加了主要事件的數量,但不一定增加統計把握度。例如,在PROactive試驗試驗中,將吡格列酮與安慰劑進行比較的2型糖尿病患者的主要合併症為死亡、心肌梗塞、風、急性冠脈綜合徵、或血管內手術或截肢。吡格列酮組有514個主要事件,而安慰劑組有572個主要事件,P值為0.08。對於更常規的死亡,心肌梗塞或中風的複合結果,吡格列酮組有301例事件,而安慰劑組有358例事件(P = 0.03)。因此,添加額外的結局只會造成隨機噪聲,從而將潛在的實際效果稀釋為無意義。

試驗成功與否也可能取決於對結局的定義和判斷方法。例如,坎格雷洛與氯吡格雷在接受經皮冠狀動脈介入治療(PCI)9的患者中進行的CHAMPION PLATFORM試驗因無效而提前停止,因為未顯示坎格雷洛對主要結局(死亡,心肌梗塞或局部缺血-在48小時內血運重建)中期分析時,發現坎格雷洛組和氯吡格雷組患者結局事件的發生率分別為7.0%(1851/2654)和8.0%(210/2641),坎格雷洛並未顯示出對主要終點有益(HR:0.87;95%CI:0.71-1.07;P=0.17),導致這項試驗因無效而被提前終止。

然而,對於生物標誌物陽性的急性冠脈綜合徵患者,圍手術期心肌梗死的定義並不能有效地識別PCI後不久發生的心肌梗死;如果採用更加準確的心肌梗死定義,則有可能得到陽性結果。 心肌梗死的更精確定義可能有助於陽性結果。10因此,在隨後的CHAMPION PHOENIX試驗中,更仔細地判定了生物標誌物的興衰和臨床事件,以更好地區分圍手術期心肌梗塞。本次試驗將主要結局事件定義為48小時內的死亡、心肌梗死、支架內血栓形成或缺血導致的血管重建。結果發現坎格雷洛組的48小時主要結局(死亡,心肌梗塞,支架血栓形成或缺血性血運重建)的發生率比氯吡格雷低22%(P = 0.005),並獲得了美國和歐洲法規的批准。

4.所選人群合適嗎?

一個新的治療方法何時失敗的恰當問題是,是否研究了錯誤的患者人群。例如,兩項涉及穩定冠心病患者的伊伐佈雷定的大型試驗(BEAUTIULUL 和SIGNIFY )未能顯示出任何治療益處。然而,在涉及慢性心臟衰竭的SHIFTY試驗中,將研究對象調整為未發生心衰並且心率大於等於70的穩定性冠心病患者,主要的結果顯示,心血管死亡或住院心臟衰竭的發病率,伊伐佈雷定低於用安慰劑(P <0.0001>

5.治療方案合適嗎?

6.試驗實施過程是否存在缺陷?

如果對研究方案的依從性差,則真正的治療效果可能會被稀釋或完全消失。例如,在TOPCAT試驗中,一項18個國家對螺內酯與安慰劑進行的六國研究表明,患有心力衰竭且左心室射血分數得以保留的患者,綜合結局(心血管死亡,心搏停止或因心力衰竭住院)顯示螺內酯的趨勢不明顯(HR0.89;95%CI為0.77至1.04;P = 0.14)。但是俄羅斯和格魯吉亞的患者很少發生主要預後事件,研究者認為此次試驗在選擇患者入組的實施過程中存在缺陷,導致美洲患者與俄羅斯及格魯吉亞患者的組成和基線數據上存在較大不同。 僅對其他四個國家進行的分析得出了顯著的治療效益(HR,0.82;95%CI,0.69至0.98;P = 0.026)。關於這一事後證據是否足以令人信服,建議將螺內酯用於心力衰竭且左心室射血分數得以保留的患者,一直存在爭議。

7.非劣效性的結論有價值嗎?

當新療法未能顯示出優於主動對照的優勢時,是否可以主張非劣效性?如果新療法具有其他優勢(例如,其侵入性較小或具有較少的副作用),那麼這種主張可能是理想的,但是在大多數情況下,僅在預先指定了非劣效性假設的情況下才可以提出該主張。例如,在VALIANT試驗中,有20其中併發心肌梗塞的患者接受纈沙坦,卡託普利或兩者同時使用,對纈沙坦的主要結局(因任何原因導致的死亡)沒有顯示益處(HR,1.00;97.5%CI,0.90至1.11;P = 0.98) 。但是,該置信區間不包括預先確定的非劣效性界限1.13,這使研究人員得出了纈沙坦不劣於卡託普利的結論。因此,對於因不良副作用(例如,咳嗽,味覺障礙或皮疹)而不能服用卡託普利的患者,纈沙坦是可以接受的替代藥物。

8.亞組分析發現是否會發出積極信號?

儘管在任何主要試驗中都應考慮亞組的發現,但對於主要結果的總體結果是中性或陰性的試驗,這種考慮往往會產生誤導。

因為對亞組而言,隱含著潛在的交互作用危害。這種定性的交互作用很少是合理的(除非存在很強的機制基礎),並且通常不對其進行多次比較調整。即使從交互作用的統計檢驗得出的結果是有意義的,通常也應認為這些發現最多可用於產生假設。的確,我們很難想到這樣一個例子:在亞組中,一項結果明顯為陰性的子組的明顯獲益導致了後續試驗的證實。”

然而,這種情況激發了一項大規模的國際性冠狀動脈血運重建策略的試驗。SYNTAX試驗的PCI比較CABG治療冠狀動脈旁路移植術(CABG)的患者三支或左主冠狀動脈疾病,未得到總體較好的結果。但是對於患有左主幹冠狀動脈疾病的亞組(進一步排除具有高解剖複雜性的患者),PCI似乎是CABG的可接受的替代方案(可能更好)。這項事後亞組分析為正在進行的EXCEL試驗進行PCI與CABG在左主冠狀動脈疾病和低至中度解剖複雜性患者中的動機提供了動力,該研究的結果有望在2016年秋季進行。

9.次要結果顯示積極的發現嗎?

如果主要結果為陰性,則次要結果的陽性結果通常被認為是用於產生假說的。

當然,新藥的監管批准不太可能隨之而來。但是,在某些情況下,次要發現足以令人信服,從而影響準則和實踐。例如,在氨氯地平與阿替洛爾治療高血壓的ASCOT試驗中,25非致命性心肌梗塞或致命性冠心病的複合主要預後的HR為0.90(95%CI,0.79至1.02;P = 0.11)。但是,有關氨氯地平在中風,總心血管事件,因任何原因導致的死亡和新發糖尿病方面具有優越性的數據支持的證據不勝枚舉(P <0.001>NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起


很少有研究能夠適當地評估其對死亡率的影響。因此,當大型試驗顯示全因死亡率降低時,正確解釋可能具有挑戰性,這是合理的,但未預先確定-特別是在主要結果為陰性的情況下。例如,在MATRIX試用版中,接受PCI的急性冠脈綜合徵的患者被隨機分配接受比伐盧定或普通肝素的程序性抗凝治療。死亡,心肌梗塞或中風的30天覆合主要預後沒有明顯差異(RR為0.94;95%CI為0.81至1.09;P = 0.44)。然而,比伐盧定與嚴重出血的發生率顯著降低以及全因死亡率降低(相對危險度0.71;95%CI,0.51至0.99;P = 0.04),以前的一些研究也觀察到了這一結果。儘管比伐盧定在機械上看似合理,但降低比伐盧定死亡率的這一發現理想地需要進行額外的充分試驗以解決。

10.替代分析可以提供幫助嗎?

協變量調整

協變量是指受試者在開始臨床試驗之前被測定或觀察到,預期會對所分析的因變量產生影響的定性或定量變量,如年齡、體重、疾病特徵或研究中心等。協變量校正就是在數據統計時應用數學模型評估協變量的變化對研究結果的影響,是統計學中必不可少的一個重要環節。

包含與主要結果密切相關的基線變量的協變量調整分析將比粗略的未經調整分析產生更大的統計功效。但是,如果未精確指定協變量或未將調整後的分析預先聲明為主要變量,則該發現將被認為是探索性的,而不是會影響試驗的主要結論的發現。

例如,在卒中或短暫性腦缺血發作後阿託伐他汀與安慰劑的SPARCL試驗中,未經調整的分析得出了對複發性卒中的主要結局有利於阿託伐他汀的臨界結果(P = 0.05)。一項預先指定的、經過協變量調整的分析,其中包括地理區域,進入事件以及持續時間,年齡和性別,得出的危險比為0.84(95%CI,0.71至0.99; P = 0.03)。不清楚哪個是預先指定的主要分析。在5%的顯著性水平應該是最重要的前提下,人們可能會爭論該試驗是否為“陽性”。一個更合理的結論是,總體上有適度的證據表明有治療益處。

接受治療分析或符合方案集分析

意向性治療(ITT)分析是依據受試者的隨機分組情況對兩種干預措施進行比較的主要方法。當意向性治療分析無法達到統計學意義時,有人提出不依從和治療交叉可能掩蓋了實際治療效果的爭論,認為按治療或按方案進行的分析可能更接近事實。不幸的是,使用按治療或按方案治療的人群會導致選擇偏倚,因為不遵循治療方案的患者和轉用其他治療策略的患者可能會有與實際治療無關的不同預後。因此,此類分析很少影響基於意向治療原則的有關治療功效的結論。

在STICH試驗中,CABG對比藥物治療左心功能不全的患者,在意向性治療分析中,中位隨訪4年時因任何原因導致的主要死亡死亡的危險比為0.86(95%CI,0.72至1.04; P = 0.12)。

然而,在本試驗中,單純藥物治療組有17%的患者在隨訪結束前交叉接受了搭橋術,CABG組有9%的患者交叉接受了單純藥物治療。

然而,接受治療分析及符合方案集分析的結果卻顯示,CABG聯合藥物治療可有效降低全因死亡的發生率。將第一年接受CABG的所有患者(包括交叉接受CABG的患者)與僅接受藥物治療的患者進行比較)和按方案分析(其中來自任何患者的數據)排除第一年內交叉的人),CABG的死亡率較低(分別為P <0.001>

儘管如此,主要結論仍然是“藥物治療和CABG在主要結局方面沒有顯著差異”。此外,STIH研究中的10年隨訪數據顯示,在意向性治療人群中,CABG的死亡率低於單純藥物治療的死亡率(HR,0.84;95%CI,0.73至0.97;P = 0.02) 。因此,全部證據支持CABG在左心功能不全患者中的重要作用。

NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起


一個相關的問題是如何解釋交叉率高的試驗問題。例如,在BARI 2D臨床試驗,在2型糖尿病患者中立即進行冠脈血運重建與強化藥物治療之間的比較,死亡和主要心血管事件的5年主要預後沒有顯著差異(分別為P = 0.97和P = 0.70)。但是,藥物治療組中有42%的患者已進行了臨床指徵的血運重建,這引起了人們對僅藥物治療的價值的疑問。儘管這種交叉是最初的保守治療方法的一個組成部分(並允許大多數患者避免血運重建),但是當交叉頻繁發生時,公平地問是否可以在其他策略之間做出適當的區分。

重複事件分析

在對諸如心力衰竭之類的慢性疾病的研究中,常規的綜合統計分析關注於第一次事件發生的時間,而忽略了隨後發生的任何重複事件。這種方法可能導致嚴重的統計能力損失和對治療效果的低估。

CHARM-Preserved試驗比較坎地沙坦與安慰劑對於左室射血分數正常(LVEF>40%)的慢性心力衰竭患者的療效。試驗納入3023例慢性心衰患者,隨機分為坎地沙坦組(1514例)和安慰劑組(1509例),平均治療隨訪36.6個月。該試驗主要結局為心力衰竭導致心血管死亡或入院的複合終點。

該試驗結局數據的分析採用了兩種方法,一種為傳統分析方法,即只考慮因心力衰竭導致首次入院或心血管死亡的時間。結果顯示,相比安慰劑組,坎地沙坦治療組主要複合終點事件發生風險無顯著差異(HR 0.89;95%CI, 0.77-1.03, P = 0.118)。

另一種為重複事件分析方法,即將心力衰竭導致的所有反覆入院和心血管死亡時間納入分析。結果顯示,相比安慰劑組,坎地沙坦治療可有效降低主要複合終點事件的發生風險(HR 0.75;95% CI, 0.62-0.91, P =0.003)和心力衰竭導致反覆入院的發生風險(HR 0.68;95% CI, 0.54-0.85, P<0.001)(圖3)。

NEJM: 臨床試驗主要結局是陰性的,接下來怎麼辦?從瑞德西韋說起


11.是否存在更多積極的外部證據?

一項具有足夠統計效力、既往研究也有陽性證據支持的臨床試驗,最終主要結局為陰性,這樣的矛盾雖然看似奇怪,但確實時有發生。如何解釋這一矛盾,又該下怎樣的結論,值得深思。此時不要急於判定該臨床試驗結果與既往研究結果孰對孰錯,而是應先對既往研究的把握度與質量進行研究。

首先來說,如果既往試驗並非隨機對照試驗或者以替代終點作為主要結局,那麼其結果的可靠性值得商榷。一般來說,在入選患者類型、治療方案及結局設定等方面相似的試驗或Meta分析中得到的外部證據,會更有參考價值。

例如,ASPEN試驗,評估了2型糖尿病患者使用阿託伐他汀與安慰劑的差異,複合主要結果(合併心血管事件)的HR比為0.90(95%CI,0.73。1.12;P = 0.34)。鑑於在不同患者人群中進行的其他試驗中他汀類藥物相關的陽性結果,ASPEN試驗的結果令人失望。在較大的CARDS試驗中,該研究還涉及2型糖尿病患者中阿託伐他汀和安慰劑的比較,複合主要預後的HR(與ASPEN試驗相似)為0.63(95%CI,0.48至0.83;P = 0.001) ,並且對這兩項試驗的meta分析也得出了肯定的結論。明顯的不一致不是很大(請注意重疊的置信區間),因此也許ASPEN只是“不幸的”他汀類藥物試驗,其中真正治療效果存在隨機變化。

儘管如此,鑑於患者選擇,臨床研究的實際方法,結果的定義以及試驗設計和實施的其他差異,應謹慎地解釋meta分析的有利發現。通常,來自大型,有足夠能力的隨機試驗的證據比來自較小研究的meta分析的證據更可取。大型試驗與先前的meta分析之間的差異值得進一步研究以解決這些矛盾之處。

12.有沒有強有力的生物學原理支持這種治療?

需要警惕有關生物學原理的爭論。一項3期試驗中的幾乎所有新療法都具有大量來自動物研究和早期試驗的支持性科學數據。然而,歷史上充滿了許多大型試驗的記錄,這些試驗均未顯示出任何療效跡象(或迄今未曾預料到的安全問題)。例如,增加高密度脂蛋白膽固醇水平可能是減少心血管事件的一種新方法的假設看起來很有希望,但是沒有任何膽固醇酯轉移蛋白抑制劑的試驗能夠實現這一希望。大自然常常克服了我們竭力破壞事物秩序的最大努力。因此,如果試驗中的方法學缺陷不是治療失敗的原因,通常是時候“繼續進行”,同時試圖瞭解失敗的生物學原因。

討論

上面解釋的12個要點可用於協助確定在臨床試驗未能為其主要結果產生積極發現時下一步該怎麼做。當然需要謹慎。研究人員可以選擇向三個方向之一移動。



分享到:


相關文章: