從統(tǒng)計(jì)學(xué)角度比較新冠口服藥: 輝瑞Paxlovid和國(guó)產(chǎn)VV116
● ● ●
2022年12月28日,新英格蘭醫(yī)學(xué)雜志 (NEJM)刊登了關(guān)于君實(shí)生物醫(yī)藥科技有限公司和蘇州旺山旺水生物醫(yī)藥有限公司負(fù)責(zé)研制開(kāi)發(fā)的抗新冠病毒口服藥物VV116的臨床試驗(yàn)結(jié)果[1]。該試驗(yàn)以上海交通大學(xué)附屬的瑞金醫(yī)院牽頭開(kāi)展,為一項(xiàng)多中心、單盲(研究者保持盲態(tài))、隨機(jī)、對(duì) 照 III 期非劣效性臨床試驗(yàn)。
VV116為小分子口服抗SARS-CoV-2病毒藥物,其設(shè)計(jì)結(jié)構(gòu)類似于美國(guó)生物制藥公司吉利德科學(xué)研制的瑞德西韋(Remdesivir)。通過(guò)靜脈注射治療新冠的藥物Remdesivir于2020 年10月 22日已經(jīng)獲美國(guó)藥監(jiān)局(US Food and Drug Administration:FDA)批準(zhǔn)。此項(xiàng)VV116臨床試驗(yàn)的對(duì)照組為FDA批準(zhǔn)的口服藥Paxlovid,通常被稱為新冠“特效藥”。
什么是非劣效性試驗(yàn)?
三期臨床試驗(yàn)可以劃分為不同的類型,其中最常見(jiàn)的是優(yōu)效性和非劣效性試驗(yàn)。優(yōu)效性和非劣效性是臨床試驗(yàn)中兩個(gè)比較容易混淆的概念。優(yōu)效性試驗(yàn)的目的在于檢測(cè)試驗(yàn)藥物的療效是否優(yōu)于標(biāo)準(zhǔn)藥物。非劣效性試驗(yàn)的目的是檢測(cè)試驗(yàn)藥物的療效是否不劣于標(biāo)準(zhǔn)藥物或至多比標(biāo)準(zhǔn)藥物相差δ,這里δ > 0 為試驗(yàn)預(yù)先設(shè)定的非劣效限度。在VV116試驗(yàn)中,如果風(fēng)險(xiǎn)比例的95%置信區(qū)間的下界不低于0.8,則可以得出VV116不劣效于Paxlovid的結(jié)論。雖然有時(shí)試驗(yàn)藥物相對(duì)于標(biāo)準(zhǔn)藥物的療效稍差,但如果兩者的差異是在一個(gè)可以接受的范圍之內(nèi),并且試驗(yàn)藥物具備許多其它優(yōu)點(diǎn),例如用藥途徑較方便(以口服或貼片形式用藥,而非靜脈注射)、毒性較低、副作用較少或者價(jià)格相對(duì)便宜,那么非劣效性試驗(yàn)會(huì)更加適用于這種情況。
與優(yōu)效性試驗(yàn)相比,非劣效性試驗(yàn)在設(shè)計(jì)、執(zhí)行和詮釋上難度較大。我們不能簡(jiǎn)單地認(rèn)為非劣效性試驗(yàn)是優(yōu)效性試驗(yàn)的后備方案。在非劣效性試驗(yàn)中,對(duì)照組通常是當(dāng)前的標(biāo)準(zhǔn)藥物(VV116對(duì)照組為Paxlovid)。如果試驗(yàn)組與對(duì)照組之間的療效差異的95% 置信區(qū)間不包含非劣效限度(在VV116試驗(yàn)中,風(fēng)險(xiǎn)比例的95%置信區(qū)間的下界不低于0.8),那么我們可以得出試驗(yàn)藥物非劣效于標(biāo)準(zhǔn)藥物的結(jié)論。進(jìn)一步而言,如果療效差異的95% 置信區(qū)間甚至也不包含原假設(shè)預(yù)先指定的參數(shù)值(風(fēng)險(xiǎn)比例的95%置信區(qū)間的下界不低于1),那么我們可以直接確認(rèn)試驗(yàn)藥物的療效優(yōu)于標(biāo)準(zhǔn)藥物,即得出優(yōu)效性的結(jié)論。根據(jù)封閉檢驗(yàn)原則(Closed testing principle),我們無(wú)需對(duì)此時(shí)的多重檢驗(yàn)作調(diào)整[2]。
但是,反之則不成立:如果優(yōu)效性試驗(yàn)不能夠拒絕原假設(shè),即無(wú)法得出試驗(yàn)藥物優(yōu)效性的結(jié)論,那么我們不可以隨后進(jìn)行藥物非劣效性的檢驗(yàn)。這是因?yàn)槿粜枰獧z驗(yàn)藥物的非劣效性,則我們必須在試驗(yàn)啟動(dòng)之前明確地指定非劣效限度的大小。然而,若試驗(yàn)的整體設(shè)計(jì)基于藥物的優(yōu)效性檢驗(yàn),則我們不會(huì)預(yù)先確定該非劣效限度,而它的取值對(duì)于非劣效性試驗(yàn)至關(guān)重要,并且也不允許在試驗(yàn)數(shù)據(jù)分析后才確定該限度。
如何在優(yōu)效性和非劣效性試驗(yàn)中選擇目標(biāo)分析人群?
假設(shè)檢驗(yàn)通常包括一個(gè)原假設(shè)和一個(gè)備擇假設(shè)。一般而言,原假設(shè)是我們希望在數(shù)據(jù)的支持下拒絕的假設(shè),而備擇假設(shè)則是和原假設(shè)相對(duì)立的假設(shè),即我們希望可以得到數(shù)據(jù)的支持并接受的假設(shè)。
在臨床試驗(yàn)中,我們應(yīng)盡量確保試驗(yàn)按照預(yù)先設(shè)定的方案進(jìn)行,并將操作失誤或偏離方案所帶來(lái)的影響降為最低。試驗(yàn)的參與者對(duì)于研究方案的依從程度取決于諸多因素。例如,病人可能會(huì)拒絕隨機(jī)分配的藥物,或者可能由于病情惡化或未達(dá)到預(yù)期療效而提前退出試驗(yàn),也可能因?yàn)樗幬锏亩拘曰蚋弊饔眠^(guò)強(qiáng)而退出試驗(yàn),甚至?xí)乃峙涞闹委熃M轉(zhuǎn)到其它治療組。
在上述情況下,患者治療方式的改變與試驗(yàn)方案的偏離會(huì)增加統(tǒng)計(jì)推斷的難度。
在隨機(jī)臨床試驗(yàn)的數(shù)據(jù)分析中,主要關(guān)注三類病人樣本的分析對(duì)象:意向性(ITT: intent-to-treat)群體,符合方案(PP: per-protocol)群體和實(shí)際治療(AT: as-treated)群體。由于這三種分析針對(duì)的人群不同,其相應(yīng)的結(jié)論和統(tǒng)計(jì)推斷也會(huì)有所不同。最常用的ITT 方法囊括了試驗(yàn)中所有的參與者,并以他們?cè)谠囼?yàn)最初隨機(jī)分配所屬的治療組別作為分析基準(zhǔn)。PP 方法的原則是將不服從試驗(yàn)安排的病人從分析樣本中剔除,從而只納入完全遵守試驗(yàn)方案的病人。因此,在這樣理想的狀況下(即參與者完全服從試驗(yàn)方案),PP 方法旨在評(píng)估藥物之間顯示出的最大療效差異。AT 方法則是介于ITT 與PP 方法之間的折中策略,它是基于病人在試驗(yàn)中實(shí)際接受的療法,而非病人最初分配的療法[3]。
對(duì)于優(yōu)效性試驗(yàn),主要的分析對(duì)象為意向性分析(ITT)群體。該分析群體基于意向性治療原則,即對(duì)所有經(jīng)過(guò)隨機(jī)分組的病人,按照他們最初所分配的治療組進(jìn)行評(píng)價(jià)和分析,而不論他們?cè)谠囼?yàn)期間是否依從試驗(yàn)的分組及治療方案。在優(yōu)效性試驗(yàn)中,ITT分析方法較為保守,它更傾向于接受原假設(shè)(即低估兩種藥物之間的療效差異)。與ITT分析方法相對(duì)的病人群體是符合方案(PP)分析群體,該分析群體只納入嚴(yán)格遵守試驗(yàn)分組、方案和規(guī)定的病人。與ITT 分析方法相比,PP分析方法更傾向于檢測(cè)出或高估兩種藥物之間的療效差異,因此其檢驗(yàn)結(jié)果相對(duì)較為激進(jìn),即更傾向于拒絕原假設(shè)。
然而,對(duì)于非劣效性試驗(yàn),上述情況恰恰相反。優(yōu)效性試驗(yàn)的原假設(shè)(無(wú)療效差異)在非劣效性試驗(yàn)下成為備擇假設(shè),因此ITT分析方法更傾向于支持無(wú)療效差異(即支持備擇假設(shè)),所以其結(jié)論過(guò)于激進(jìn)。與ITT分析方法相比,PP分析方法對(duì)于非劣效性試驗(yàn)較為保守,更傾向于接受原假設(shè)(即支持劣效性)。
總結(jié)與討論
該VV116試驗(yàn)為單盲試驗(yàn),即研究者不知道患者服用何種藥物,但患者知道自己服用的藥物,而這會(huì)影響統(tǒng)計(jì)結(jié)果的真實(shí)性。
對(duì)于有高危因素的輕中度COVID-19成人患者,在主要終點(diǎn)“至持續(xù)臨床康復(fù)時(shí)間”方面,基于ITT分析群體的風(fēng)險(xiǎn)比例為1.17,95% 置信區(qū)間為 [1.02, 1.36];基于PP分析群體的風(fēng)險(xiǎn)比例為1.17,95%置信區(qū)間為[1.01, 1.35]。ITT和PP分析群體風(fēng)險(xiǎn)比例的95% 置信區(qū)間均不包含非劣效限度0.8,也不包含1。因此,試驗(yàn)數(shù)據(jù)不但支持VV116非劣效于Paxlovid,而且優(yōu)效于Paxlovid?;颊叻?VV116康復(fù)時(shí)間中位數(shù)為4天,Paxlovid康復(fù)時(shí)間中位數(shù)為5天。
VV116試驗(yàn)樣本量不大——分配VV116組384人,Paxlovid組387人。兩組中均沒(méi)有參與者進(jìn)展為重癥或死亡。在次要終點(diǎn)分析中,持續(xù)癥狀消退的時(shí)間和SARS-CoV-2檢測(cè)轉(zhuǎn)陰時(shí)間在兩組之間沒(méi)有統(tǒng)計(jì)顯著性差異。到服藥第28天,VV116組的不良事件發(fā)生率(67.4%)低于Paxlovid組(77.3%),具有統(tǒng)計(jì)顯著性差異。
然而,輕癥患者的康復(fù)時(shí)間并不是Paxlovid獲得FDA批準(zhǔn)的主要原因,其最核心的競(jìng)爭(zhēng)力為大幅降低高?;颊叩闹匕Y(住院)或死亡率(ERIC-HR臨床試驗(yàn)結(jié)果顯示Paxlovid可以降低重癥或死亡率達(dá)89%[4])。而且,對(duì)于康復(fù)時(shí)間,Paxlovid并沒(méi)有顯示出與安慰劑的差別。
該試驗(yàn)顯示VV116是具有研發(fā)前景的抗新冠病毒的口服藥物。然而,公眾最關(guān)心的指標(biāo)并不是患者的臨床康復(fù)時(shí)間,而是重癥或死亡率的降低。這是因?yàn)樾鹿诓《緦?duì)長(zhǎng)者的危害尤其大,很多長(zhǎng)者由于擔(dān)心疫苗的副作用而沒(méi)有接種疫苗,而且長(zhǎng)者通?;加谢A(chǔ)病。試驗(yàn)的參與標(biāo)準(zhǔn)可以只限于這類高危人群,主要終點(diǎn)設(shè)為重癥或死亡率,因?yàn)樾鹿谒幬镒钪匾闹笜?biāo)是降重癥和降死亡[5]。