港大教授公開質疑國產阿爾茲海默癥新藥療效

撰文 | 尹國圣(香港大學統(tǒng)計與精算學系潘燊昌基金教授)
責編 | 葉水送
隨著人們的壽命越來越長且預期會持續(xù)增長,阿爾茨海默病(Alzheimer’s disease)在老齡化的人口中變得司空見慣。阿爾茨海默病的主要特征是大腦進行性退化及神經紊亂,患者會經受進行性記憶和認知能力嚴重下降,出現(xiàn)神經精神癥狀和行為障礙,這會危害其日常生活和獨立能力。
美國食品藥品監(jiān)督管理局(FDA)已批準了五種用于阿爾茲海默病的藥物:1993年批準的針對輕度至中度階段患者的Tacrine;1996年批準的適用于所有階段患者的 Donepezil;2000年批準的對輕度至中度階段患者使用的 Rivastigmine;2001年批準的針對輕度至中度階段患者的 Galantamine;以及2003年獲批的適用于中度至重度階段患者的 Memantine。
前四種藥物是膽堿酯酶抑制劑(cholinesterase inhibitor),可提高大腦中的乙酰膽堿水平。第五種藥物是一種N-甲基-D-天冬氨酸(N-methyl-D-aspartate,NMDA)受體拮抗劑,其作用是保護腦細胞免受過量谷氨酸的侵害。平均而言,這五種獲批的阿爾茲海默病藥物僅對接受治療的患者中的一半有效,并且有效期約為六至十二個月。
當前的阿爾茲海默病藥物有助于緩解疾病的癥狀,但是不能治療潛在疾病或治愈病人。阿爾茲海默病藥物研發(fā)的突破性的創(chuàng)新藥應該能夠治療潛在的疾病,并停止或延緩導致癥狀惡化的腦細胞損傷。
作為一種慢性疾病,為了表征阿爾茲海默病的發(fā)展,病人的認知功能評分需要隨著時間的推移被反復測量。臨床試驗中最常用的評分是阿爾茨海默病評估量表(Alzheimer’s Disease Assessment Scale, ADAS),它是一種基于表現(xiàn)的測試,用于測量特定的認知和行為功能障礙 [1-2]。ADAS的認知估量表(ADAS-Cog12)包含12個項目,總計分數(shù)范圍在0到80之間,較低的分數(shù)表示病癥較輕。
在阿爾茲海默病的藥物研發(fā)中,治療藥物可以分為緩解癥狀或改善疾病的兩大類功效。緩解癥狀的藥物通??梢栽诙虝r間內改善病人認知,功能和整體指標,或推遲其健康狀況的下降過程;而疾病改善的藥物則可以改變疾病進程并減慢疾病發(fā)展速度(曲線的斜率)。
從統(tǒng)計學的角度,可分延遲啟動設計以及交錯撤回設計。延遲啟動設計,又稱隨機啟動設計,為檢驗疾病改善效果提供了一種方法 [3-4]。該試驗設計包括兩個階段:在第一階段,將患者隨機分為試驗組和安慰劑組,并對其進行隨訪;在第二階段,接受安慰劑的患者轉為接受試驗藥物治療,而接受試驗藥物的患者仍保持不變,即繼續(xù)接受試驗藥物。如果延遲啟動組(最初的安慰劑組)能夠 “追趕上” 從一開始就接受試驗藥物治療的試驗組,則表明該藥物只具有緩解癥狀的療效,但無改善疾病的作用。如果延遲治療組未能 “追趕上” 從一開始就接受治療的試驗組,那么在第二階段結束時,兩組測試結果的差別就體現(xiàn)了藥物的疾病改善作用。另一種方法稱為交錯撤回設計,從理念上講該方法與延遲啟動設計恰恰相反。接受藥物治療的患者將從治療中退出,如果他們回到和安慰劑組的相同水平,則藥物沒有疾病改善作用。如果停藥后治療組的水平仍高于安慰劑組,則藥物可能會有疾病改善的功效。

GV-971治療阿爾茨海默綜合征的原理示意圖
綠谷制藥在2014年阿爾茲海默病臨床試驗會議(CTAD)上展示了 GV-971 [5] 在255名輕度到中度阿爾茲海默病患者中的二期臨床試驗結果 [6]。該研究表明,與安慰劑組相比,每日接受900毫克 GV-971 的試驗組在 ADAS-Cog12 得分指標上無顯著性改善趨勢。
盡管二期臨床試驗的結果沒有達到統(tǒng)計顯著性水平,GV-971 的三期臨床試驗仍于2014年在中國的34個地點啟動。根據綠谷制藥在2019年 CTAD 會議上的報告,三期臨床試驗共招募818名輕度到中度的阿爾茲海默病患者,其中約一半患者被隨機分配到試驗組接受每日兩次450mg GV-971 治療,另一半患者被隨機分配到安慰劑組。在試驗期間,參與者不得服用其他治療阿爾茲海默病的藥物,如膽堿酯酶抑制劑。自從去年 GV-971 獲得中國國家藥品監(jiān)督管理局批準上市已經過了近一年,而至今,GV-971 相關的臨床試驗數(shù)據仍未在任何文獻中發(fā)表。
從統(tǒng)計學的角度 [7],GV-971 臨床試驗設計及數(shù)據分析存在如下6點問題:
1. 在第4,12,24和36周分別進行了四個假設檢驗,并報告了相關的p值 [6]。由于隨著時間的推移進行了多次假設檢驗,也就是統(tǒng)計學上的多重檢驗問題,這會導致試驗總體的第一類錯誤(假陽性)率升高。因此,這四個假設檢驗不應使用0.05作為顯著性水平。
2. 跟隨時間測量的試驗數(shù)據會有很強的相關性,尤其對于這種慢性疾病。因此,數(shù)據分析應該使用多變量聯(lián)合檢驗,而不是分別或獨立進行四個單獨的假設檢驗。
3. 通常,一種新藥的批準需要進行兩個三期臨床試驗的驗證,即結果可重復性。先前的二期試驗在主要終點ADAS-Cog12上未達到統(tǒng)計顯著性,這已經質疑了三期試驗的結果,應該進行另一個獨立的三期試驗來復現(xiàn)或驗證該三期試驗的結果。
4. 盡管在第36周時試驗組與安慰劑組的ADAS-Cog12得分相對基線變化值的差為-2.54,并在統(tǒng)計上具有顯著性(p值小于0.0001),這樣的差距是否在臨床上也具有實際意義?統(tǒng)計上的顯著性并不意味著臨床上的顯著性或臨床意義。
5. 二期臨床試驗的數(shù)據可以作為歷史數(shù)據,提供相關先驗信息,進行更全面的貝葉斯分析。更無法理解的是,為什么在二期試驗失敗的情況下三期試驗仍能啟動?并且藥物劑量和試驗的主要終點都相同。


制版編輯 | 皮皮魚