一、什么是亞組分析?
在隨機臨床試驗中,亞組分析指的是在根據(jù)基線特征(如年齡、性別、組織學(xué)和種族)定義的患者亞組中評估特定終點(如總生存期)的治療效果(如風(fēng)險比HR)。不建議根據(jù)隨機化后測量結(jié)果確定亞組,因為可能會影響患者分配至亞組的隨機化原則。
亞組分析有助于探索更可能從試驗性治療中獲益的患者亞組,從而從臨床試驗中獲得最大化信息。隨后,可根據(jù)這些結(jié)果生成新的假設(shè)和試驗。最終,這可能導(dǎo)致臨床實踐的變化。
此外,亞組分析還可用于評價總體治療效果在患者亞組之間是否一致,這通常被稱為“穩(wěn)健性檢查”(robustness checking)?;谏鲜鲈?,監(jiān)管機構(gòu)支持進行適當?shù)膩喗M分析。
二、亞組分析存在哪些問題?
亞組分析有兩個關(guān)鍵的統(tǒng)計學(xué)局限性。首先,它們經(jīng)常統(tǒng)計效能不足(under-powered)。這是由于臨床試驗的樣本量計算通常僅考慮在所有隨機化患者(而非患者子集)中達到足夠的統(tǒng)計效能。因此,某一亞組(如性別)的一個子集(男性)與另一個子集(女性)中觀察到的治療效應(yīng)是否存在顯著差異的交互效應(yīng)檢驗通常效力不足。因此,亞組分析容易產(chǎn)生“假陰性”結(jié)果。
亞組分析的第二個主要局限性在于特別容易出現(xiàn)多重性(multiplicity)。多重性是指獲得“假陽性”結(jié)果的概率增加,即錯誤地得出治療組之間存在顯著差異的結(jié)論。換句話說,通過對主要終點進行多次亞組分析,這些比較中的一個或多個偶然產(chǎn)生顯著結(jié)果的可能性更大。例如,如果對主要終點進行10次比較,其中至少有一次得出假陽性結(jié)果的概率為40%。因此,當進行多個亞組分析時,單次比較中小于0.05的p值并不能提供充分的證據(jù)支持治療組之間存在顯著差異。
三、亞組分析可能導(dǎo)致哪些有害的后果?
亞組分析有時可用于“拯救”一項失敗的研究,即雖然未達到試驗的主要目的,但發(fā)現(xiàn)試驗組在特定患者亞組中顯著優(yōu)于對照藥物。然而,正因于此,申辦方可能會對許多亞組進行計劃外的分析,以嘗試找到治療組顯著優(yōu)于對照藥物的一個(或幾個)患者亞組,這通常被描述為“數(shù)據(jù)疏通(data dredging)”或“捕魚旅行(fishing trip)”。對亞組分析的誤讀可能導(dǎo)致啟動基于未經(jīng)證實的假設(shè)的臨床研究,并最終造成對受試者健康的直接損害。這些有害后果的成本極高,但通過了解亞組分析的基本原理可以很容易地進行預(yù)防。
四、如何正確實施和解釋亞組分析?
為了適當進行和解釋亞組分析,首先需要確定是否預(yù)先規(guī)定了亞組分析。預(yù)先規(guī)定的亞組分析旨在進行假設(shè)檢驗;與之相反,計劃外(也稱為探索性、回顧性或事后)的亞組分析則生成新的假設(shè)并進行“穩(wěn)健性檢查”。需要指出的是,兩者都可以提供有價值的信息,但原理和目的存在很大的差異。而且,只能根據(jù)預(yù)先規(guī)定的亞組分析才能得出結(jié)論性推論,或?qū)е屡R床實踐中的任何后續(xù)變化。
為了克服效能不足(把握度降低)和多重性的兩大統(tǒng)計學(xué)局限性,以下5個步驟概述了適當進行、解釋和報告預(yù)先規(guī)定的亞組分析的最佳方法:
1、在方案和/或統(tǒng)計分析計劃(SAP)中預(yù)先設(shè)定亞組分析
大多數(shù)情況下,應(yīng)在方案中詳細記錄預(yù)先指定的亞組分析。但也可在數(shù)據(jù)揭盲前或開放性研究的首例患者訪視前在SAP中詳述。下表概述了預(yù)先規(guī)定亞組分析時應(yīng)記錄的信息。
預(yù)先規(guī)定的亞組分析被認為更可信,因為它們是在任何數(shù)據(jù)檢查之前就計劃的。但是,預(yù)先規(guī)定或計劃外的亞組分析都傾向于多重性,即由于檢測上述多個亞組導(dǎo)致假陽性結(jié)果的概率增加。因此,僅預(yù)先規(guī)定亞組分析并不能使其自動有效:仍必須按照以下步驟適當進行、解釋和報告。
2、使用交互效應(yīng)檢驗(Interaction Test)
交互效應(yīng)檢驗是進行亞組分析最合適的統(tǒng)計方法,這一概念可用以下假設(shè)示例來說明:
圖1:什么是交互效應(yīng)檢驗?
假設(shè)臨床試驗中有兩個治療(Tx)組:Tx A組和Tx B。根據(jù)基線特征定義的患者亞組也有兩個水平:男性和女性。連接圓圈和正方形的回歸線分別代表Tx A和Tx B治療延長總生存期的療效。因此,回歸線越高,死亡風(fēng)險越高。
通過亞組每個水平的箭頭意指治療效應(yīng)。如果回歸線平行,則治療效應(yīng)和性別之間無交互效應(yīng)(圖A),即男性的治療效果與女性相同。如果回歸線不平行或交叉(圖B和圖C),則治療效應(yīng)和性別之間存在統(tǒng)計學(xué)顯著的交互效應(yīng),即男性的治療效果與女性存在顯著差異。
3、估計亞組每個水平的治療效應(yīng)
交互效應(yīng)檢驗通常作為回歸模型的一部分進行,而回歸模型的類型取決于分析的終點。Cox比例風(fēng)險模型是分析臨床試驗中至事件時間終點的標準方法。因此,在該假設(shè)示例的情況下,使用Cox模型進行”治療-性別”交互效應(yīng)檢驗,提供了亞組每個水平的HR(Tx A vs Tx B)、95%置信區(qū)間和相關(guān)p值。
圖2:通常使用森林圖顯示亞組分析結(jié)果。上圖是與圖1C中描述的交互效應(yīng)示例相對應(yīng)的結(jié)果。菱形代表HR的點估計值(Tx A vs Tx B),水平線代表95%置信區(qū)間。
應(yīng)謹慎解釋亞組每個水平HR的相關(guān)p值。一個常見的錯誤是聲稱存在治療效應(yīng)差異,因為與HR相關(guān)的p值在男性中具有統(tǒng)計學(xué)顯著性,但在女性中不具有顯著性。這是不正確的,因為僅有交互效應(yīng)檢驗的p值才能確定在不同性別中觀察到的HR是否存在顯著差異。這是因為交互效應(yīng)檢驗考慮了:(i)亞組不同水平患者的預(yù)后,例如,無論分配的治療如何,女性的總生存期可能優(yōu)于男性;(ii)除組內(nèi)變異性外,男性和女性之間的組間變異性。
4、使用確證性證據(jù)驗證亞組結(jié)果
為了證實單個臨床試驗的亞組結(jié)果,需要在獨立研究或薈萃分析中進一步驗證。需要強調(diào)的是,在得到確證性證據(jù)之前,亞組分析僅生成假設(shè),在所有隨機化患者中觀察到的治療效果仍被視為亞組每個水平患者的最合適估計值。
5、負責任地報告結(jié)果
需要負責任地報告亞組結(jié)果,以便其他人能夠?qū)ζ溥M行適當解釋。應(yīng)在摘要和結(jié)論中強調(diào)所有隨機化患者的主要終點分析結(jié)果。此外,還應(yīng)說明預(yù)先規(guī)定的亞組分析的名稱,并應(yīng)明確說明預(yù)先規(guī)定和計劃外進行的亞組分析的數(shù)量。還應(yīng)在當前確證性證據(jù)和科學(xué)文獻的背景下討論亞組分析結(jié)果的有效性。
上文所述概念適用于任何類型的終點,例如分類(應(yīng)答者或非應(yīng)答者)、連續(xù)(收縮壓)或至事件時間數(shù)據(jù)(總生存期)。下表總結(jié)了幫助臨床醫(yī)生正確解釋亞組分析的關(guān)鍵要點。
參考資料:
Barraclough H, Govindan R. Biostatistics primer: what a clinician ought to know: subgroup analyses. J Thorac Oncol. 2010 May;5(5):741-6.