
上QQ阅读APP看书,第一时间看更新
第四章 个体化治疗的统计学方法
田鲁 1 赵晓光 2 陈新林 3
1美国斯坦福大学
2西安医科大学
3广州中医药大学
第一节 简介
近年来,正如普通的临床实践,个体化治疗引起了许多人的兴趣。个体化治疗的基本概念:根据病人的基因、临床条件和其他个体特征来制定特定的治疗方案,以提高病人的疗效和安全性(Arnedos et al. [1];Ziegler et al. [2];Jungic et al. [3])。其实个体化治疗理念并不新颖,从某种程度上说,大部分临床决策都是基于个体的。然而,最近大量组学信息的应用使我们能够精细刻画个体特征,并将个体化治疗真正落实到“个体化”的临床决策(Fernald et al. [4])。例如,人类基因组计划的完成和基因检测成本的不断降低,让医生可用病人的基因信息预测病人将来的发病风险或治疗效果。个体化治疗在疾病预防、诊断和治疗方面有着巨大的潜力。例如,基因测试用于指导华法林剂量的选择(Gage et al. [5];Lenzini et al. [6])。个体化治疗临床研究带来的统计学问题主要集中在:如何为个体化治疗策略(如基于观察数据)的建立和评估提供有效的工具。不同的临床问题需要不同的统计方法。个体化治疗通常有两个目的:①构建个体化风险分层系统,用于指导病人选择合适的预防和治疗策略;②建立个体化疗效的评估方法,用于筛选治疗中受益的亚组病人。我们将讨论和回顾近年来这两种研究方面统计方法的发展。
第二节 个体化治疗的风险预测
在疾病预防中,准确地确定高危人群和实施相应的特殊干预具有非常重要的意义。因此,对疾病的未来风险进行准确预测至关重要。例如,阿司匹林能有效降低心血管疾病的患病风险,但是考虑到成本及包括胃肠道溃疡和胃出血等潜在的副作用,所有病人都使用这个药就并不合适。另一方面,如果病人十年内患心血管疾病的风险较高(如高于10%),服用阿司匹林给病人带来的好处比潜在风险大,则病人应该服用阿司匹林。为了实施这个预防策略,临床医师需要运用各种信息来评估病人十年内患心血管疾病的风险(Lloyd-Jones [7])。在统计学中这是一个典型的回归分析问题。一般来说,回归分析通过估计模型中的未知参数来刻画自变量(暴露因素)和因变量(结局)之间的关系(Draper and Smith [8])。因此,基于观察数据的对模型假设有效性的检验非常重要。可是这里,我们研究的主要目的是基于回归模型来准确预测结果。因此,不必假定回归模型是正确的,评估和选择回归模型的主要标准在于它们的预测性能(Tian et al. [9])。
接下来我们将描述建立和评价生存结局的预测模型的一般步骤。假设 T和 X分别表示病人的生存时间和协变量向量。生存时间是右删失资料,不能完全被观察到。假设存在独立的删失时间 C(Fleming and Harrington [10]),我们只观察到{ U=min( T, C),Δ= I( T≤ C)},其中 I(·)是指示函数。由于生存时间是右删失资料,在没有非常特殊限制的模型假设下,难以估计生存时间 T的完全分布。因此,人们难于预测生存时间 T。实际上,我们可能更加关注 Y( T转换的新变量),如果其分布是可估计的。例如,用 Y= I( T≥ t)表示 t时点的生存状况。使用 Y,我们可以通过建立条件期望模型 μ( x)= E( Y| X= x)来预测结果。
一、个体化风险预测的模型建立
假设有 n个独立、同分布的观察值{( U i,Δ i, X i), i=1,… n},我们的目标是建立一个提供预测的回归模型。当 X是单维的,且函数形式没有具体假设的情况下,可用平滑非参数法来预测 μ( x)。但是,当 X的维数大于1时,由于多维性,不能使用平滑非参数法。因此我们必须对 μ(·)增加一定的附加假设。比如,一个简单的模型:
,其中 g(·)为给定的单调函数,包括截距的向量 W( x)是原协变量向量 X的函数, β是感兴趣的未知参数。 β可以用逆概率加权估计方程(inverse probability weighted estimating equation)的根
来估计。加权估计方程表示为



(4-1)
其中
是删失分布的Kaplan-Meier估计值, W i= W( X i)。权重
用于校正右删失造成的偏倚(Zhao and Tsiatis [11])。一旦获得 β′,我们可通过公式
预测病人的最终结局。这种简单方法最吸引人之处是,在弱正则条件下,甚至当模型(4-1)不成立时,只要 n→∞, β′仍然收敛于常数向量 β 0(Tian et al. [9])。这意味着增加样本量能稳定预测规则。此外,最终收敛的预测规则并不依赖于删失分布。



评论
我们也可以使用其他常用的回归模型。如对右删失资料的分析可采用半参数比例风险模型(Cox [12])或加速失效时间模型(accelerated failure time model)(Buckley and James [13];Wei [14]),根据拟合的模型推导出与 Y相对应的预测规则(Lin et al. [15];Park and Wei [16])。但是当违反模型假设时,这些规则通常依赖于删失分布(Lin and Wei [17];Xu and O’Quigley [18])。
二、个体化治疗风险预测的模型评估
不同的工作模型能够得到多种预测规则,因此选择最佳预测规则或回归模型至关重要。对于典型的回归分析,评估模型的常用方法是建立拟合优度检验统计量,推导出统计量的分布情况。并且进一步进行统计检验,确定模型误设的 p值(Fan and Huang [19];Lin et al. [20])。但是,我们的目的不是对特定的模型假设进行检验,我们的目标是为将来的病人提供预测,评估一个模型最好要估计预测规则在目标人群中的预测误差。为此,需要确定一个反映预测值与真实值之间偏差的损失函数,并且要求损失函数具有临床研究中的直观解释。例如,我们可以使用绝对预测误差的期望
来度量预测规则的准确性(Tian et al. [9])。它可退化为二分类变量的错误分类率。根据观测值,期望损失的估计值可表示为:


然而,众所周知,由于同一数据用于推导和评估预测规则,这类“表观误差”的估计值可能会发生偏倚(低估)(Stone [21];Geisser [22])。评估绝对预测误差更可靠的方法是使用交叉验证方法(Efron and Tibshirani [23];Efron [24])。我们把数据集随机分成 K个不相交的,大小类似的子集,记为{Γ k, k=1,…, K}。对每个 k,我们使用不在Γ k数据集的所有观测值来获得对 X= x个体的预测规则
,并使用
来估计总的绝对预测误差。绝对预测误差的最终估计值为
。平均绝对预测误差的估计值可用来评估预测规则的性能。



面对众多的预测规则,我们通常选择最小交叉验证估计值的规则。但是实际研究中,当两个预测误差间的差别小到没有临床意义时,人们更倾向于选择简单的预测规则。一旦我们根据可解释性和预测误差的估计选择了较佳的预测规则或工作模式,便可以使用整个数据集求解最终的预测规则,并将其用于未来的预测。
三、个体化治疗风险预测中生物标志物的附加价值
新生物标志物的额外测定(价格昂贵且有侵害性)是否能够提高原有预测规则的性能,人们常常对此有不一致的意见(Ridker et al. [25];Ridker [26];Uno et al. [27])。传统上这个问题可以通过拟合包括新旧生物标志物等协变量的多重回归模型,并检测新生物标志物与临床结局之间校正后的关系是否存在统计学意义来解决(Ridker et al. [25])。但是除了回归模型的有效性会有疑问外,单独的统计学意义也并不能说明新生物标志物在临床应用中增加的实际价值。人们可以使用上面提到的方法,根据旧生物标志物或根据新旧生物标志物的预测规则,分别估计其平均绝对预测误差。我们定义旧、新预测规则的估计预测误差分别为
和
,新生物标志物在估计预测误差中的价值则表示为
(Tian et al. [9];Uno et al. [28])。我们可以求解
的95%置信区间(95% CI)。这个方法可以检验新生物标志物在预测中起到的作用,便于决策者判断生物标志物的“价值”。




有时,只需要对亚组(部分)人群开展新生物标志物的测量。为了确定合适的亚组人群,应该对不同的亚组人群分别估计新旧预测规则之间预测误差的差异(Tian et al. [29])。例如,可对
的病人运用交叉验证程序来估计


其中
和
分别表示旧预测规则和新预测规则的预测值。通过检测 G( s)函数,我们可以挑选出从新生物标志物的测量中获益最多的亚组病人。


四、个体化风险预测评分系统的统计推断
最终的预测规则可以为每个病人产生一个预测结果,也就是一个评分系统。这种评分系统主要用于个体化的风险预测和利用基线信息确定高风险或低风险的病人。下一步我们需要对已建立的评分和未来结局之间的“真实”联系做统计推断(Cai et al. [30];Li et al. [31])。从一系列备选规则中选择最终的预测规则后,我们需要使用新数据(和选择、构建评分系统的数据无重叠)开展“诚实的”推断。新数据最好来自一个独立的研究。或者把一个大数据集分成训练集(training set)和验证集(holdout set),训练集用于建立评分系统(包括通过交叉验证程序进行模型选择),验证集则专门用于评分系统的统计推断。评分是单维的,因此可使用最小模型假设的非参数估计。假设验证集的数据由 m个独立同分布的观察值
组成,其中
是评分系统。这个阶段推断的目的是估计条件期望值
,其中
是验证集的真实结局。假设 η(·)有连续的二阶导数,我们可以应用标准的局部线性平滑方法(Fan and Gijbels [32])。
可通过
进行估计。这里
是下面估计方程的解:








其中 K h( x)= K( x/ h)/ h, K(·)是有限支撑的平滑核函数K(φ)。 h= o p(1)是平滑带宽(smoothing bandwidth)。

是
生存函数的非参数估计值(Dabrowska [33][34]),其中
。因为我们假设删失时间
和
是独立的,基于整个样本的Kaplan-Meier估计值和
局部估计值收敛于相同的极限。但是,后者可提高
估计值的效率。如果( mh) -1= o p(1),而且当
时,
一致收敛于
。如果 mh 5= o p(1),那么
弱收敛于均数为0的高斯分布(正态分布),其方差为
。其中
(·)是
的密度函数。一个更自动可靠的方差估计程序是重抽样方法(Gilbert et al. [35];Cai et al. [30];Li et al. [31])。
是摄动估计方程(perturbed estimating equation)的解:















{ B 1,…, B m}是 m个独立单位指数随机变量,重复生成{ B 1,…, B m}得到
。
的方差可以用来逼近
的方差。如果定义
是
方差的相应估计值,
的95%置信区间则为
。
的点估计值及其95%置信区间(置信带),表示个体化预测评分和真实值之间的潜在关系。它可以指导风险的分级,例如可通过设定合适的阈值评分来确定需要积极干预的高风险病人。








需要选择平滑带宽来实现上述的推导过程,平滑带宽可以通过交叉验证程序获得。所得带宽的数量级通常是 O P( m -1/5)。为了忽视渐近偏倚,我们需要一个小于 O P( m -1/5)的平滑带宽。一个简单的解决方法是:把交叉验证选择的带宽乘上一个当样本量增加时收敛于零的因子。
五、个体化治疗风险预测统计方法的总结
我们在上文描述了发展帮助病人风险分层及指导临床干预的评分系统的统计方法。不像传统的统计建模,这个研究的主要目的是为未来的临床结局提供一个准确的预测规则。为此,无论模型假设对现有数据是否有效,多种回归模型都可用来产生预测规则。实践中我们应该通过最小化临床有意义损失函数来选择较佳的预测规则。这里推荐交叉验证程序,因为其可以减少偏倚。另外,还需要确定评分和结局之间的潜在关系。为此,我们可使用最小模型假设的非参数回归模型来分析新的验证集。
第三节 个体化治疗的选择
对于一个给定的治疗,病人疗效可能不一样,如一部分病人的疗效可能大于另一部分病人。在经典的随机临床试验中,最终的结论取决于整个研究人群的平均疗效。可能会出现以下情况:当平均处理效应接近零时,治疗对亚组病人(部分病人)仍然有效。相反的情况也可能出现:总体治疗效果大于0,不排除亚组病人会出现零效应甚至是负效应。在因果推理框架中,我们假设每个病人都有一对潜在反应变量( Y (1), Y (-1)), Y (1)和 Y (-1)分别表示病人接受治疗和安慰剂(或其他处理)的治疗结果(Rubin [36])。实际上,我们只能依照病人的实际治疗观察到 Y= Y (1)或 Y (-1)。随机临床试验(randomized clinical trial)的目的在于估计 Y (1)和 Y (-1)期望值之间的差别,即 E( Y (1)- Y (-1))。如果在数据分析之前考虑总体病人的潜在分层,我们可以通过调整多重检验来进行合适的亚组分析(Wang et al. [37];Alosh和Hugue [38])。另一方面,在个体化治疗策略的统计分析中,感兴趣的参数是“个体化”治疗效果 μ( x)= E( Y (1)- Y (-1)| X= x),其中 X是干预前测量的一组基线协变量。这种分析主要有两个目的:第一,估计 μ( x)的符号,用于确定个体病人的最佳治疗方案;第二,估计 μ( x),量化个体化治疗的效果。为了实现这两个目的,我们以下面的例子来阐述。
虽然“个体化治疗”是媒体中时髦用语,但是更恰当的词应当是“组群特异性医学”(group specific medicine)或者“精准医学”(precision medicine),因为我们能够估计拥有相同协变量 X的亚组病人的“平均”治疗效果。我们知道亚组病人的最佳治疗方案,但是这个治疗方案对亚组中的每一个病人可能并不是最佳治疗方案。众多的生物标志物可用于表示病人的特征,需要进一步把亚组病人分成更小的亚组,进而为每一个亚组中的病人寻找最佳治疗方案。然而,我们仍不知道个体病人“最好”的治疗方案,因为每个病人都是唯一的。
一、个体化治疗效果的估计
当 X是一个高于2维的向量,在没有特定模型假设的情况下,通常不能直接估计 μ( x)。为了直接估计 μ( x),常常需要假设 Y (1)| X= x和 Y (0)| X= x条件分布的组合模型。我们使用生存分析的数据来说明这个方法。假定观察数据由{ U i,Δ i, R i, X i), i=1,…, m}组成,其中 R i=±1表示治疗方法的指示变量。 Y(由 T转化得到)是结局变量。 Y=min( T, τ), τ是一个给定的常数,如 r∈{-1,1}的情况下, P( U﹥ τ| R= r)﹥0(Andersen等 [39];Zhao等 [40])。在这些符号中, Y= Y ( R ), R=±1; R和 X相互独立。不失一般性,我们假设 Pr( R=1)= Pr( R=-1)=0.5。假设比例风险回归模型为
,其中 W( X)由 X转换而来,
是治疗 R的基线风险率函数,我们可以通过最大化部分似然函数来估计 β R。此外,还可以通过Breslow统计量来估计累积危险函数
(Breslow [41]),分别定义
和
为回归系数和累积危险函数。个体化治疗效果 μ( x)可用下式进行估计:






这里使用的比例风险率模型并不是唯一的。为了估计 μ( X),我们可以假设其他方便的回归模型。比如,我们可以假设 E( Y| R, X= x)= γ′ R W( x)和 μ( x)=( γ 1- γ -1) ′W( x)。当 r∈{-1,1},回归系数 γ r可由
估计:


其中
是生存函数的Kaplan-Meier估计值。我们可以通过
估计 μ( X)。


有时并不需要对完全的条件分布 Y r| X= x建模。比如我们可直接令 μ( x)= β′W( x),其中参数 β可以由最小二乘法目标函数的最小化来估计:

这相当于使用调整协变量 W( X) R来拟合 Y的标准线性回归模型。通过调整协变量来开展回归分析是生成评分系统的一个普通方法(Tian等 [42])。例如,可以最大化带有协变量 W( X) R的比例风险率模型 λ( t| X, R)= λ 0( t) e β′W ( X ) R相应的部分似然函数。即便当上述比例风险率模型不成立时,评分系统
可用作评估治疗效果。

所有上述提到的统计模型本质上都是使用不同的方法来确定治疗和协变量的交互作用,因此,也适用于其他有交互作用项的回归模型(Su等 [43];Royston和Sauerbrei [44];Tian和Tibshirani [45])。
二、个体化治疗效果方向的估计
为了用协变量 X= x确定个体病人的最佳治疗方案,只需要知道 μ( x)的符号。人们可能只满足于确定 R +={ x| μ( x)﹥0}和 R -={ x| μ( x)﹤0}的区域。例如生存分析的例子中 Y=min( T, τ), μ( x)﹥0代表积极的治疗效果, x∈ R+和 R-的病人的最佳治疗方案分别表示为 r=1和 r=-1。因此,估计 μ( x)的符号与寻找每个病人的最佳治疗方案是一致的。如果每个病人都接受最佳的治疗,则能够使整个人群的总“效用”最大化。因此人们可以通过关于分类规则
最大化整体效用
的方法来分派最佳疗法(Zhao等 [46])。在没有删失数值的情况下,整体效用的公式表示为
。使上式最大化相当于最小化加权错分类误差
。在出现右删失的情况下,不一定能观察到 Y i,可以最小化





很多不同的数据挖掘技术都可以用于解决加权分类问题。比如用符号
代替
,用凸连接损失函数(convex hinging loss function)代替指标函数(Hastie和Zhu [47];Zhao等. [48])。改进后的目标函数成为:



其中[ X i] +=| x| I( x≥0)。实际操作中,使用基函数{ W 1( x), W 2( x),…, W k( x)}的线性组合
来代替
。当 K不小时,可以将关于 γ k的适当处罚纳入标准支持向量机。于是,剩下的是标准凸优化问题,最终估计的治疗分派规则可以是sign
。其中
是目标函数的最小值。最后将
病人分派到 r=1治疗;
病人分派到 r=-1治疗。此外,作为支持向量机方法的副产品,
可作为
的估计。









评论
在第三节,我们展示了估计 μ( x)和sign{ μ( x)}的几种方法。当指定的工作模型是正确模型时,估计的结果也将是一致的。但是,实际上,所有工作模型都最多是治疗和结局之间的复杂关系的一个大概逼近,因此,当样本量趋于无穷大时,所有的估计值不一定收敛于真实值。虽然有这种限制,获得的估计值仍然可以用于病人分类的评分系统。这种评分系统可以用于根据个体病人的治疗效果从特定治疗方案中选择获益或没有获益的亚组病人。因此,根据最小模型假设确定评分系统在病人分类中的有效性是非常重要的。我们将在下面的两节中讨论相关的方法。
三、个体化治疗效果预测的模型评估
有很多方法可用于构建个体化治疗效果估计的评分系统。因此,在目标人群中评价和比较它们的性能至关重要。评分系统的性能有两种评价标准。第一个标准是评分和 μ( x)(真实的个体化治疗效果)之间的差异或一致性;第二个标准是评分系统选择治疗效果理想的亚组病人的有效性。这两种判断标准是紧密联系的。
假定
是治疗效果的 J个评分系统,我们想从中挑选出最佳的评分系统。首先需要定义一个合理的最优准则。由于我们要使
近似于 μ( x), ξ j=
和 μ( x)之间的 L 2距离是评分系统 j质量的自然测度。



由于并不知道真正的治疗效果 μ(·),我们不能直接使用观察值估计 ξ j, j=1,…, J。然而,我们可以通过

来估计 ξ m和 ξ l的差异。这个公式可用来比较 m评分系统和 l评分系统。在一定的正则条件下,
是 ξ j的一致估计值加上一个不依赖于评分系统的常数(Sinovitch [49])。当用相同数据集来构建评分系统时,
可能会出现偏倚,因为
用于估计
时通常会发生不同程度的低估。因此,需要使用交叉验证校正潜在的偏倚。我们把数据集随机分成 K个大小一致的不相交子集,表示为{Γ k, k=1,…, K}。对每个 k,我们用不在Γ k的所有观察值来重构评分系统
和
,然后用Γ k内的观察值来估计 ξ m和 ξ l的差异,公式为







ξ m- ξ l的交叉验证估计值等于
。这样
可用来划分评分系统,并确定最小平方误差的评分系统。


一般而言,根据给定回归模型得到的评分系统不能准确地估计治疗效果本身。但是仍然希望评分系统可以根据个体化治疗效果对病人进行分类。实际上,可以根据估计评分对病人进行分类,并确定从治疗中收益最多的亚组病人。这个目的启发了下面的方法:对于评分系统 j,将得分为上100(1- α)%的病人亚组记为
;其中 α∈(0,1);可以用非参数方法将
作为亚组病人的疗效估计。也就是设定



和
,其中
是
的经验累积分布函数。当 α=0,
是总体人群治疗效果的估计值。当
是根据给定的评分系统得到的最有潜力病人的治疗效果的估计值。如果第 j个评分系统可以很好对病人进行分类,我们希望
是单调递增的。这意味着我们可以绘制平均差异曲线(AD曲线,
对 α),并使用曲线来评估评分系统的性能。例如,如果想比较评分系统 m和 l,我们可以在同一张图表中绘制它们的AD曲线,并选择更倾斜的AD曲线。







注意到
,即所有的AD曲线都有相同的起始点。这样,我们可以使用治疗效果曲线
和水平线
之间的面积表示治疗效果曲线的平均水平。事实上,两个曲线间的面积近似于




其中 ψ(·)是单调递增函数, F j(·)是
的累积分布函数。由于
总是服从均匀分布 U(0,1),这里的常数和特定的评分系统是互相独立的。进一步,两条曲线间的特定加权面积等于评分和真实的个体治疗效果之间的相关系数乘以一个公共的常数(Zha等 [50]),即



因此,两条曲线间的(加权)面积为评分系统和真实的个体治疗效果的分级提供了一个理想的标准。例如,我们可以使用比率

比较评分系统
和
的性能。当同一数据集用于评分系统的构建和评估,为了避免出现“自我服务”(self-serving)的偏倚,我们仍然应该在评估阶段采用交叉验证方法。确切地说,可以把数据集随机分成训练集和评估集。在训练集中构建评分系统
,在评估集中构建
和
。重复这个过程B次。在第 b次( b=1,…, B)迭代中,假设
和
分别表示为
和
。第 j个评分系统的AD曲线的交叉验证表示为
。其中,
和
。













通过交叉验证得到AD曲线
,可以估计任一对评分系统
间面积的比率。然后根据个体治疗效果为病人风险的分层选择“最好的”评分系统。


四、估计个体化治疗效果评分系统的统计推断
评分系统可对未来病人进行风险分层。下一步需要根据评分和真实治疗效果的联系进行统计推断。因为评分系统的最终建立包含了复杂的模型拟合和模型选择,需要使用新数据(与评分系统选择和构建无重叠的数据)进行有效的统计推断(Cai等 [51])。理论上,评分系统中用于统计推断的新数据应该来源于一个独立的研究。因为评分是单维的,所以可以应用最小模型假设的非参数方法。假定检验集的数据由
组成,其中
是最终的评分系统。这个阶段推断的目的是估计条件期望值:



其中
和
分别为治疗组和对照组的结局。在弱假设条件下,我们可以使用标准局部线性平滑方法。可以使用
估计
,其中
是下面估计方程的解:






其中,
是生存函数
的局部非参数估计值。如果( mh) -1= o p(1)且 h= o p(1),那么
在
内依概率一致收敛于
。如果 mh 5= o p(1),那么
弱收敛于均数为0,方差为
的高斯分布,其中 f S(·)是
的密度函数。
的方差可用自助重抽样方法进行估计。实际上,如果定义
是摄动估计方程(perturbed estimating equation)的解











其中
是生存函数
的摄动“局部”Kaplan-Meier估计值,{ B 1,…, B m}是 m个独立单位指数随机变量,那么
的方差可以用来逼近
的方差,并计算
的95%置信区间。
的点估计和它的置信区间/置信带为量化病人的实际治疗效果提供了有用的信息。我们可以通过交叉验证法选择用于上述方法的平滑带宽。与2.4节提到的情况类似,需要引进小的平滑带宽防止
统计推断时出现的渐近偏差。







五、个体化治疗效果预测统计方法的总结
我们在前面描述了用于病人分层的评分系统的统计方法。与第2节中讨论个体化风险分层所用的统计学方法相似,这里的目的是预测个体化治疗的效果。假设治疗效果的变化依赖于基线协变量 X,可以应用包含治疗和协变量交互作用的多个回归模型,推导出评分系统并将其用于估计个体的治疗效果。或者直接通过整体效用的最大化来估计最佳治疗分派规则。评分系统的评估面临着特殊的挑战,因为实际上个体化治疗效果并不能直接被观察,导致我们不能直接估计评分系统的预测误差。我们只能估计两个评分系统均方预测误差之差或者(评分的秩与真实的个体治疗效应之间)相关系数之比。我们还可以就评分与未来结局之间的潜在关系进行非参数统计推断。
第四节 讨论
这篇文章中,我们回顾了个体化治疗的风险分层和模型选择的统计学方法,这些方法都可用于未来的临床实践。这篇文章的目的在于构建、评估和选择评分系统,从而准确地预测个体病人的临床结局或治疗效果。个体化治疗的分析通常包括3个阶段:①通过拟合工作模型来构建评分系统;②通过交叉验证方法评估和选择最佳评分系统;③使用新数据对已选择的评分系统进行统计推断。
在第1阶段,回归模型只是用来推导评分系统的工具,并不需要完全正确。当协变量的维数(相对于样本量而言)较大时,可使用合适的正则化方法来拟合一个稳定简洁的回归模型(Friedman [52];Tibshirani [53];Zou和Hastie [54])。在第2阶段,我们需要通过交叉验证方法来避免“表观误差”型的估计偏倚,从而选择最佳的评分系统。最后,一旦得到最佳的评分系统,我们则利用独立数据集对其开展非参数统计推断。
一般认为在后续的统计推断中忽略构建评分系统时的随机性是非常奇怪的。但是,这个方法和我们实践中遇到的问题是一致的,如Framingham的危险评分一旦建立就是固定的而非随机的(Wilson等 [55])。值得注意的是,本文所展示的方法主要是对已获得数据的分析。在个体化治疗方面还有很多新研究,并取得了很多有趣的进展(Sargent等 [56];Simon [57];Zhao等 [58];Arkenau等 [59];Frech等 [60];Le Tourneau等 [61])。与最佳动态治疗方法有关的统计学方法是另一个热点问题,本文没有涉及(Murphy [62];Moodie等 [63];Chakraborty等 [64])。
参考文献
1.Arnedos M.,Andre F.,Farace F.,et al. The challenge to bring personalized cancer medicine from clinical trials into routine clinical practice:The case of the Institut Gustave Roussy. Mol Oncol,2012,6:204-210.
2.Ziegler A.,Koch A.,KrockenbergerK.,et al. Personalized medicine using DNA biomarkers:a review. Human Genetics,2012,131(10):1627-1638.
3.Jungic S.,Tubic B.,Skrepnik T. The role of biomarkers in the development of novel cancer therapies. Drug Metablo Durg Interct.,2012,27(2):89-99.
4.Fernald G.,Capriotti E.,Daneshjou R.,et al. Bioinformatics challenges for personalized medicine. Bioinformatics,2011,27(13):1741-1748.
5.Gage B.,Johnson J.,Deych E.,et al. Use of pharmacogenetic and clinical factors to predict the therapeutic dose of warfarin. Clin Pharmacol Ther,2008,84:326-331.
6.Lenzini P.,Wadelius M.,Kimmel S.,et al. Integration of genetic,clinical,and laboratory data to refine warfarin dosing. Clin Pharmacol Ther,2010,87:572-578.
7.Lloyd Jones D. Risk prediction in cardiovascular medicine. Circulation,2010,121:1768-1777.
8.Draper N.,Smith H. Applied regression Analysis. 3rd Edition. John Wiley & Son,1998.
9.Tian L.,Cai T.,Goetghebeur E.,et al. Model evaluation based on the sampling distribution of estimated absolute prediction error. Biometrika,2007,94(2):297-311.
10.Fleming T.,Harrington D. Counting processes and survival analysis. John Wiley & Son,1991.
11.Zhao H,Tsiatis A. A consistent estimator for the distribution of quality adjusted survival time. Biometrika,1997,84(2):339-348.
12.Cox D. Regression models and life-tables. Journal of the Royal Statistical Society( Series B),1972,34(2):187-220.
13.Buckley J.,James,I. Linear regression with censored data. Biometrika,1979,66(3):429-436.
14.Wei L. The accelerated failure time model:A useful alternative to the Cox regression model in survival analysis. Statistics in Medicine,1992,11(14):1871-1879.
15.Lin D.,Fleming T.,Wei L. Confidence bands for survival curves under the proportional hazards model. Biometrika,1994,81:73-81.
16.Park Y.,Wei L. Estimating subject-specific survival functions under the accelerated failure time model. Biometrika,2003,90:717-723.
17.Lin D Y,Wei L J. The robust inference for the Cox proportional hazards model. Journal of American Statistical Association,1989,84:1074-1078.
18.Xu R,O’Quigley J. Estimating average regression effect under non-proportional hazards. Biostatistics,2000,1(4):423-439.
19.Fan J,Huang L. Goodness-of-fit tests for parametric regression model. Journal of the American Statistical Association,2001,96(454):640-652.
20.Lin D,Wei L,Ying Z. Model-checking techniques based on cumulative residuals. Biometrics,2002,58(1):1-12.
21.Stone M. Cross-validatory choice and assessment of statistical predictions. Journal of Royal Statistical Society.( Series B),1974,36:111-147.
22.Geisser S. The predictive sample reuse method with applications. Journal of American Statistical Association,1975,70:320-328.
23.Efron B,Tibshirani R. Improvements on cross-validation:the.632+bootstrap method. Journal of the American Statistical Association,1997,92:548-560.
24.Efron B. The estimation of prediction error:covariance penalties and cross-validation. Journal of the American Statistical Association,2004,99:619-632.
25.Ridker P,Glynn R,Hennekens C. C-reactive protein adds to the predictive value of total and HDL cholesterol in determining risk of first myocardial infarction. Circulation,1998,97:2007-2011.
26.Ridker P. C-reactive protein and the prediction of cardiovascular events among those at intermediate risk:Moving an inflammatory hypothesis toward consensus. Journal of the American College of Cardiology,2007,49(21):2129-2138.
27.Uno H,Cai T,Tian L,et al. Graphical procedures for evaluating overall and subject-specific incremental values from new predictors with censored event time data. Biometrics,2011,67:1389-1396.
28.Uno H,Cai T,Tian L,et al. Evaluating prediction rules for t-year survivors with censored regression models. Journal of the American Statistical Association,2007,102(478):527-537.
29.Tian L,Cai T,Wei L. Identifying subjects who benefit from additional information for better prediction of the outcome variables. Biometrics,2009,65(3):894-902.
30.Cai T,Tian L,Uno H,et al. Calibrating parametric subject-specific risk estimation. Biometrika,2010,97(2):389-404.
31.Li Y,Tian L,Wei L. Estimating subject-specific dependent competing risk profile with censored event time observations. Biometrics,2011,67(2):427-435.
32.Fan J,Gijbels I. Local Polynomial Modelling and its Applications. London:Chapman and Hall,1996.
33.Dabrowska D. Non-parametric regression with censored survival time data. Scandinavian Journal of Statistics,1987,181-197.
34.Dabrowska D. Uniform consistency of the kernel conditional Kaplan-Meier estimate. The Annals of Statistics,1989,17(3):1157-1167.
35.Gilbert P,Wei L,Kosorok M,et al. Simultaneous inferences on the contrast of two hazard functions with censored observations. Biometrics,2002,58(4):773-780.
36.Rubin D. Estimating casual effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology,1974,66:688-701.
37.Wang S,ONeill R,Hung H. Approaches to evaluation of treatment effect in randomized clinical trials with genomic subset. Pharm Stat,2007,6:227-244.
38.Alosh M,Hugue M. A flexible strategy for testing subgroups and overall population. Statistics in Medicine,2009,15:3-23.
39.Andersen P,Hansen M,Klein J. Regression analysis of restricted mean survival time based on pseudo-observations. Lifetime Data Analysis,2004,10(4):335-350.
40.Zhao L,Tian L,Uno H,et al. Utilizing the integrated difference of two survival functions to quantify the treatment contrast for designing,monitoring,and analyzing a comparative clinical study. Clinical Trials,2012,9(5):570-577.
41.Breslow N. Discussion of the paper by DR Cox. Journal of Royal Statistical Society( Series B),1972,34:216-217.
42.Tian L,Alizadeh A,Gentles A,et al. A simple method for detecting interactions between a treatment and a large number of covariates. Technical Report( Stanford University),2012.http://www-stat.stanford.edu/tibs/ftp/interactionpaper.pdf.
43.Su X,Zhou T,Yan X,et al. Interaction trees with censored survival data. The International Journal of Biostatistics,2008,4(1):Article 2.
44.Royston P,Sauerbrei W. Interactions between treatment and continuous covariates:A step toward individualizing therapy. Journal of Clinical Oncology,2008,26(9):1397-99.
45.Tian L,Tibshirani R. Adaptive index models for marker-based risk stratification. Biostatistics,2011,12(1):68-86.
46.Zhao Y,Zeng D,Rush A,et al. Estimating individualized treatment rules using outcome weighted learning. Journal of the American Statistical Association,2012b,107:1106-1118.
47.Hastie T,Zhu J. Discussion of support vector machines with applications by Javier Moguerza and Alberto Munoz. Statistical Science,2006,21(3):352-357.
48.Zhao X,Dai W,Li Y,et al. AUC-based biomarker ensemble with an application on gene scores predicting low bone mineral density. Bioinformatics,2011b,27(21):3050-3055.
49.Sinovitch J. Ph.d thesis. Harvard University,2008.
50.Zhao L,Tian L,Cai T,et al. Effectively selecting a target population for a future comparative study. Harvard University Biostatistics Working Paper Series,2011a,134.http://biostats.bepress.com/harvardbiostat/paper134.
51.Cai T,Tian L,Wong P,et al. Analysis of randomized comparative clinical trial data for personalized treatment selections. Biostatistics,2011,12(2):270-282.
52.Friedman J. Multivariate adaptive regression splines(with discussion). Annals of Statistics,1991,19(1):1-141.
53.Tibshirani R. Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B,1996,58:267-288.
54.Zou H,Hastie T. Regularization and variable selection via elastic net. Journal of Royal Statistical Society,2005,67:301-320.
55.Wilson P,D’Agostino R,Levy D,et al. Prediction of coronary heart disease using risk factor categories. Circulation,1998,97(18):1837-1847.
56.Sargent D,Conley B,Allegra C,et al. Clinical trial designs for predictive marker validation in cancer treatment trials. J Clin Oncol,2005,23:2020-2027.
57.Simon R. The use of genomics in clinical trial design. Clin Cancer Res,2008,14:5984-5993.
58.Zhao Y,Kosorok M,Zeng D. Reinforcement learning design for cancer clinical trials. Statistics in Medicine,2009,28(26):3294-3315.
59.Arkenau H,Barriuso J,Olmos D,et al. Prospective validation of a prognostic score to improve patient selection for oncology phase i trials. J Clin Oncol,2009,27:2692-2696.
60.Frech B,Joo J,Geller N,et al. Statistical design of personalized medicine interventions:The clarification of optimal anticoagulation through genetics(coag)trial. Trials,2010,11:108-116.
61.Le Tourneau C,Kamal M,Tredan O,et. al. Designs and challenges for personalized medicine studies in oncology:focus on the shiva trial. Target Oncol,2012,7(4):253-265.
62.Murphy S. Optimal dynamic treatment regimes. Journal of the Royal Statistical Society( Series B),2003,65(2):331-366.
63.Moodie E,Richardson T,Stephens D. Demystifying optimal dynamic treatment regimes. Biometrics,2007,63:447-455.
64.Chakraborty B,Murphy S,Strecher V. Inference for non-regular parameters in optimal dynamic treatment regimes. Stat Methods Med Res,2010,19(3):317-343.
作者简介
赵晓光,现为西安医科大学第一附属医院骨外科主任。1995年毕业于西安医科大学临床医学系。从事骨科专业十余年,擅长于脊柱骨折及各种复杂关节骨折、人工髋关节置换的手术治疗。在核心医学期刊发表论文多篇,曾参与科研课题《脊髓缺血再灌注损伤》。现为中华医学会陕西分会骨科分会会员。主要研究兴趣为个体化医学和临床结果预测。
陈新林,现为广州中医药大学基础医学院预防医学和卫生统计学教研室副教授。2005年毕业于中山大学卫生统计学专业,获卫生统计学硕士学位。研究兴趣包括疗效评价(QOL、PRO量表)的统计分析方法、随机对照试验的设计及统计分析和Meta分析。