
上QQ阅读APP看书,第一时间看更新
第三章 生存变量的预后生物标记物的协变量特异和协变量校正的预测方法
马昀蓓 1 周晓华 2 KC Gary Chan 2 赵星 3 李晓松 3
1西南财经大学统计学院数量经济研究所与统计研究中心
2美国华盛顿大学公共卫生学院生物统计系
3四川大学华西公共卫生学院
第一节 前言
在医学研究尤其是癌症治疗研究中,为避免病人接受不必要的医疗服务,预测一种疾病未来的发生或发展是一个重要任务,而生物标记物往往是预测疾病转归的一个较理想的指标。当面对许多潜在的连续性尺度的生物标记物时,经常需要评估和比较它们的预测精度,以确保最好的预测生物标记物被选中。不同于判别精度,当结局变量为二分类时预测精度的结局一般为阳性预测值和阴性预测值(PPV/NPV)。当结局为二分类时,一个连续性尺度生物标记物的PPV曲线的思想类似于ROC曲线,画出所有受试者中生物标记物的值大于由生物标记物分布的百分位数决定的阈值。这种PPV(NPV)曲线有一个前瞻性的条件概率的解释,即给定一个阳性(阴性)结果时疾病(非疾病)的概率。与之相对应的ROC曲线的回顾性的解释。PPV曲线通过画出不同百分位数下的情形来比较,在不同尺度下的标记物会有相同的定义域(0,1),它允许不同生物标记物的标准化比较。在许多情况下,研究者感兴趣评估一个生物标记物在预测事件时间的预后准确性。例如,在多中心艾滋病队列研究(multicenter AIDS cohort study)中,有Ⅰ型人类免疫缺陷病毒(HIV-1)的人一直被随访直到研究终结或死亡,感兴趣的是利用基线CD4计数预测死亡时间的准确性。Zheng等 [1]推广了PPV曲线在衡量生存数据预测准确性中的应用,它可被视为时间依赖的二分类变量,该方法被称为时依(时间依赖的简称)PPV曲线。他们关注于生物标记物在总体中的整体预测准确性,并提出了非参数和参数方法估计生存变量的时依PPV曲线。这种时依PPV曲线的假设是:除了生物标记物没有其他协变量影响生存结局的分布。但在实践中生物标记物和生存结局的分布都可能依赖于其他协变量。当有协变量影响生物标记物或生存结局时,这种未修正的时依PPV曲线得出的结果有误。例如,在多中心艾滋病队列研究数据研究中,CD4细胞计数的预测精度可能一方面取决于年龄、种族和抗病毒药物的使用;另一方面个人的CD4计数也可能与他们的年龄和种族有关。首先,当协变量影响生物标记物的观测值而不影响生存数据的结局时,这种未经修正的时依PPV曲线相对于协变量特异时依PPV(covariate-specific time-dependent PPV curve)曲线是有偏的。其次,当比较生物标记物的预测精度时,使用未经校正的时依PPV曲线可能会导致错误的结论,如第4节中图3-4所示。在这种情况下,PPV曲线的边际分析需要协变量修正。
本文考虑一个生存结局变量与生物标记物分布的半参数联合回归模型,并估计协变量特异时依PPV曲线。对生存结局变量建立一个变系数的Cox模型,并对生物标记物的结局变量建立一个半参数位置转移模型。尽管协变量特异时依PPV曲线在实践中有较好的作用,但总体中的整体预测指标在比较不同生物标记物时,或在协变量特异时依PPV曲线不能精确地估计时的小型研究中,是很有用的。为此,本文进一步考虑生物标记物的协变量校正的边缘化的整体预测精度指标,定义协变量校正时依PPV曲线(covariate-adjusted time-dependent PPVcurve)为协变量特异时依PPV曲线的加权平均。在这种情形下,当协变量影响生物标记物和生存结局变量,或当协变量只影响生物标记物而不影响生存结局变量时,未校正和协变量校正时依PPV曲线是不同的。但当一个生物标记物与协变量独立时,协变量校正的时依PPV曲线退化为未校正的曲线 [1]。本文其余部分安排如下,第2节提出一个协变量特异PPV曲线来测量生物标记物的条件预测精度,并对生存结局变量利用变系数的Cox模型建模,对生物标记物的分布利用半参数位置模型建模。然后对其提出一个估计方法并推导该估计量的渐近性质。第3节定义一个协变量校正时依PPV曲线,衡量生物标记物的边际预测精度,提出具体估计方法并推导估计量的渐近性质。第4节与第5节分别给出模拟分析结果和多中心艾滋病队列研究数据分析的应用结果。渐近性质的具体推导见附录。
第二节 协变量特异时依PPV曲线
对于死亡或疾病进展等事件, T表示事件时间, Y表示某连续性生物标记物变量, Z 1和 Z 2表示协变量向量,该向量既影响连续性生物标记物 Y,又影响事件时间 T。这里允许 Z 1和 Z 2有共同的元素。用 Fz 1( y)= P{ Y≤ y| Z 1= z 1}表示给定 Z 1= z 1的条件的累积分布函数。协变量特异时依PPV曲线定义为:绘制PPV(v; t, z 1, z 2)= P{ T≤ t| Fz 1( y)≥v, Z 2= z 2}在 Z 1= z 1与 Z 2= z 2时随 v变化的曲线,其中 v在(0,1)中取值。因为 Y的分布只取决于 Z 1,通过运算可得

(3-1)
其中 S( t| y, z 2)=P{ T﹥ t| Y= y, Z 2= z 2}为给定 Y= y与 Z 2= z 2时的条件分布函数。
一、基于Cox模型的条件生存分布的估计
假设有一样本量为 n的随机样本。 T i和 C i表示第 i个人的事件时间和删失时间,其中 i=1,…, n。这样, X i=min( T i, C i)为该个体的观察时间,Δ i为示性函数,当 X i为事件时间时其值为1,否则为0。此外假设 i=1,…, n时,给定生物标记物与协变量时 T i和 C i条件独立。在不失一般性下用[0, τ]表示观察时间,其中 τ为一个常数表示研究结束的时间。
尽管在生存分析中Cox模型是一非常强大的方法,但协变量对事件时间的影响可能不满足比例风险的假设。协变量对事件时间的影响可能比对数线性效应复杂得多。非参数方法是一个明显的替代方法,但非参数估计量的收敛速度通常会随模型维度的增加而急剧减少,这就是所谓的维数灾难问题。变系数模型是一个非常有吸引力的有效的替代方法。为此考虑变系数比例风险模型 [2,3,4],该模型考虑了暴露与混杂的非线性互动。假设一重要暴露变量 w为 z 2中一个连续元素。在不失一般性下,用 w和
分别表示 z 2的第一个分量和剩余分量组成的向量。假设风险函数形式如下:


(3-2)
其中 λ 0( t)是一未知基准风险函数,
是 w的函数系数向量。第5部分多中心艾滋病队列研究数据的例子将用来描述模型(2),病人年龄是该例中的暴露协变量。由模型(2)和
可知



其中
。模型(2)有许多优良的性质,如相比与参数模型有更少的某型假设,扭曲关系的可能性更小,能考虑协变量的交互效应。此外,模型(2)还能考虑生物标记物与协变量之间的交互效应。

观察到的数据结构为{ X i,Δ i, Y i, Z 1 i, Z 2 i},其中 i=1,…, n.根据Cai [4],当所有观测值独立时, θ 0( w), α 0和 ρ 0可以通过局部多项式(线性)拟合,利用剖面部分似然方法进行估计。为估计 S( t| y, z 2),令 N i( t)= I( T i≤ t,Δ i=1), R i( t)= I( X i≥ t)。用
,
和
分别作为 θ 0( w), α 0和 ρ 0的剖面部分似然估计,从而可通过下式估计Λ 0( t)




可得 S( t| y, z 2)的估计量:

这里,对 i=1,…, n, W i为 Z 2 i的第一个元素,
为Z 2i的剩余元素组成的向量。

二、生物标记物的条件分布与协变量特异时依PPV曲线的半参数估计
假设生物标记物服从如下半参数位置模型:

(3-3)
其中 H(·)是一未知分布函数。
分布函数 H( y)可以通过下式估计
,其中
是 γ的估计量。该估计量是通过解下列估计方程而得:



由此可得

由此,代入
(1)式,得到如下协变量特异时依PPV曲线的半参数估计


(3-4)
三、渐近性质
用 Y, z 1和 z 2分别表示 Y, z 1和 z 2支撑。为证明
的渐近性质需证明引理1和引理2。

引理1
当附录A的条件A.i-A.vi成立时,给定
,作为 y的过程,在 Y上收敛到零均值高斯过程,其协方差见附录B。

引理2
在估计
和
时,用 h表示选定窗宽,当附录A的条件A.i-A.vi成立时且( z 2, t)∈ Z 2×[0, τ],当 n→∞时, nh 2→∞且 nh 4→0,那么
是根号 n相合,且
作为 y的过程,在 Y上收敛到某零均值高斯过程,其协方差见附录B。





引理1与引理2的证明见附录B
定理1
附录A的条件A. i-A. vi成立时,对( z 1, z 2, t)∈ Z 1× Z 2×[0, τ]满足当 n→∞时, nh 2→∞且 nh 4→0,那么

作为 v的过程,在(0,1)上收敛到某零均值高斯过程,协方差为 ν 0 cov{ κ *( ν 1, t, z 1, z 2), κ *( ν 2, t, z 1, z 2)},其中 ν 0=∫ K 2( t) dt,这里 K(·)为某一对称的密度函数,作为核函数用于
和
的剖面部分似然估计中。


定理1的证明和 κ *( v, t, z 1, z 2)见附录C
尽管
方差的估计量可以通过delta方法得到,但因方差中存在未知的密度函数,平滑技巧是需要的。在模拟研究中采用bootstrap的方法计算标准误与置信区间。

第三节 协变量校正时依PPV曲线
虽然协变量特异时依PPV曲线是本文的主要内容,但研究者可能还对生物标记物的总体预测指标感兴趣。Zheng [1]为测量总体的预测精度,定义时依PPV曲线为 PPV( ν; t)= P{ T﹤ t| F( y)≥ ν}的图,其中 F( y)为 Y的累计分布函数。该总体预测指标在比较不同生物标记物时很有价值。虽然Zheng [1]同时考虑了参数与非参数的方法,但忽略了协变量的预测效应,所以他们的方法可能损失效率或产生严重偏倚。例如在4.3中的图5,两种生物标记物 Y 1和 Y 2有相同的协变量特异时依PPV曲线,但这种未校正的协变量特异时依PPV曲线错误地表明 Y 1和 Y 2有不同的预测精度。类似的现象也被Janes与Pepe [5]等在ROC曲线中发现。因此,在比较 Y 1和 Y 2时校正协变量是有必要的。
首先定义协变量校正的总体预测精度。该概念和Janes与Pepe [5]提出的协变量校正的ROC曲线类似。协变量校正时依PPV曲线为 APPV(v;t)=E{ PPV(v;t,Z 1,Z 2)},该式是对 Z= Z 1∪ Z 2取期望。该定义可被解释为协变量特异时依PPV曲线的加权平均:

(3-5)
其中 F Z ( z )是 Z= Z 1∪ Z 2的联合累积分布函数。从(3-5)中可发现,当共同的协变量Z只影响生物标记物的值而不影响预测精度,且当 Z 1= Z 2= Z时,协变量校正时依PPV曲线与协变量特异时依PPV曲线一致。另一方面,当 Z 1≠ Z 2协变量校正时依PPV曲线为一加权的协变量特异时依PPV曲线。
协变量校正时依PPV曲线有一些良好的性质,如对 Y和(或) Z进行单调递增变换时的不变性。注意到Zheng [1]定义的未校正的时依PPV曲线为:

(3-6)
当生物标记物 Y独立于所有协变量,即对任意
,协变量校正时依PPV曲线(3-5)退化为未校正的时依PPV曲线(3-6)。此外,还值得注意协变量校正时依PPV曲线为
。该曲线与未校正的时依PPV曲线有明显的不同,其中只有生物标记物取值大于/等于第 v个分位数的受试者被定义为阳性(即 F( y)≥ ν)。


一、参数估计
由(3-4)和(3-5),可通过下面估计量估计协变量校正时依PPV曲线, APPV( v;t)

(3-7)
其中为 Z= Z 1∪ Z 2的累积分布函数 F Z( z)的估计量。如用经验分布函数来估计 F Z( z),可得 APPV( ν; t)的下列估计量:

(3-8)
二、渐近性质
用 z表示 Z的支撑。 Z= Z 1∪ Z 2的经验分布函数
有大样本性质,具体见如下引理3。

引理3
假设 F Z( z)在 z上连续,那么对于任意
收敛于正态分布。并且如果 F Z( z)绝对连续,那么
。


引理3的第一部分源于Neuhaus [6]方程,第二部分可直接由Revesz [7]的定理3得到。
由此根据(3-7),
的渐近性质可直接由定理1与引理3得到。

定理2
假设生存模型满足(3-2)。当附录A的条件A.i-A.vi成立时,如 F Z( z)在 Z上绝对连续, H( u)在(-∞,∞)绝对连续,并且当 n→∞时, nh 2→∞且 nh 4→0,那么

作为v的过程,在 Y上收敛于某零均值高斯过程,其协方差为 cov{ ζ *( v 1, t), ζ *( v 2, t)}某零均值高斯过程。
定理2的证明与 ζ i *( v, t)的表达式见附录C。
注1
值得注意,定理2的推导依赖于 F Z( z)在 Z绝对连续。当 Z为一离散协变量向量时,或 Z的某些成分离散时,仍可用(3-8)估计协变量校正时依PPV曲线。通过模拟实验,将看到对离散型协变量,该方法在有限样本下表现仍不错。
注2
众所周知,标准Cox模型为变系数Cox模型(2)的特殊情况,并且Cox模型成立时,通过部分似然的方法,可得 S( t| y, z 2)的
相合估计量 [8],由此可得 PPV( v; t, z 1, z 2)的
相合估计量。另一方面,由定理2,在比例风险模型中假设一个变系数结构不会降低协变量校正时依PPV曲线 APPV( ν; t)的收敛速度。


第四节 模拟研究
本节将报告模拟研究的结果,模拟研究的目的为评价协变量校正时依PPV曲线与协变量特异时依PPV曲线的表现,每个情况的模拟次数为200。
一、协变量特异时依PPV曲线的模拟研究
首先采用数值模拟的方法,评价当生存结局变量满足变系数Cox模型时,协变量特异时依PPV曲线估计量在有限样本情况的表现。在该模拟中,失效时间按照如下变系数风险函数生成, λ( t| Y, W, Z 2)= λ 0( t)exp{ α 0 Y+ θ 10( W) Z 1+ θ 20( W) Z 2},其中 λ 0( t)≡0.1, θ 10( W)= W,且 θ 20( W)= W 2, W是[0,1]均匀分布的随机变量。协变量 Z 1是均数为1/2的指数分布的随机变量,协变量 Z 2是标准正态分布的随机变量,结局变量 Y是均数为 Z 1、方差为0.25的条件正态分布随机变量。删失分布是[ c/2,3 c/2]上的均匀分布,其中c为控制删失率的常数。这里取c=12.5,对应于大概20%的删失。样本量 n=200时,画出在 t=2时 Z 1=1, Z 2=0.25和W=0.5的协变量特异时依PPV曲线。在 v=0.1,0.3,0.5,0.7,0.9,通过200个bootstrap样本来计算其logit标准误(SEs)和95%的置信区间,具体公式为:

最优窗宽
是通过Fan和Huang [9]的方法计算获得的。为检查基于bootstrap的标准误计算方法的准确性,将其与经验标准差(SDs)进行比较,结果见图3-1与表3-1。估计的PPV曲线较好的捕获了真实曲线的形式,仅表现出可忽略的偏倚。估计的标准误与经验标准差非常接近,并且95%置信区间的覆盖率也非常接近名义水平。所有的结果都表明新提出的协变量特异时依PPV曲线的估计量表现好。


图3-1 t=2时协变量特异时依PPV曲线
实线与虚线分别代表真实的与估计的时依PPV曲线,点状线表示估计时依PPV曲线的95%置信区间
表3-1 协变量特异时依PPV曲线的模拟结果(20%删失率)

二、协变量校正时依PPV曲线的模拟研究
为评价协变量校正时依PPV曲线估计量在有限样本情况的表现,进行如下模拟实验。
按照如下风险函数生成失效时间 λ( t| Y, Z 1, Z 2)= λ 0( t)exp{ α 0 Y+ β 0( W) Z 2+ ρ 0 YZ 2},其中真实回归系数分别是 α 0=1, β 0( W)= W 2, ρ 0=-1。这里 W是[0,1]上均匀分布的随机变量。首先考虑连续性协变量,协变量 Z 1是标准正态分布的随机变量,协变量 Z 2是均数为1/5的指数分布的随机变量,结局变量Y是均数为 Z 1、方差为0.25的条件正态分布的随机变量。删失分布是[ c/2,3 c/2]的均匀分布,这里取c=22对应于大概30%的删失。画出在t=1时的协变量特异时依PPV曲线及其置信区间,其中置信区间的计算采用的是4.1的logit变换。 ν=0.1,0.3,0.5,0.7,0.9时估计的APPV曲线,还将像4.1一样,计算其标准差,标准误和95%置信区间的覆盖率。样本量为 n=100时的结果见图3-2与表3-2。

图3-2 t=1连续性协变量的协变量校正时依PPV曲线
实线与虚线分别代表真实的与估计的协变量校正时依PPV曲线,两条点状线表示估计校正PPV曲线的95%置信区间
表3-2 连续协变量时协变量校正时依PPV曲线的模拟结果(30%删失率)

除了连续性协变量,还考虑离散协变量的情况, Z 1和 Z 2分别是参数 λ=1的泊松分布与参数 P=0.6的二项分布的随机变量。此时取c=12.5,对应约30%的结尾率,结果见图3-3与表3-3。

图3-3 t=1时离散协变量的协变量校正时依PPV曲线
实线与虚线分别代表真实的与估计的协变量校正时依PPV曲线,两条点状线表示估计校正PPV曲线的95%置信区间
表3-3 连续协变量时依变量校正时依PPV曲线的模拟结果(30%删失率)

从表3-3与图3-3可以发现,不论协变量为何形式,提出的方法均能较好捕获了真实APPV曲线的形式。估计的SEs与SDs非常接近,并且95%的协变量特异时依PPV曲线的估计量表现好。
三、与协变量校正时依PPV曲线的比较
为比较提出的协变量校正时依PPV(APPV)曲线与未协变量校正时依PPV曲线,这部分将分别考虑需要校正协变量和不需要校正协变量两种情况的结果。
情况1,需校正协变量。 Y 1和 Y 2为两种生物标记物,其中 Y 1受二分类变量 Z的影响,而 Y 2不受其影响。这里 P( Z=1)=0.6, P( Z=0)=0.4。 Y 1是均数为2 Z、方差为1的正态分布的随机变量, Y 2标准正态分布的随机变量。这里 Y 1和 Y 2由于有相同的整体预测准确性,所以他们有相同的协变量特异的预测精度。
图3-4中可发现,在评价生物标记物时不校正协变量将导致错误结论。



图3-4 (A) Z=0和 Z=1时 Y 1的密度函数;(B)联合数据中 Y 1和 Y 2的密度函数;(C) Y 1和 Y 2的协变量校正时依PPV曲线(APPV)与未校正的时依PPV曲线
情况2,APPV=PPV,对于连续协变量比较本文的方法与Zheng [1]的非参数方法, Z 1和 Z 2分别为标准正态分布与均数为1/5的指数分布的随机变量。生物标记物 Y为标准正态分布的随机变量。生存与删失数据的生成方法与4.2一致。这里,协变量校正时依PPV曲线退化为未校正的时依PPV曲线。该情况通过两种方法估计。这里删失率在27%左右,样本量为 n=100且 v=0.1,0.3,0.5,0.7,0.9,估计值的计算和标准差,标准误和95%置信区间的覆盖率均像4.1一样计算,结果见图3-5和表3-4。

图3-5 t=1时连续协变量的协变量校正时依PPV曲线
实线与虚线分别代表真实的与估计的协变量校正时依PPV曲线,两条点状线为Zheng方法估计的未校正的PPV曲线
表3-4 连续协变量协变量校正时依PPV曲线与非参数未校正的PPV曲线的模拟结果(27%删失率)

图3-5和表3-4中可发现,当除了生物标记物外,还有一些协变量影响生存结局时,非参数未校正的方法比本文提出的方法差。
注3
4.2和4.3报告了APPV曲线在单变量 Z 1与 Z 2时的表现。此外还能模拟APPV曲线在高维协变量的结果,其中 Z 1为3维协变量且 Z 2为7维协变量,结果显示估计的APPV依旧表现良好。因篇幅所限,略去详细结果。
第五节 多中心艾滋病队列研究
多中心艾滋病队列研究是对HIV-1感染同性恋与双性恋男性进行的自然史与感染史前瞻性研究。总共有6972个人参与到此队列中。公开的数据包括从1996年开始前两次进入队列的人员。在总共5622人中,基线中有2195名为HIV阳性。研究的目的为考察CD4细胞预测HIV感染者中死亡的时间。时依PPV曲线是通过图形化的方法来达到此目的,但可能某些因素能影响CD4细胞水平的预测准确性,所以需要校正这些因素的影响。Y表示每立方毫米中CD4细胞数目的倒数,因为HIV感染会减少CD4受体的T细胞的数量,所以较大 Y表明较高的死亡风险。 W表示个体的年龄, Z 2为治疗的指示变量,个体在死亡前或1996年9月前接受过抗病毒药物时其值为1,否则为0。而 Z 1=( Z 11, Z 12, Z 13, Z 14, Z 15) T为影响CD4水平的协变量,其中 Z 11为年龄, Z 12为种族(白人取值为1,否则为0), Z 13为种族(黑人取值为1,否则为0), Z 14为种族(印第安人或阿拉斯加人取值为1,否则为0), Z 13为种族(亚太人取值为1,否则为0)。首先计算 T=7年的协变量特异时依PPV曲线,并比较 T=4和 T=6时的协变量校正时依PPV曲线与未校正时依PPV曲线。具体结果见图3-6。




图3-6 生存时间 T=7年时的估计的协变量特异时依PPV曲线
图(A)35岁且接受过抗病毒药物的人;图(B)接受过抗病毒药物的黑人;图(C)为25岁的黑人;图(D)55岁的黑人
图3-6(A)可发现,HIV感染者中的白人、黑人和亚太人,抗病毒药物对白人效果最好。图3-6(B)可发现,不同年龄中CD4细胞计数的预测精度相似。图3-6(C)、3-6(D)可发现,抗病毒药物对黑人感染者有很大的效果,尤其当其CD4细胞计数高时。图3-7可发现,CD4细胞能预测HIV感染者的死亡时间,且协变量校正时依PPV曲线与未校正时依PPV曲线差别很大,所以校正协变量显得很有必要。

图3-7 T=4,6年时估计的协变量校正与未校正的时依PPV曲线
第六节 讨论
本文关注的问题为生物标记物的预测能力,而不是一般生存模型中的事件的危险因素。
提出了一种新的半参数方法来评价生物标记物预测事件发生时间的能力。该方法考虑了协变量的效应,可以估计协变量特异与协变量校正总体时依曲线。该方法与已有方法相比有三种改进。第一,在评价生物标记物预测事件时间时,可以评价协变量效应。第二,当生物标记物或生存结局变量受协变量影响时,比已有方法更好地比较与评价总体的预测能力。第三,通过在生存模型中加入一个函数型的系数,本文方法限制更小并能考虑某些协变量为另外协变量的函数。该新方法的有效性依赖于两个半参数回归模型、生存时间与生物标记物的分布。后续研究方向包括发展评价拟合优度的统计方法与评价多个生物标记物预测精度的方法。
致谢
本文部分工作受国家自然科学基金(No. 30728019)和美国联邦政府退伍军人事务部基金(No. EPID-006-07F)资助。
附录
A.1:正则条件
首先给一些概念。 W为 W的支撑,任意 w∈ W,令
。对 i=1,…, n,令
且
对 k=0,1,2,定义





其中 K h( w)= K( w/ h)/ h。这里对 k=0,1,2,
=1, a, aa T。

给定以下条件以证明引理1,引理2,定理1和定理2。
(A.i)失效时间 T和删失时间 C在给定 Z 1和 Z 2时独立。
(A.ii)

(A.iii) W的密度函数在紧支撑 W的二阶导数有界。函数 θ( w)绝对连续且在 W有连续二阶导数。
(A.iv)任意 w∈ W,

正定; EQ 0( η 0( w), s)和
均大于等于一个大于0的数。

(A.v)当 t在[0, τ]上,( y, z 2)∈ Y× Z 2, S( t| y, z 2)绝对连续。
(A.vi)当 u∈(-∞,∞),函数 H( u)及其一阶二阶导数 H′( u)和 H″( u)均有界。
A.2:引理1和引理2的证明
引理1的证明。注意到半参数位置模型等价于以下转换模型:

其中 ∈的分布为 H(·)。当条件(A.iii)和(A.vi)成立时,估计量
相合且满足以下渐近正态


(3-9)
其中Γ=
。令
,因为



由函数型中心极限定理,可证明
在( y, γ)∈ Y× N( γ 0)上收敛到某零均值高斯过程。由于上述过程的等度连续性和
的相合性,有



所以又有

(3-10)
在 y∈ Y上一致成立。根据泰勒展开,(10)右边的第二项可以展开为

在 Y上一致成立。再加上(9)可得

这里

所以,
收敛于某零均值高斯过程且协方差为 Cov{ ξ 1( γ 0, y 1, z 1, Z 1 i, Y i), ξ 1( γ 0, y 2, x 1, Z 1 i, Y i)}。

引理2的证明。已知
有相合性。首先证明
是
相合的。根据Cai [4],可找到零均值独立同分布随机向量
,对于每个 W j, j=1,…, n





(3-11)
所以有

其中
。联合(11)右边的第二项可得


这样,如果当 n→∞时有 nh 2→∞和 nh 4→0,那么对任意
0。而且,根据Cai [4],在(0, τ]上,
依概率收敛到Λ 0( t)。


下面证明
的渐近正态性。注意到


(3-12)
这里, E[ ξ 4( η 0( w), y, z 2, Z 2 i, Y i, t)]=0。所以
收敛到某零均值高斯过程且协方差为 ν 0 Cov{ ξ 4( η 0( w), y 1, z 2, Z 2 i, Y i, t), ξ 4( η 0( w), y 2, z 2, Z 2 i, Y i, t)}。

A.3:定理1-2的证明
定理1的证明。注意



(3-13)
其中
。所以定理1成立。

定理2的证明。通过代数运算,可得:

(3-14)
注意到因为 θ( w)绝对连续且在 W有连续二阶导数,可证明
。这样,通过引理3可证明(14)的右式第二项依概率收敛于0。根据定理1,有



其中
。所以定理2成立。

参考文献
1.Zheng Y,Cai T,Pepe M,et al. Time-dependent predictive values of prognostic biomarkers with failure time outcome. Journal of American Statistical Association,2008,103:362-368.
2.Fan J,Lin H,Zhou Y. Local partial likelihood estimation for life time data. The Annals of Statistics,2006,34:290-325.
3.Cai J,Fan J,Zhou H,et al. Hazard models with varying coefficients for multivariate failure time data. The Annals of Statistics,2007,35:324-354.
4.Cai J,Fan J,Jiang J,et al. Partially linear hazard regression with varying-coefficients multivariate survival data. Journal of the Royal Statistical Society,Series B,2008,70:141-158.
5.Janes H,Pepe M. Adjusted for covariates in studies of diagnostic,Screening,or prognostic markers:an old concept in a new setting. American Journal of Epidemiology,2009,168:89-97.
6.Neuhaus G..On weak convergence of stochastic processes with multidimensional time parameter. The Annals of Mathematical Statistics,1971,42:1285-1295.
7.Revesz P. On strong approximation of the multidimensional empirical process. The Annals of Probability,1976,4:729-743.
8.Andersen P. K,Gill R. D. Cox’s regression model for counting processes:A large sample study. The Annals of Statistics,1982,10:1100-1120.
9.Fan J,Huang T. Profile likelihood inferences on semiparametric varying-coefficient partially linear models. Bernoulli,2005,11:1031-1057.
主要作者简介
周晓华博士,现为美国华盛顿大学公共卫生学院生物统计系教授,美国联邦政府退伍军人事务部西雅图医疗中心生物统计研究室主任。1984年获四川大学数学学士学位,1991年获俄亥俄州立大学生物统计学博士学位。1991—1993年在哈佛大学做生物统计学博士后工作。1998年当选为国际统计学会推选会员,2004年当选为美国统计协会资深会员,并任流行病统计分会主席,美国统计学会卫生政策统计分会主席。周晓华博士现任美国统计学会精神健康统计分会主席,美国联邦政府退伍军人事务部统计学家协会主席,世界中医药学会联合会临床疗效评价专业委员会副会长,国际生物统计学会中国分会理事长以及美国联邦政府食品和药物管理局(FDA)医疗器械和放射健康顾问委员会成员。2001年他与Hirano,Imbens和Rubin教授一起,获得Bayes分析国际组织与ASA的Bayes统计学组的Mitchell奖,2007年被美国联邦政府退伍军人事务部授予研究生涯科学家奖(Career Scientist Award)的荣誉称号。他曾是期刊Statistical Sinica,Biometrics副主编,目前是Statistics in Medicine副主编。周晓华博士的研究主要集中于医学检验、卫生服务研究以及因果推理分析领域,已在国际审查期刊上出版了190篇SCI文章。2002年他与另外两名学者合作完成了诊断医学方面第一本综合性统计著作“Statistical Methods in Diagnostic Medicine”,该书第二版已于2012年出版。
马昀蓓博士,现为西南财经大学统计学院数量经济研究所与统计研究中心助理教授。2006年获北京工业大学统计学硕士学位、2009年获中科院统计学博士学位。曾在华盛顿大学生物统计系、普林斯顿大学运筹与金融工程系做博士后研究。她是一名年轻的统计学者,有着统计学硕士和博士课程教学经历,在西南财经大学为统计学硕士和博士开设学位课程,也给本科生讲授计量经济学。研究兴趣主要为高维稀疏模型、非参数与半参数建模、个体化医学和生存分析。已获国家自然科学基金资助。
李晓松博士,现为四川大学华西公共卫生学院院长兼华西第四医院院长、教授、博士生导师、国家杰出青年科学基金获得者、英国皇家统计学会资深会员。毕业于重庆医科大学、中国协和医科大学和华西医科大学,分获医学学士、硕士和博士学位。任中国卫生统计学会医学统计学教育专业委员会副主委、中华预防医学会委员,负责国家自然科学基金项目、教育部科学技术研究重点项目以及WHO、UNICEF等项目;在生物统计学国际顶级学术期刊发表论文多篇。