统计基本功:一文搞懂生存分析

生存分析基本概念

在医学或者公共卫生研究中,慢性疾病的发生、发展、预后一般不适用于治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果;这样的研究往往会产生带有结局的生存时间资料,英文是time-to-event资料。在分析方法上,需要采用生存分析方法。

生存分析定义

对“生存”两字,不能顾名思义。生存数据不仅仅指的是生命是生、是死的数据;广义而言,生存结局指的是研究对象是否出现我们研究者感兴趣的阳性终点事件;更广泛来说,生存结局是某一现象是否出现失效(failure)事件。
比如说:
研究某病治疗后的复发情况,复发就是“死亡”,未复发就是“生存”。复发是终点事件,这里生存分析主要研究“复发”有关的医学规律。
研究戒烟后复吸的因素,复吸就是“死亡”,未复吸就是“生存”。复吸是终点事件,这里生存分析主要研究“复吸”有关的医学规律
不仅医学,各个学科都有生存数据的影子,比如研究工作后升迁的因素有哪些,升迁就是“死亡”,未升迁就是“生存”。工业生产中,也需要分析一种仪器设备的生存情况,比如一个零部件如果出现破损,即为“死亡”,否则为生存。企业管理者可能感兴趣,为什么有些零部件会“死亡”呢?
所以学习生存分析,首先要理解生存分析的终点事件,往往不是死亡!不要被“生存两字所迷惑。

生存数据的组成

生存数据可不仅仅是生存或者死亡、复发/不复发、阴性/阳性等这一二分类结局,它其实包括了2个结局指标,是否出现终点事件和所经历的生存时间。它所包含的关于结局的信息量远高于单一研究结局。
比如说,有临床医生开展新冠肺炎中西医结合资料临床试验,分别比较中西医结合和西医组治疗新冠肺炎的疗效。中西医结合在患者接受治疗后的2个月内,治愈率是98%,西医组治愈率是95%,这里的阳性事件是治愈,两个指标阳性率非常接近,在统计学上应该无统计学差异。
又比如,分析两种临床药物治疗晚期肝癌的有效率,发现两种药治疗后2年内肝癌死亡率分别是92.2%,96.5%,也没有统计学差异。
很不幸,这是两个失败的临床案例。两种治疗方案与对照组相比,效果看起来无差别。
中西医结合和西医来的旗鼓相当吗?也不见得。可能两组人群治愈的速度不同。比如,中西医结合100个人基本1个月内全部治愈,而西医需要一个半月,虽然2个月后治愈率相差无几,但很明显可以看出,中西医结合和中医治疗效果不一致。
那为什么得不到差异性结果呢?一般情况下,两组率的比较,可以采用卡方检验,但是只针对二分类结局(2组率)的比较,有些时候能得到信息量实在太少了。
为了评价中西医结合和西医的效果差异性,我们可以把生存现象视为一场“速度与激情”的健康追逐赛。
或者说,评价哪一组“死”的更快(这里的是指的是阳性事件或失效事件)。
如同激烈赛车一般,随时因为各种原因退出赛道,甚至车毁人亡。显然,如果你越早出现故障原因,退出赛道,那么你完成的赛车里程越短。人生也是一场健康的赛车大赛。“阳性事件”出现地越快,里程越短。对于治疗新冠肺炎的疗效来说,治愈速度越快,里程约短,疗效越好;对于肝癌死亡风险来说,则是里程越长,生存时间越长,他们死得越慢。死亡风险越低。
刺激的人生啊~~~~
因此,生存分析中,首先非常重要的数据就是反映里程的生存时间,即从观察期到阳性事件的出现,其阴性状态所持续的时间。“治愈”是我们所关心的阳性结局,那么病人接受治疗到治愈的一段时间是新冠肺炎中西医结合资料临床试验的生存时间。
总结来说,生存时间包括狭义、广义、医学研究三个角度:
在医学研究中,我们一般基于第三种角度计算生存时间。
生存分析另外一个重要的数据是有关研究对象是否出现结局的信息。实际上,如果一群研究对象进行长期的随访,就会出现许多对象失访的现象,在生存分析上称之为删失。如果出现删失,表明患者虽然被观察一段时间,但是阳性结局未出现,但人丢了,我们无法得到该对象完整的生存时间。
删失本质就是研究数据出现了缺失。数据缺失这是个大问题,这对医学研究非常不利。我们无法根据所有观察对象计算“死亡速度”,因而很难去去准确去探讨人群的平均的生存时间,比较不同组人群的生存速度。但删失的对象仍然有一定的价值,在删失发生之前,因为仍然是队伍中重要的一员,他们提供了部分生存时间,我们称之为不完全生存时间或者截尾值(censored value) 。
具体定义如下:有的观察对象终止随访不是由于失败事件发生,而是由于①中途失访、②死于其它原因、③随访截止。由于不知道这些观察对象发生失败事件的时间,他们的资料不能提供完全的信息,这些对象的观察值称为截尾值,常用符号“+”表示。
随访研究中,尽量减少删失对象,能够提高研究的精准度,但是实在存在着删失,也可以接受,毕竟在研究对象在删失前也提供了大量的信息。
因此,生存数据就包括了两个信息,分别用两个变量表示,第一个是生存时间,第二个是是否删失(或者是否出现阳性事件)。
生存数据便是生存时间资料,但这一生存时间资料是带有结局的生存时间资料,或者存在截尾值的生存时间资料,英文的说法是time-to-event资料。
生存时间资料详细的特征如下:
以肝癌死亡为例,基于上述信息,我们来描绘下一群人或者多群人的生存过程
有7名肝癌患者进入我们的随访队伍中;
他们进入队伍的时间是不同的,有2位在研究启动时,就开展随访。
所有人群,有4名对象发生了阳性事件,这里的阳性终点事件是死亡,他们的生存时间是完全生存时间,
有3名对象,结局是删失的,也可以为他们是阴性结局,由于其他原因造成我们无法观察到其生存时间,但是在我们失访前,或者研究截止了,他们的情况是维持阴性事件。所以研究对象的生存结局是4阳3阴。
包括不完全生存时间在内,所有患者生存时间长短不一。

生存分析的目的与方法

针对生存数据,核心目标便是评价一个群体的“死亡速度”,具体比较的是生存时间长短;此外,我们还可以分析由“死亡速度”产生的另外一个里程概念,“死亡”率或者“生存”率。(再次提醒,这里的生存与死亡不是狭义上的概念,而是是否出现阳性事件)。
“死亡”率或者“生存”率很容易理解,一个群体在规定时间内,“死亡速度”越快,则“死亡”率越高或者“生存”率越低,同时,该生存时间越短。因此,死亡速度、死亡率、生存时间是一事三表,以不同方式展现了研究对象生存状况。
生存分析的主要目的就是研究与分析死亡速度、生存率(死亡率、生存时间。比如,有10名肝癌患者,三年内,第一年死亡4人,第二年死亡3人,第三年死亡1人。我们便可以计算年死亡速度,第一年死亡速度是40%(4/10),第二年为50.0%(3/6),第三年为33.3%(1/3);三年累计死亡率是80%,生存率为20%。当然也可以计算10名患者总的生存时间。
死亡速度的计算
死亡速度:t时刻存活的个体在t 时刻的瞬时死亡率。(仔细品品,这一概念不是有速度的味道)。具体可以用以下函数来表达:
在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。
生存率的计算
生存率(survival rate):0 时刻存活的个体经历 t 时后仍存活的可能性,简写为S(t)。生存率根据死亡速度计算得到,这一概念的原理性和计算方式在这里就不再叙述(否则诸位真的看不懂生存分析了)。这一指标,临床上用的非常多,比如我们经常计算肺癌患者3年生存率、10年生存率;乳腺癌患者5年复发率等。研究者可以根据研究对象的生存结局出现的速度,来计算生存率。
生存时间的计算
生存时间的计算,最常见的采用中位生存时间来描述。中位生存时间(median survival time):也称半数生存期,是生存时间中位数,表示恰有50%的个体存活的时间,即生存率为50%时对应的生存时间,是描述集中趋势的指标。中位生存期越长,表示疾病的预后越好。
一般来说,一个群体的死亡速度一般都随时间的变化而变化。一般早期h(t)值较高,晚期较低。因此早期死亡率高,由此造成研究对象生存时间往往都是偏态分布,是正偏态分布。
具体来说,根据研究目的,生存分析的研究内容可以分为以下4点:
  1. 描述生存过程,计算生存时间、计算生存率(或者死亡率)、计算死亡速度
  2. 比较生存过程,比较生存时间、比较生存率(或者死亡率)、比较死亡速度
  3. 探讨影响生存时间(生存速度)的影响因素
  4. 预测生存概率

     

不同的生存分析内容,有不同的统计分析策略:
1. 描述生存过程方面,一般采用经典的寿命表法或者 或者Kaplan-Meier法来计算生存率、计算中位生存时间、并且用生存曲线的方式来描述生存过程
2.比较生存过程方面,一般采用logRank或者广义秩和检验的方法开展生产时间资料分布的组间差异性
3.探讨影响生存时间(生存速度)的影响因素、预测生存概率方面,最常用也是最经典的便是Cox回归分析。
几种方法中,logRank和广义秩和检验的方法是属于基础统计学方法领域新的方法,和t检验、F检验、卡方检验地位相同,主要探讨差异性或者简单关联性。Cox回归和线性回归、Logistic回归地位相同,主要可以用于开展多因素的回归分析。
基础统计学方法和高级统计学方法往往紧密合作,在生存分析领域,logRank方法和Cox方法也往往成双成对地出现。

生存分析的应用场合

在当今医学领域,无论在临床领域、还是公共卫生领域、甚至是针对动物的实验研究,都可能用到生存分析。原因在于,目前随访性研究越来越多,公共卫生领域喜欢开展大型随访性队列研究,而临床领域,也喜欢开展患者预后分析,也需要随访。
总的来说,生存分析主要用在两种研究设计类型的数据分析中:实验性研究和队列研究。
实验性研究是随访性研究,研究者可以通过比较实验组和对照组在生存率、中位生存时间方面是否存在着统计学差异,来探讨干预措施对患者临床结局的改善作用。目前大型临床试验,将近1/3采用的统计学方法是生存分析方法。
队列研究,研究者可以通过比较暴露组和对照组在生存率、中位生存时间方面是否存在着统计学差异。队列研究可以用于临床研究评价治疗措施疗效,也可以用于公共卫生开展病因学的研究。由于队列研究不如实验性研究,在患者控制上往往心有余而力不足,所以缺失现象非常严重,缺失的数据,一般的统计学方法很难应付,但是生存分析可以解决,因此基本上大型队列研究,生存分析是主要的方法。
最后,我再强调一句:生存分析,并不是仅仅分析生存与死亡。如果你的研究是随访性研究,无论何种结局,只要你有点心,记录下研究对象从随访开始到出阳性结局的时间,便可以开展生存分析了。这是一种比其他统计方法更能提高文章档次的方法。
统计与绘图

数据处理之完全随机设计方差分析教程

2020-8-15 16:49:09

统计与绘图

AI科研绘图:DNA双螺旋

2020-8-17 18:41:42

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索