统计分析与统计制图基础知识

统计学之于科研论文,好比鱼与水。一篇科研论文之所以可以称之为其是“科学的”,主要体现在其统计分析方法是否正确。根据资料的类型选择合适的统计方法才有可能得到一个科学的结果。一个科学的符合逻辑的结果才是一篇科学论文的灵魂。

而统计图形之于统计分析,好比华服与俊男,又比作好鞍与千里马。我们常说“一图胜万言”,图形在科技论文写作中的重要价值不言而喻。

下面笔者将对统计分析与统计制图的基础知识进行总结与概括,这看起来是一个非常有挑战性的工作,对于我这样一个临床医生显然有难度,这是我的劣势,所以下面我就从一个医生的角度谈谈我对统计学和统计制图的理解,希望对各位有所启发,哪怕是一点儿。

1. 统计分析基础知识

这里我们首先科普一下统计分析的基本概念,当然大家可以去翻阅任意一本大学的统计教材,教材里说得也一定比我说得更严谨,看起来更像专家说得话,而我们这里就白话一下几个统计学的基本概念。比如“总体与样本“,”变异与同质“,”偏倚与抽样误差“,”连续变量与分类变量“等等。

1.1 总体与样本

(1) 总体:根据观察目的而确定的同的质观察单位的全体,即同质的所有观察单位某种变量值的集合。这是统计课本上的定义,说得很严谨,但就是理解起来有难度。举例来讲,所谓总体就是你感兴趣的研究对象的所有集合,比如你要调查上海市徐汇区60岁以上老年人高血压患病率,那上海市徐汇区所有60岁以上老年人就组成了总体。你计划观察某靶向药物在不可手术的非小细胞肺癌患者中的疗效,那这个研究的总体就是所有不可手术的非小细胞肺癌患者。显而易见,这两个例子中的“总体”几乎不可能获得,但我们的研究还是要开展。我们可以从总体中选择一部分来代表总体,那就是我下面马上要说的“样本”的概念。

(2) 样本:样本是总体中随机抽取的部分观察对象的集合。正因为总体往往很难获得,所以我们从总体中用随机抽样的方法获得有代表性的个体组合成样本。对这些个体组成的样本进行深入的观察与测量,获取数据。利用统计知识,透过样本数据对研究总体的规律进行推断。对样本特征进行描述就是统计描述,用样本推断总体的特征就是统计推断,二者构成了我们统计分析的主要任务。

1.2 变异与同质

(1) 变异 (variation) :包括两层含义,一是样本与总体之间的差异,而是样本内同质个体同一指标之间的差异。

(2) 同质 (homogeneity)来自同一总体的样本内指研究对象存在的共性。它是统计研究的基础,是资料整理和分析的前提。

1.3 偏倚与抽样误差

(1) 偏倚即系统误差,一般是由于试验设计方法不当等原因引入的偏倚,包括选择性偏倚、实时偏倚、测量偏倚等。

(2) 抽样误差,从总体中选择样本时,样本与总体的差异即理解为抽样误差。产生的根本原因是生物个体的变异性,故抽样误差的分布具有规律性。

1.4 变量的分类

变量(variable):总体中个体的特征总是通过一个或多个变量来描述,变异性的客观存在决定了我们要处理的是变量。本书把变量分为定性(qualitative) 和定量(quantitative) 两种。

1.4.1. 定性变量又分为分类变量和有序变量

(1) 分类变量:又称名义变量。例如种族就是一个分类变量,其可能的”取值”不是数字,而是黄种人、白种人、黑种人、其他种族等,这些成为分类变量的水平( level)。为便于输入计算机计算,一般采用代码(code) 1,2,3,4等来表示各水平。最分类变量为二分类变量,如性别(男、女)、患病(有、无)和结局(有效、无效)等。

(2) 有序变量(等级变量):指分类变量可能的”取值”中自然地存在着次序。例如,问卷调查中常问及被调查者对某件事情的满意程度,给出了5种答案:很不满意、有点满意、中度满意、基本满意、很满意。而实验室检查结果也常用- 、+/-、+、++、+ + +和++++来表示测量结果。这些都是等级资料

1.4.2. 定量变量又分为连续变量和离散型变量

(1) 连续变量:连续型变量可以取实数轴上的任何数值。有些变量的数值由测量而得到,它们大多属于连续变量,如身高、血压、体重、血糖水平等。而有一些测量值,如红细胞数,虽然以”个”为单位时只能取整数值,但当数值很大而以”千”或”万”为单位时,又可以取小数值,所以通常把这些变量也称为连续变量。根据其分布类型又可分为正态分布连续变量与非正态分布的连续变量。如身高、血压、体重、血糖水平等均为正态分布的连续变量,而人的很多内分泌激素水平是开口资料,一般不符合正态分布。当然我们可以通过统计方法推断样本所代表的总体分布情况。

(2) 离散型变量(discretevariable):离散型变量只能取非负整数值,如一个月中手术病人数, 一年里的新生儿数,患者一年内发作哮喘次数等。有时为了统计分析的便利与临床结果的可解释性,人们将一种类型的变量转化为另一种类型,但变量只能由”高级”向”低级”转化(定量变量–计数变量–有序变量—多分类变量–二分类变量) 。有关变量的分类读者可参考下图1.

图1. 变量分类

1.5 统计分析流程

(1) 提出临床研究问题,根据现有条件进行试验设计,制定研究方案

在医学实践过程中提出问题,然后围绕提出的科学问题,设计试验,制订研究方案,统计分析人员应当从试验设计阶段就参与研究项目,而不是临床医生获得数据之后,才想到统计分析。医学研究一般有干预性研究、观察性研究、诊断准确性试验、预后研究四种。所谓干预性研究是人们通过设定严格的纳入标准、通过正确随机化、合理设置对照、保持两组均衡、设置盲法等措施来控制混杂因素。而观察性研究,不可能入为控制很多混杂因素,但可通过设计合理的样本选择方法、尽可能准确地收集有用的信息、选择多因素统计分析方法,从而进一步控制混杂因素,确保结果的准确性。

(2) 根据研究方案收集数据,并把数据整理为可统计分析格式

研究方案制定后,需要严格按照研究方案执行,一般会制定相应的CRF(单个病例记录表)表收集数据,即便是使用Excel收集数据,也需要严格按照既定的研究方案执行,并将这些数据及时电子化,变成可统计分析的格式。

我们需要事先定义好结局指标与将要收集的变量。结局指标大体上可以分为计量资料和分类资料结局,计量资料指测定每个观察单位的某项指标量的大小,比如收缩压大小;而观察单位按照某种属性或类别则为分类资料结局,比如有效/无效。还有一类结局指标是生存资料,不但考虑结局是否发生,而且考虑从观察开始至结局发生的时间,这类生存资料在临床研究中亦常见。分清楚结局指标类型后,需要将资料分解成观测与变量。观测简单讲就是你纳入的一个研究对象就称作一个观测,变量是指具有相同属性的测量值的集合。观测与变量结合起来就能准确地描述二维空间的所有研究对象的所有特征,我们在统计分析时一般会把数据集整理为数据框格式,这种数据框中的每一行表示一个观测,每一列表示一个变量,如此集合就是一个完整的数据框结构的数据集。区分结局指标为计量资料还是分类资料,然后将资料整理为由观测与变量组合而成的数据框,这是统计分析的基础。

(3) 在试验设计阶段需要确定能够回答该临床问题的可选统计方法,此条非常重要

根据研究目的设计试验方案,并且在试验方案中规定需要使用的主要统计方法,根据研究方案和统计分析的要求收集资料,这才是正确的研究步骤,很多研究者忽略了这一点,经常是收集好数据以后才想到去求助统计学家,往往为时晚矣。统计方法的选择,一般根据终点指标的类型确定。如计量资料结局可选用t 检验、方差分析、秩和检验和线性回归分析等,分类资料结局可选择卡方检验、秩和检验和Logistic回归分析等。不同的资料和研究目的有多种可供选择的统计方法; 而多种不同的统计方法可以对应多种资料类型,回答多种问题,如秩和检验能处理不符合方差分析条件的计量资料,也可以分析等级资料。有关统计方法的选择我们将单独作为一节讲解,因为它实在是太重要了。

(4) 选用合适的统计软件,进行统计分析,报告统计结果

获得了数据框结构的数据集,把数据集导入统计软件,选对了统计方法,计算出结果并非难事。然而,事情并没有这么简单,统计分析是一个系统工程,需要进行预分析、正式分析等多次尝试,最终获得一个临床可解释的符合逻辑的结果。比如一份计量资料,我们首先考虑使用线性模型进行方差分析,但是分析过程中发现方差不齐,我们可以改做秩和检验。如在Logistic回归分析过程中,可以分别选用全部进入法和逐步回归法筛选变量,也可以先做单因素分析根据单因素分析的P值筛选变量,也可以几种方法均尝试一下,然后比较几种方法所得出结果的差异,再根据专业知识和分析目的,作出自己的判断。可见统计分析不是一蹴而就的过程,而是不断尝试、不断思考、不断调优的过程。

(5) 评估统计结果,合理表达结果,结合专业知识与统计结果回答我们提出的临床问题

这里需要注意的是统计结果的表达载体无非是表格、图形与文字,选择的原则也是优先选择图形,其次是表格,再次是文字。选择合适的载体才能有效传达信息。此外,我们也要注意从统计结论过渡到专业结论,大家都需要特别慎重,不可过度推断,随意发挥,基于统计结果做出合理的推断,得到符合逻辑的结论,才是严谨而有价值的研究。统计分析流程读者可参考下图2.

图2. 统计分析流程图

1.6 统计方法选择

有关统计方法的选择我们用一张流程图来展示,以便于大家记忆和理解[1]。如下图3所示。

图3. 统计方法选择流程图

下面对上图进行简要梳理

(1) 结局为定量资料的单因素分析。结局为定量资料即结局是连续性变量,比如结局为收缩压,疼痛评分,左室射血分数等。这里所谓的因素即试验设计中我们考虑的试验因素,单因素分析中一般就是指试验因素,多因素分析中可能含有其他混杂因素。比如我们关心药物治疗的疗效,那药物即是试验因素,疗效是我们关心的结局,如果我们要比较两个药物的疗效差别,那这个因素有2个水平,如果要比较三个药物的疗效差别,那这个因素有3个水平。图中所谓单样本,两样本,多个样本,即是指只有一个试验因素,但因素的水平为单个,两个,多个。所谓“独立”即是指不同分组之间相互独立,比如随机分组即是组间相互独立,即便不是随机分组,只要组间对象之间无关也是独立。独立设计的概念是相对于配对设计的,配对设计常见表现形式:比如服用降压药前后的的收缩压、接受同种干预措施的左侧腮腺与右侧腮腺、用两种检查方法对同一批标本进行检测等。读者可以去体会所谓“独立”与“配对”设计的差别。

(2) 结局为定性资料的单因素分析。样本率与总体率的比较或两样本率的比较采用Z检验即可。行列表统计分析方法选择,主要看结局变量的性质,结局变量如果是等级资料,选择非参数检验的方法。如果是配对设计的四格表或双向有序属性相同的行列表,一般计算一致性指数Kappa。

(3) 相关与回归分析。分清“相关”与“回归”概念,相关仅仅表示变量与变量之间有关,但有“关联”并不代表有“因果”关系,“回归”反应的是因变量Y与自变量X之间的因果关系。

(4) 多因素回归分析。回归分析方法的选择一般只考虑Y的性质,Y是连续变量选择线性回归,Y是分类变量一般选择Logistic回归,Y生存资料的多因素分析采用Cox比例风险模型或竞争风险模型。

(5) 补充一条:诊断试验的统计分析处理,如果诊断指标是二分类变量,按照配对四格表形式整理数据,计算敏感度、特异度、阳性似然比、阴性似然比、阳性预测值与阴性预测值。如果诊断指标是连续性变量,采用ROC分析,计算ROC曲线下面积AUC,找到最佳Cut-off值,按照设定Cut-off值把连续指标转换为二分类变量,绘制配对四格表,计算敏感度、特异度、阳性似然比、阴性似然比、阳性预测值与阴性预测值。

2. 统计制图基本知识

2.1统计图形的基本要素

下图4是一张标准的统计图形,

图4. 标准统计图形范例

(1) 标题一般位于图的正上方(有时放在正下方),简单扼要地说明图形要表达的主要内容。对于用于投稿的图片,我们一般不在图形区域标注图的标题,而把图的标题和说明文字以可编辑文档的形式放在正文的末尾,便于稿件排版编辑。

(2) X轴有两种,一种为分类轴,即X 轴表示不同的类别,另一种为数据轴,即X轴

表示一个数值概念,每个刻度具有特定的意义,刻度可以用一般数值或对数值表示。

(3) Y轴一般为数值轴,表示测量的研究终点的结果。有时可能出现双Y轴,即左右Y轴。如果存在双Y 轴,则要注意各Y 轴所对应的具体图形。

(4) 图形区即X 轴和Y 轴所组成的二维平面内,用点、线、条形等表达数据,统计图和统计表是相对应的,图形区内的点、线和条形的位置和形状均有相应的数据确定并具有相应的含义。

2.2 统计图形注意事项

统计图形本质是数据的可视化,因此有数据才有可能有统计图形。搞懂了这一点,还需要进一步了解以下几个注意事项:

(1) 统计图形不同于照片,统计图形是数据的可视化,而照片是自然物体的视觉呈现。产生统计图片的工具一般是统计软件,而产生照片的工具一般是数码相机的摄像头。统计图形的信息一般以矢量图的形式存储,放大不会失真,而照片一般以位图形式存储,放大很多倍后可能会变得不清晰。

(2) 表达数据优先选择图形,其次选择表格,如果图形和表格不能恰当表达数据的含义,或者数据不适合用图表来展示,那也只能用文字来描述数据。不是所有的数据都可以用图表来展示,也不是所有的数据都需要用图形表达。

(3) 统计图形使用的关键在于合适和规范[2],而不在于有多“花哨”。选择合适的图形表达数据才是关键,比如为了展示两组收缩压改变值的差异,一种比较直观的表达方式是选择条形图。

(4) 要学会透过图形的表象看到数据的本质。图形有时是个“骗子”。

有关统计图形的选择,后续章节我们将以案例的形式讲解。本章我们先讨论到这里。

3. 参考文献

[1] 方积乾, 孙振球, 等.《卫生统计学》, 人民卫生出版社; 第6版,2008年.

[2] 马骏, 周登远, 崔壮, 焦振山, 等.《临床医学研究中的统计分析和图形表达实例详解》, 军事医学科学出版社; 第1版, 2011年.

统计与绘图

搞懂诊断试验中灵敏度、特异度、阳性预测值、阴性预测值

2020-6-21 15:02:15

统计与绘图

危险因素(risk factor)

2020-6-22 21:14:16

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索