利用WGCNA识别肺鳞状细胞癌关键基因

今天文献解读的是2020年发表在International Journal of Molecular Sciences杂志上(影响因子4.183)。题目是Identification of Key Genes Related to Lung Squamous Cell Carcinoma Using Bioinformatics Analysis.本文使用生物信息学分析,确定了一些重要的生物标志物,用于进一步研究肺鳞状细胞癌的治疗方法和预后方法。

摘要

肺鳞状细胞癌(LUSC)通常在晚期被诊断为预后较差。其发病机理和预后机制亟待阐明。这项研究的目的是筛选与LUSC的发生,发展和预后有关的潜在生物标志物,以揭示未知的生理和病理过程。使用生物信息学分析,对来自GEOTCGA数据库的肺鳞状细胞癌数据集进行分析,以识别差异表达基因(DEG)。此外,整合了PPI和WGCNA网络分析,以识别与LUSC密切相关的关键基因。另外,进行生存分析以实现良好预测准确性的预后模型。最终识别出了337个上调基因和119个下调基因,其中四个基因具有被发现在LUSC发展中起着至关重要的作用,即CCNA2,AURKA,AURKB和FEN1。预后模型包含5个基因,均不利于预后。在测试数据中,用于预测患者1年,3年和5年生存率的预后模型的AUC分别为0.692、0.722和0.651。总之,本研究确定了一些重要的生物标志物,用于进一步研究肺鳞状细胞癌的治疗方法和预后方法。

流程图

 

结果简述

1. 识别差异表达基因

首先采用层次聚类来检测样本组并删除与离群数据。质控后,总共有97例正常肺样本和84例LUSC。进而消除三个数据集GSE2088,GSE6044和GSE19188间的批次效应。然后,在合并的GEO芯片数据集中,识别出486个上调DEGs,而119个下调DEGs(下图B)。在TCGA数据集中,包含49个正常样本和499个LUSC样本,识别出3348个上调基因和3387个下调基因。下图C中显示了交集包括337个上调基因和119个下调基因,TCGA表达方向的变化与GEO数据集中的DEG一致。这些基因用于进行后续的PPI分析。

2. 差异表达基因PPI网络分析

Cytoscape基于STRING数据库构建了PPI网络,该网络由476个节点和4347个边组成,其中包括362个上调基因和114个下调基因。在CytoHubba中所有五种方法中得分最高的20个基因均被选为PPI分析中LUSC的关键基因。这些基因是:TOP2A,CCNA2,CDC20,AURKA,AURKB和FEN1,它们可能在LUSC进程中起重要作用,如下图A所示。Cytoscape中的MCODE用于执行模块分析。作者发现五种方法中的前20个基因大多数都位于模块1中,这是所有模块中相当重要的模块。该模块包括54个节点和1380个边(下图B)。值得注意的是,该模块中的基因均上调。使用DAVID对本模块中的DEG进行了功能和通路富集分析。GO富集分析表明,该模块中的基因主要富集在细胞分裂和有丝分裂核分裂等生物过程中。细胞成分分析表明,基因在核质,纺锤体显著富集。分子功能分析表明该基因主要参与ATP与蛋白质的结合。如下图C所示。KEGG分析表明该基因主要参与细胞周期。

3. 差异表达基因的权重基因相关网络分析

根据层次聚类的结果,作者首先删除了两个样本:TCGA.63.5128.01和TCGA.92.8065.01,它们在层次聚类树中的高度大于50,000。选择β= 5作为软阈值以建立基因调控网络。使用动态修剪方法获得基因模块后,发现blue, yellow和turquoise模块的相关系数最大,分别为0.538,-0.542和-0.870,如下图A所示。另外,计算了这些模块中基因的第一主要成分以及模块之间的聚类相关的Pearson相关系数。从这些结果可以发现yellow和turquoise模块具有最大的一致性。这两个模块和表型的相关系数为负。该模块中上四分位数的MM和GS值的基因被认为是该模块的关键基因。蓝色模块的基因分布下图B所示。有趣的是,我们发现这五种方法中,每种方法中前20个基因中的大多数位于蓝色模块中。GO(下图C)和KEGG分析结果表明,蓝色模块与细胞周期,有丝分裂,核分裂,p53信号通路等密切相关,这可能与细胞在此过程中过度增殖有关。癌症以许多经典的抗癌药物(如紫杉醇和奈韦宾)为靶标,在这些过程中起着重要作用。因此,该模块中的基因对于药物开发很重要。

4. LUSC相关hub基因
PPI网络中识别的关键基因主要包含在WGCNA分析的蓝色模块中,包括CCNA2,AURKA,AURKB和FEN1。GO分析表明,蓝色模块与细胞周期有关,也与PPI子模块分析一致。这表明这四个基因可能在LUSC的发展中起关键作用。因此,我们将这四个基因CCNA2,AURKA,AURKB和FEN1定义为与LUSC相关的中枢基因。免疫组化(IHC)结果表明,它们在LUSC中都有明显的上调表达,如下图所示。

作者还分析了LUSC中的体细胞拷贝数改变(SCNA)是否与这些中枢基因的高表达相关。发现中心基因的表达与其SCNA之间无显著相关性。

5. 生存分析

为了建立有效的预测预后状态的模型,在单变量Cox比例风险回归分析中,确定了91个对预后有重大影响的基因。在lasso回归中,经过10倍交叉验证,1000次重复。通过多元Cox比例风险回归分析,共获得5个基因,建立了预后风险评分模型,即:如下图A所示:

Kaplan-Meier曲线按定义的风险评分分组。作者发现,在训练数据(下图B)和测试数据(下图C)中,低风险组的预后明显优于高风险组。通过预测患者1年,3年和5年的存活率,在训练数据中从基于风险的预测模型获得的ROC曲线的曲线下面积(AUC)分别为0.811、0.924和0.937。检验数据中分别为0.692、0.722和0.651。在这一步,作者还测试了其他机器学习算法,包括决策树(DT),朴素贝叶斯(NB)和随机森林(RF),以与我们的多元Cox模型的性能进行比较,结果回归模型最好。

根据生存时间和风险评分绘制散点图。随着风险评分的增加,在训练(下图A)和测试数据(下图B)中,死亡患者的人数增加,生存期逐渐减少。

以上结果表明,“风险评分”的定义是有效的。在训练和测试数据(下图C)中,MYOEV,PTGIS,OR2W3和RALGAPA2基因在高风险组中显著高表达(p <0.001),与风险的正系数相符。高风险组和低风险组之间的LCE3E基因表达差异在训练或测试数据中均无显著性。在基因表达的热图中也观察到了类似的趋势。

6. 预后模型验证

目前,美国癌症联合委员会(AJCC)分期通常用于评估癌症的预后效果。CIN25被证明可用于各种癌症的预后评估。我们在TCGA数据库中收集LUSC患者的AJCC分期,然后计算患者的CIN25。为了进一步验证风险评分的有效性并将其与AJCC阶段和CIN25进行比较,作者计算了风险评分,AJCC阶段和CIN25的C指数。测试集中风险评分的C指数为0.642,显著高于AJCC分期(0.576,p <0.05)和CIN25(0.555,p <0.05);训练集中风险评分的C指数为0.668,显著高于AJCC分期的C指数(0.527,p <0.05)和CIN25。这说明与其他预后方法相比,风险评分是患者预后状态的良好预测指标。

为了进一步探索基因在风险评分中的功能,我们使用了TIMER数据库来评估预后基因表达与免疫浸润之间的相关性。基因与免疫浸润细胞的相关性如下图所示。结果表明,风险评分公式中的5个基因与LUSC患者的免疫浸润过程密切相关,这可能是它们可以用做有效预后指标的原因之一。

本文思路清晰,确定了一些重要的生物标志物,用于进一步研究肺鳞状细胞癌的治疗方法和预后方法。
文献解读

文献解读:基于免疫学分析的肿瘤分型分析思路

2020-6-30 11:51:06

文献解读

文献解读:如何研究分泌蛋白

2020-6-30 16:11:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索