可应用于多种癌症的预测分子特征模型

Genetic determinants of the molecular portraits of epithelial cancers

IF: 11.878

Published: 11 December 2019

肿瘤发生往往是由DNA中多种类型的异常所驱动,从而导致极为复杂和异质性的疾病。解剖这种异质性对于理解癌症机制和确定个性化治疗至关重要。

本文提出了一种综合计算方法,使用全基因组关联分析和弹性网络预测方法,仅根据DNA拷贝数特征预测单个肿瘤的许多基因特征。

数据:

1. 基因表达数据:

(1)Broad Institute TCGA GDAC Firehose的Illumina HiSeq 2000人类乳腺癌、肺癌的RNA测序数据。

(2)the European Bioinformatics Institute METABRIC项目的Illumina HT-29 v3表达数据。

处理:过滤出>70%样本中表达的基因;中位数居中和抽样标准化。

(3)GDC PanCanAtlas的其他类型肿瘤基因表达数据

处理:上四分位数标准化,log2转换,过滤出>70%样本中表达的基因;中位数居中和抽样标准化。

2. DNA拷贝数数据:

(1)Broad Institute TCGA GDAC Firehose的人类乳腺癌和肺癌的拷贝数数据。

(2)the European Genome-phenome Archive拷贝数数据。

(3)GDC PanCanAtlas的其他类型肿瘤拷贝数数据。

3. 蛋白表达数据:

(1)Broad Institute TCGA GDAC Firehose的人类乳腺癌的蛋白表达数据。

4. 突变数据:

(1)2015年TCGA小叶性乳腺癌数据集的突变注释格式(MAF)数据。

过滤MAF文件;构建二元基因样本矩阵(1突变,0无突变)。

5. 基因表达特征:来自多个发表文献或GSEA的543个基因表达特征,能够划分癌症类型。对基因间同质表达的504个特征,以中位表达值作为特征分数。其余的特征是基于与预先确定的基因序列的相关性或基于已发表的算法确定特征分数。

方法结果:

1. 基因特异性拷贝数改变:基因表达特征测量不同的肿瘤表型。

通过GWAS来识别拷贝数变异与每个基于特征的表型之间的关联(spearman秩相关和单边Fisher精确检验,B-H校正q< 0.01;Fig 1a)。在高特征分数的样本中,潜在的拷贝数变异的驱动因素与特征具有正相关性,拷贝数扩增;而潜在的抑制因素应该与特征具有负相关性,拷贝数缺失。

用全部基因特征检测到与已知DNA扩增子基因表达特征的关联,表明这种策略能够发现拷贝数变异与特定基因特征之间的联系

2. 基于拷贝数变异的弹性网络模型预测基因特征:采用弹性网络建模方法(一种正则化的回归方法,线性地结合对岭回归的惩罚以及最小的绝对收缩和选择算子,构建基于拷贝数变异的癌症表型DNA预测因子。通过拟合广义线性模型(R包glmnet)和蒙特卡罗交叉验证(R 包caret)来调优参数。并利用ROC和AUC值评价模型性能(R 包ROCR)。)。

将TCGA乳腺癌样本数据集分为训练集(70%)和检验集(30%)。模型将训练集样本分为高、低特征分数,用AUC值评估模型性能。AUC分布显示某些特征有高可预测性(AUC>0.75;Fig. 2a,b)。

 

拷贝数变异关联的特征与弹性网络模型特征之间存在大量重叠(Fig. 2f-h)。这种弹性网络找出了关于拷贝数变异和基因特征之间关系的其他信息。仅使用DNA拷贝数变异预测许多基因表达特征,具有较高的准确性。

3. 基于拷贝数变异的内在分子亚型预测:将DNA特征弹性网络建模成功应用于预测其他复杂的肿瘤,包括预测乳腺癌亚型所有亚型的预测模型的AUC都较高(SFig. 6a-d)。

4. 基于拷贝数变异的个体蛋白表达预测:利用弹性网络模型构建蛋白表达预测。

能够准确预测RPPA中16个表达蛋白(Fig. 4a)。三种乳腺癌蛋白(ER、PR和HER2;AUC >0.75)(Fig. 4a-d)。 

5. 基于拷贝数变异的体细胞突变预测:弹性网络模型预测个体体细胞突变

少数突变AUC>0.75,肿瘤突变负荷(在每个样本中已证明与免疫治疗反应相关的突变总数)在DNA 拷贝数变异中高度可预测(Fig. 4f-h)。

6. 基因特征的亚型特异性预测:弹性网络分析分子亚型影响基因特征。

亚型的预测准确性不同(Fig. 5a-c),也证实了不同亚型的异质性。

 

7. 肺癌基因特征的预测:使用TCGA肺癌数据评估弹性网络预测模型的通用性

在肺癌训练集、肺癌检验集和乳腺癌检验集中,弹性网络方法能够一致地预测最相关的特征

8. 泛癌的基因特征预测:将该方法扩展到TCGA中25个肿瘤类型(多平台数据且至少100个样本)。拷贝数变异的肿瘤有更多高度可预测的基因特征(Fig. 6 a、b)。弹性网络方法建立多种基因组相关的稳健的肿瘤预测模型。

总结

这篇文章整合基因组学方法(包括全基因组关联分析和弹性网络预测建模),利用体细胞DNA 拷贝数变异建立复杂肿瘤表型模型,确定了许多基因表达特征蛋白质表达特征与拷贝数变异之间的联系。

模型还可以用来预测体细胞突变癌症亚型亚型特异性,可应用于TCGA中其他肿瘤数据25个肿瘤类型,具有很高的通用性和可重复性。

这个方法仅利用DNA信息就可以预测关键的复杂肿瘤表型,可能会应用于临床中。

文献解读

基因家族“套路分析”

2020-8-28 1:00:24

文献解读

临床样本怎样简单生信分析?对肝细胞癌建立分子和免疫分型

2020-8-28 4:06:15

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索