导语
GUIDE ╲
肺腺癌(LUAD)的基因组研究提高了我们对疾病生物学的理解,加速了靶向治疗。然而,人们对LUAD的蛋白质组学特性知之甚少。本研究通过对蛋白质组、磷酸化蛋白质组、转录组和全外显子组测序数据进行综合分析来揭示癌症相关特征,并指出三个亚型(S-I、S-II和S-III)与不同的临床和分子特征有关。
肺癌是世界上发病率和死亡率最高的癌症,5年的生存率不到20%。肺腺癌(LUAD)是非小细胞肺癌(NSCLC)最常见的组织学亚型,约占肺小瘤的40%。LUAD最常见的危险因素是吸烟,其他包括长期接触氡、职业性接触致癌物和室外空气污染。近年来,非吸烟患者的诊断呈上升趋势,凸显了非吸烟危险因素在LUAD发病中的重要性。在过去的十年里,西方国家进行的大规模基因组研究已经指明了LUAD的驱动基因(最常见的体细胞突变是 TP53, KRAS, KEAP1, STK11和EGFR)。近年来,针对几种致癌驱动因素的靶向治疗和针对免疫检查点的免疫治疗取得了显著的成功。针对EGFR和BRAF V600E突变、ALK和ROS1重排列的抑制剂以及针对PD-1或PD-L1的免疫检查站抑制剂抗体(ICIs)已应用于LUAD的精准治疗,其他针对MET扩增、RET重排和ERBB2 (HER2)突变的新兴疗法也显示有其潜在优点。
但目前仍有很大比例的LUAD没有可用的靶向治疗方案,原因要么是关键的致癌信号通路中缺乏已知的基因突变,要么是因为难以靶向致癌突变(如KRAS 突变)。此外,肺癌患者对靶向治疗有内在和获得性耐药。由于蛋白质是细胞的功能执行者,深入研究LUAD的蛋白质结构和信号转导(磷酸化蛋白质组)将为全面了解该病的分子机制和开发新的治疗方法奠定基础。
收集103原发LUAD和配对NATs样本,实验设计流程Figure 1A。蛋白质组学研究采用了基于CNHPP (Chinese Human Proteome Project)质谱的无标签定量策略。对所有成对样本进行WES检测,以检测癌症基因组中任何可能的基因变异。此外,对51个肿瘤和49个配对NATs进行了mRNA测序,提供了LUAD在多组学水平上的综合总结。WES数据鉴定了17917个遗传变异事件。RNA-seq分析鉴定了16,188个基因(FPKM>1)。此外,通过确定位点定位评分,共鉴定出5277个磷酸蛋白 (Figure 1D;Figure S1F)。
Figure 1 LUAD样本的多组学景观
(A) 蛋白质组学、磷蛋白组学、WES和RNA-seq分析的实验设计和样本数量。
(B) 基因组概况。上图:每个患者中top 20突变基因的突变计数。下图:103例患者top 20突变基因及其发生情况。
(C) LUAD患者的蛋白质组学概况。显示的是肿瘤(红)和NATs(蓝)中蛋白质丰度的动态变化。
LUAD患者的磷蛋白组学概况。上图为两种类型或一种类型组织中的磷蛋白和磷光颗粒的数量,下图为79例患者中发现的磷蛋白的两两比较。
对49个常见配对样本的RNA-seq(15,824个基因)和蛋白质组数据(8,252个蛋白)进行了主成分分析,对79个配对样本进行了磷酸化蛋白质组数据(2,130个磷蛋白)分析。所有数据集都能区分肿瘤和NATs,在蛋白质组学分析中分离效果最好(Figure S2A和S2B)。
mRNA和蛋白表达的分析显示,在肿瘤中相关性为0.28 (Pearson相关系数),而在NATs中相关性较弱,为0.07(Figure S2C和S2D)。对RNA-seq的常见基因和蛋白质组数据进行富集分析,发现了具有相对强或弱mRNA-蛋白相关性的KEGG通路。转录组学和蛋白质组学的不一致性表明,蛋白质组学数据具有从基因组学数据无法获得的独特致癌特征。
基于外显子的CNA分析,并检测了23,080个CNAs对mRNA、蛋白和磷酸化蛋白表达的调控作用。如图2A和S2F所示,CNAs可以正向或负向影响其顺式或反式表达:17179个CNAs影响7686个mRNA, 10530个CNAs影响2634个蛋白,4330个CNAs影响1284个磷酸化蛋白(Figure 2;Figure S2F)。
Figure 2 LUAD样本的综合组学分析
(A) CNAs对mRNA和蛋白质的功能作用。
(B) SNVs在DNA、mRNA和蛋白水平上的重叠。
(C) LC-MS/MS验证的新型RNA剪接和融合转录本。
Figure S2 LUAD样本中基因组学、转录组学、蛋白质组学和蛋白质组学数据的综合分析
(A) 49例常见患者样本RNA-Seq(15,824个基因)和蛋白组学(8,252个蛋白)数据的主成分分析(PCA)。
(B) 79例患者样本中2130个磷蛋白的主成分分析(PCA)数据。
(C) mRNA -蛋白在肿瘤中的相关性。
(D) NATs中mRNA -蛋白的相关性。
(E) 基于RNA-Seq或蛋白组数据具有预后能力的基因重叠
(F) CNA对磷蛋白的功能影响。
(G) 驱动基因的CNAs对蛋白质丰度的显著顺式或反式效应。网络包含七个LUAD驱动基因(绿)与CNAs及其调控目标。
在103例患者中,LC-MS/MS检测到11,119个蛋白,5,753个蛋白存在于90%以上的患者,PCA分析显示肿瘤和NAT蛋白组之间有清晰的界限,表明在LUAD的发展过程中,蛋白组结构异常(Figure 3A)。肿瘤与NATs之间共有3,355个蛋白表达差异,2749例上调,606例下调。
在RNA-seq和蛋白质组学数据中,涉及代谢、增殖、表观遗传学和蛋白质稳态的几个癌症标志通路被富集(Figure S3C)。值得注意的是,在蛋白质组学数据中,代谢通路(在肿瘤中上调)和粘附相关通路(在肿瘤中下调)的富集更为显著,而在RNA-seq数据中,增殖相关通路的富集更为显著。
虽然手术切除的TNM I期LUAD患者痊愈率很高,但20%~30%的早期患者预后不良。对预后良好(n=36,DFS time>3years,DG)或不良(n = 15, DFS time < 3 years, DP)的I期患者进行蛋白质组学研究,DG组中富含与能量代谢相关的通路,DP组中EMT以及其他炎性和致癌信号通路富集(Figure 4A;Figure S4B)。LUAD组织学标记TTF-1 (NKX2-1;Wilcoxon秩和检验,p = 0.0287, fold change = 1.9)在DG组中表达较高(Figure S4C)。为了研究可能导致不良预后的蛋白,我们利用DepMap的数据评估了DP组上调蛋白的遗传易感性。计算36个LUAD的细胞系中反映基因依赖性的平均基因必要性评分(CERES),保留CERES评分低于0.6的必需基因(Figure S4E)。
通过检测LUAD驱动基因突变或无LUAD驱动基因突变的患者中显著改变的蛋白质,我们总共鉴定了四个驱动基因与245个蛋白表达显著正相关或负相关,大部分蛋白与EGFR或TP53突变相关。进一步研究EGFR和/或TP53有无突变患者的蛋白质组学特征。在TP53突变的患者中,包括DNA复制、错配修复和剪接体在内的几种致癌途径发生了显著变化(Figure S4F)。LUAD的两个组织学标记物TTF-1 (NKX2-1)和NAPSA在EGFR突变的肿瘤标本中表达较高,NAPSA在TP53突变的肿瘤样本中表达较低,而TTF-1在TP53突变患者中表达无明显差异(Figure 4C)。EGFR和TP53共突变的患者预后较差(Figure 4D)。
基于超过70%的肿瘤样本中存在的1,567种最易变的蛋白质,共识聚类确定了三种蛋白质亚型(Figure S5A):S-I(环境和代谢高[EM-H],n = 21),S-II(混合型,n = 48),S-III(增殖和蛋白酶体[PP], n = 34),具有明显的分子和临床特征(Figure 5A-5E;Table S4)。S-I组患者的临床结果最好,而S-III组患者的预后最差(Figure 5B)。对三个组间I期患者的进一步分析显示,蛋白质组亚型与生存率显著相关(Figure S5D)。S-II具有最高的EGFR突变频率,而S-III具有最高的肿瘤突变负担。TTF-1和NAPSA在S-III患者中表达最低(Figure 5)。
GSEA显示S-I具有较高的环境代谢和能量代谢;S-III更与蛋白质稳态和肿瘤增殖有关,(Figure 5E)。S-II具有S-I和S-III的中间特征。三种亚型显著改变的蛋白在黏附灶和细胞周期中发挥作用(Figure 5F)。几种肺特征蛋白在S-I中高表达,在S-III中缺失Figure S5G)。综上所述,S-I与正常组织的关系更密切,而S-III具有更多的恶性特征。WGCNA鉴定出7个共表达模块(Figure S5H)。这些模块与蛋白质组亚型、TP53突变状态、分化、病理和TNM分期显著相关。
根据IHC对CD8 T细胞的评分,三组蛋白组间无显著差异,结果与CD8A在三个蛋白组亚型中的表达分析一致(Figure S5J)。进一步分析了nCounter PanCancer Immune Profiling Panel[REF2]的770个免疫相关蛋白,发现了不同亚型间136个差异表达蛋白。
在至少50%的样本中定量的1,244个磷酸蛋白中,与配对NATs相比,肿瘤中474个显著增加,183个显著减少(Figure 6A)。磷酸化蛋白组的激酶底物富集分析(KSEA)鉴定了多种在肿瘤中被激活的激酶(Figure 6C)。通过对三种蛋白质组亚型的磷酸化蛋白组进行比较,可以发现具有亚型特异性的活化激酶(Figure 6B)。
为了明确这些与癌症相关的磷酸化蛋白在致癌信号通路中的作用,我们通过计算这些磷酸化蛋白在致癌通路中的表达水平,构建了一个磷酸化调控网络(Figure 6E),多种蛋白可能受到癌症相关磷酸化信号的调控。
假设在肿瘤中表达最频繁且具有预后能力的蛋白可以在血液中循环和检测,并可作为潜在的生物标志物。
蛋白组学结果显示,HSP 90β在肿瘤中的表达远高于NATs(Figure 7A),其高表达与预后不良相关。实验中LUAD患者HSP 90β水平较高(Figure 7B)。499例LUAD患者分析显示HSP 90β与预后呈负相关(Figure 7C)。在GDSC数据库中,HSP90小分子抑制剂tanespimycin在LUAD和LUSC细胞系中的疗效明显高于SCLC细胞系(Figure 7D)。证实HSP 90β是LUAD的潜在生物标志物。
考虑了可给药性、预后力、基因依赖性和T/N比率,确定了11个候选靶点,包括CARS、MCM2、GAPDH、GMPS、CTPS1、TPI1、COASY、NUP107、IMPDH2、PCYT1A和DICER1。其中两个(IMPDH2和GAPDH)是FDA批准的靶向药物(Figure 7E,7F)。
癌症相关变异蛋白的鉴定可能为新的靶向突变提供线索。
- 使用从103个LUAD肿瘤及其配对的非癌旁组织(NATs)收集的蛋白质组学、磷蛋白组学和基因组学数据进行了整合的组学分析,为探索遗传变异和转录或翻译调控之间的关系提供了资源。基于蛋白质组学对LUAD更全面的理解可以填补基因组异常和致癌蛋白机制之间的空白。
- 对于蛋白质组学数据的进一步分析揭示了LUAD在不同基因型亚组中的相关分子特征及其临床结果,鉴定了三种新的蛋白质组亚型,它们具有与LUAD的临床、病理和预后特征相关的独特的分子特征。
- 蛋白质组学数据证实HSP 90β是LUAD的预后标志物,并确定了一组蛋白为潜在的药物靶点。