拯救非肿瘤数据:非肿瘤免疫浸润生信文章套路解析

听好多朋友说非肿瘤生信好难做啊~数据很少,何况大多数没有临床信息,有时候连个简单构建ceRNA模型也不行。小编也遇到同样的烦恼,虽然老板手中也有血样,但自己先通过挖掘仅有的数据库里信息,提高数据挖掘能力,让老板看到你的潜力,放心把自己的大项目交给你手中,也是一种本事哦~

小编在查文献过程中,发现一篇近期发表在Diagnostics的非肿瘤生信文章,结构非常清晰,涉及样本数量也不多,也没有用到临床信息,非常适合我们学习哦~

文章链接:

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7151

 

文章背景
骨关节炎(OA)是最常见的关节疾病之一,尤其是在老年人中,每年约有300万新诊断病例。OA的特征是软骨退化、滑膜炎症、软骨下骨改建和骨赘形成,最终导致关节功能丧失。因此,OA被认为是全世界残疾的主要原因之一。由于无法早发现早诊断,大多数患者的病情持续发展,导致预后较差,治疗方案无效。因此,探索早期诊断的生物标志物对于改善OA患者的预后至关重要。本文从GEO数据库出发求取差异基因,使用LASSO 回归算法和SVM-RFE算法两种算法进而缩小差异基因数量,最后通过与免疫细胞相关性分析来更好地了解OA发生发展过程中的分子免疫机制。

 

文章内容

 

01
数据下载及处理
数据集:GSE55235,GSE55457,GSE51588(验证)

处理:去批次效应和归一化处理

结果:合并GSE55235和GSE55457两个数据集,并使用“SVA”R包消除批间差异,利用Q-Q图显示消除批间差异的效果(图1)。接下来对数据进行归一化处理,PCA聚类图显示两组数据处理后聚类更加明显,证明数据来源是可靠的,能继续进行下面的差异分析(图2 A-B)。

图1 Q-Q图。红线表示GSE55235数据分布的密度图,黑线表示GSE55457数据分布的密度图,黑圈表示对应于相同累积概率的分位数

 图2 样本校正前后的PCA图和差异基因的火山图

 

02
差异分析
用R软件的“LIMMA”包求取差异基因DEG,通过取p<0.05,llogFCl>1得到458 DEGs,并用火山图进行可视化(图2 C)。

 

03
富集分析
使用“clusterProfiler”包对458 DEGs进行Gene Ontology(GO),Disease Ontology(DO)及Gene set enrichment analysis(GSEA)功能富集分析。

结果:GO分析结果表明,DEGs主要与白细胞迁移、对外界刺激反应的正调节、细胞趋化性和白细胞迁移有关。DO分析结果表明,DEGs富集的疾病主要包括慢性淋巴细胞白血病、骨关节炎、胰腺疾病和类风湿性关节炎(图3)。

图3 GO和DO富集结果

GSEA结果表明,富集的通路主要涉PD1信号和ZAP-70向免疫突触通路的移位(图4)。

图4 GSEA结果

结论:以上结果提示免疫反应在OA发病中起着重要的作用。

 

04
诊断标志物的筛选与验证
分别使用LASSO 回归算法和SVM-RFE算法对485DEGs进行进一步的筛选,并将结果用GSE51588数据集进行验证。

结果:使用LASSO 回归算法从DEGs识别出14个基因作为OA的诊断标志物;使用SVM-RFE算法识别出7个基因作为诊断标志物(图5A-B)。将两者取交集最终得到2个诊断标志物:GRB10,E2F3(图5C)。为了进一步检验两个基因的诊断效能,用GSE51588数据集进行验证,结果显示两个基因的诊断效能具有较高水平(AUC=0.962),暗示GRB10,E2F3有较高的诊断价值(图5D)。

图5诊断标志物的筛选与验证
05
免疫细胞浸润结果
首先使用CIBERSORT进行免疫细胞浸润分析。然后使用PCA聚类图探究OA和正常样本间的免疫细胞浸润是否有差异。进一步绘制22种免疫细胞的相关性热图和小提琴图探究两类样本有显著差异的免疫细胞类型。

 

结果:从PCA聚类图可看出OA和正常样本间的免疫细胞浸润水平是有差异的(图6A)。从相关性热图得知活化的NK细胞、活化的树突状细胞和嗜酸性粒细胞呈显著正相关,静息CD4记忆T细胞与活化的肥大细胞也呈正相关,静息CD4记忆T细胞与调节性T细胞呈负相关,活化的NK细胞与静息肥大细胞呈负相关(图6B)。小提琴图结果显示与正常对照组相比,调节性T细胞和静息肥大细胞浸润较多,而静息CD4记忆T细胞、活化NK细胞、活化肥大细胞和嗜酸性粒细胞浸润较少(图6C)。

图6 免疫细胞浸润结果
06
GRB10、E2F3与免疫浸润细胞的相关性分析
相关分析显示,GRB10与静息NK细胞(r=0.642,p=0.002)、初始CD4+T细胞(r=0.525,p=0.018)呈正相关,而与巨噬细胞M1呈负相关(r=−0.482,p=0.031)(图7A);E2F3与静息肥大细胞呈负相关(r=−0.552,p=0.012)。
图7 GRB10、E2F3与免疫浸润细胞的相关性分析

 

总结

这篇文章的亮点就在于在求出很多个DEGs的情况下,通过LASSO回归和SVM-RFE算法的结合,使差异基因进一步缩小范围到2个,后面再结合免疫浸润细胞进行分析,这样的诊断模型更具有临床意义。其实,如果数据集中包含临床信息,做WGCNA,COX回归缩小基因数量也不失为一个好方法哦!

文献解读

m6A RNA甲基化调节因子的鉴定与筛选套路,学会这篇4分+SCI就够了

2020-10-21 23:56:39

文献解读

不走寻常路的生信思路:TP53相关基因标志可预测肺鳞癌预后及疗效

2020-10-22 23:26:48

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: sci666net@qq.com.
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索