听好多朋友说非肿瘤生信好难做啊~数据很少,何况大多数没有临床信息,有时候连个简单构建ceRNA模型也不行。小编也遇到同样的烦恼,虽然老板手中也有血样,但自己先通过挖掘仅有的数据库里信息,提高数据挖掘能力,让老板看到你的潜力,放心把自己的大项目交给你手中,也是一种本事哦~
小编在查文献过程中,发现一篇近期发表在Diagnostics的非肿瘤生信文章,结构非常清晰,涉及样本数量也不多,也没有用到临床信息,非常适合我们学习哦~

文章链接:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7151
处理:去批次效应和归一化处理
结果:合并GSE55235和GSE55457两个数据集,并使用“SVA”R包消除批间差异,利用Q-Q图显示消除批间差异的效果(图1)。接下来对数据进行归一化处理,PCA聚类图显示两组数据处理后聚类更加明显,证明数据来源是可靠的,能继续进行下面的差异分析(图2 A-B)。

图1 Q-Q图。红线表示GSE55235数据分布的密度图,黑线表示GSE55457数据分布的密度图,黑圈表示对应于相同累积概率的分位数

图2 样本校正前后的PCA图和差异基因的火山图
结果:GO分析结果表明,DEGs主要与白细胞迁移、对外界刺激反应的正调节、细胞趋化性和白细胞迁移有关。DO分析结果表明,DEGs富集的疾病主要包括慢性淋巴细胞白血病、骨关节炎、胰腺疾病和类风湿性关节炎(图3)。
图3 GO和DO富集结果
GSEA结果表明,富集的通路主要涉PD1信号和ZAP-70向免疫突触通路的移位(图4)。

图4 GSEA结果
结论:以上结果提示免疫反应在OA发病中起着重要的作用。
结果:使用LASSO 回归算法从DEGs识别出14个基因作为OA的诊断标志物;使用SVM-RFE算法识别出7个基因作为诊断标志物(图5A-B)。将两者取交集最终得到2个诊断标志物:GRB10,E2F3(图5C)。为了进一步检验两个基因的诊断效能,用GSE51588数据集进行验证,结果显示两个基因的诊断效能具有较高水平(AUC=0.962),暗示GRB10,E2F3有较高的诊断价值(图5D)。

结果:从PCA聚类图可看出OA和正常样本间的免疫细胞浸润水平是有差异的(图6A)。从相关性热图得知活化的NK细胞、活化的树突状细胞和嗜酸性粒细胞呈显著正相关,静息CD4记忆T细胞与活化的肥大细胞也呈正相关,静息CD4记忆T细胞与调节性T细胞呈负相关,活化的NK细胞与静息肥大细胞呈负相关(图6B)。小提琴图结果显示与正常对照组相比,调节性T细胞和静息肥大细胞浸润较多,而静息CD4记忆T细胞、活化NK细胞、活化肥大细胞和嗜酸性粒细胞浸润较少(图6C)。


这篇文章的亮点就在于在求出很多个DEGs的情况下,通过LASSO回归和SVM-RFE算法的结合,使差异基因进一步缩小范围到2个,后面再结合免疫浸润细胞进行分析,这样的诊断模型更具有临床意义。其实,如果数据集中包含临床信息,做WGCNA,COX回归缩小基因数量也不失为一个好方法哦!
