文献解读:单基因纯生信分析思路

最近几年,生信数据挖掘得到越来越多的认可,不少人通过利用公共数据库的资源成功发表SCI文章,为自己毕业、职位晋升打通道路。虽然生信类文章数量骤升,纯生信发文越来越困难,但是每年也有不少此类文章出现。相比于耗时耗力的湿实验,纯生信文章仿佛更受到急需毕业、晋升群体的喜爱,那今天就向大家分享一篇今年6月份刚发表的3+纯生信单基因挖掘文章,其文章思路比较清晰,操作难度不大。

这篇文章的目的是为了阐明PRKACB表达与CRC患者结局之间的可能关系,作者利用GEO,Oncomine和TCGA数据库鉴定并验证了PRKACB在结肠癌患者正常组织和肿瘤组织的表达,并基于TCGA谱进行了临床病理资料和生存分析,希望对结直肠癌发生发展提供有用的见解。

数据来源
从GEO数据库下载含有CRC肿瘤和非肿瘤组织的七个数据集GSE110225,GSE32323,GSE44076,GSE9348,GSE41328,GSE21510,GSE68468;从TCGA数据库下载结直肠癌相关的mRNA数据;从cBioPortal数据库下载CRC患者的临床资料及PRKACB RNA Seq V2 的数据。在oncomine数据库中进行验证。

 

结果展示
1
PRKACB的表达水平差异
作者首先通过GEO数据库和TCGA数据库对PRKACB在结直肠癌患者正常组织和肿瘤组织的表达水平差异进行分析,发现PRKACB在CRC肿瘤组织中呈现低表达。

接下来,为了验证上述结果,作者在oncomine数据库中设置p值≤1E-4,倍数变化≥2,基因排名在前10%为阈值,对15个研究进行了PRKACB表达的Meta分析,同样证实PRKACB在CRC肿瘤组织中呈现低表达。

 

2
PRKACB与患者生存之间的关系

发现PRKACB在CRC肿瘤组织和正常组织中存在差异后,接下来作者通过cBioPortal数据库下载临时TCGA数据,分析了PRKACB低表达对患者生存率的影响,发现在肿瘤组织中PRKACB低表达与患者无病生存率和总生存率较差相关;同时发现,PRKACB低表达在患者1年,3年,5年OS中均是一个高危因素。

此外,作者还在不同人群中进行了亚组生存分析。发现PRKACB低表达是男性,白人,非粘液性腺癌患者以及III-IV期患者的危险因素。

 

3
PRKACB与CRC患者临床病理特征之间的关联
接下来,作者同样利用cBioPortal数据库下载的时TCGA数据分析了RKACB与CRC患者临床病理特征之间的关联,发现只有年龄和性别与PRKACB表达水平有关,而BMI指数,肿瘤分期,淋巴结分期,转移分期,AJCC分期,淋巴结浸润,神经浸润,血管浸润,人种以及肿瘤状态与PRKACB表达没有显著性差异(P>0.05)。

 

4
KEGG / GO生物过程富集
接下来作者利用TCGA官网下载的mRNA数据进行PRKACB相关基因鉴定,根据差异表达基因与PRKACB的斯皮尔曼系数(-1至1),选择 P<0.05的基因定义为PRKACB相关基因.对这些PRKACB相关基因进行KEGG / GO生物过程富集分析。
PS:正常情况下,单基因无法进行功能富集分析,而作者在差异表达的基因中筛选出PRKACB的相关基因群,通过对这些相关基因群的富集分析就能够间接分析出PRKACB的功能。作者这种“由此推彼”的分析方法非常值得借鉴。
5
 蛋白质间相互作用(PPI)网络构建
在此步骤中,作者同样利用的是PRKACB相关基因。将PRKACB相关基因上传到STRING网站分析蛋白质之间的相互作用关系,将交互作用得分0.400(中度可信)被视为截止标准。删除与其他蛋白质没有相互作用的蛋白质节点。然后,将PPI对输入到Cytoscape软件构建PPI网络,并根据Cytoscape插件(cytoHubba的等级)确定前10个中心基因(PRKACB,ATP2B2,MAPT,  PHLPP2,ABCCB,GRIN2A,MYLK,GRIA1, BCHE,ADCY2)。

 

6
基因共表达网络分析
最后,作者使用cBioPortal数据库中的共表达在线分析功能进行基因共表达分析,并利用Cytoscape软件绘制基因共表达网。分析表明PRKACB与FAM167A,NRIP3, RASL11B, ST13P4, TMEM99呈完全正相关,与ALPP,C3ORF70,JUND,ZBTB7A呈完全负相关。如作者在讨论部分所叙述的, 研究证实NRIP3, RASL11B在乳腺癌、肾细胞癌中发挥抑癌作用,ALPP,JUND,ZBTB7A在胃癌、前列腺癌,乳腺癌等多种癌症中促进癌症的进展。因此,作者猜测PRKACB与这些抑癌因子发挥协同作用共同抑制肿瘤生长,与那些促进肿瘤发生的基因则拮抗PRKACB的抑癌作用。即证明:PRKACB在肿瘤组织中可能作为抑癌因子发挥作用。
思路总结
到这里这篇文章就分析完了,我们理一下分析思路:
其实,相对于一般的生信灌水套路文,这篇文章的分析内容已经算是比较丰富的了,当然,如果想要冲刺更高分的文章,可以进行临床数据验证,采取患者的组织样本验证目标基因的表达水平,并分析其与患者病理资料的关系等。
不难发现,1-2分的生信文章只需要简单的TCGA或者GEO 数据库分析就可以满足,而3-5的生信文章则需要多个数据库的联合使用,如果想要冲刺5+的文章,则需要进行后续的细胞水平甚至动物水平的实验验证了。如果你手里面恰好也有一个确定的目标基因,不防试试这篇文章的生信挖掘套路,不仅可以不做实验获得一篇3+SCI文章,还可以为后续的实验可以提供数据支撑,何乐而不为呢?
文献解读

文献解读:基于特定分期的SEER数据库分析

2020-6-28 23:03:55

文献解读

文献解读:基于免疫学分析的肿瘤分型分析思路

2020-6-30 11:51:06

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索