GSCALite:联合多数据库 研究癌症基因组学必备神器

对于癌症的研究的各种数据库多种多样,许多数据库只是在癌症的某一个方面提供起独具特色的大数据内容。利用基因组学去研究癌症给我们开辟探究的一个新途径。今天就为大家介绍这样一款集多种分析于一身的超赞在线数据库。它整合了来自TCGA的33种癌症类型的癌症基因组数据、来自GDSC和CTRP的药物反应数据,以及来自GTEx的正常组织数据,在该数据库统一的数据分析流程中进行基因集分析。是不是超级优质的数据库。它就是–GSCALite。

各位小伙伴可要收藏好它的地址:

http://bioinfo.life.hust.edu.cn/web/GSCALite/

主页面

1.根据上面提供的官网链接,我们搜索进入GSCALite数据库的主页面。在数据库的主页面,我们看到还是安排着条理很清晰的,如下图所示:

 

本数据库改变一般数据的功能子菜单摆放模式,突出心意的将其排在主页面的最左侧,中间部分安排的是搜索模块,在搜索框中可以输入想要查询的基因,排在搜索下方,是对GSCALite数据库的简介;同时,该数据库可提供多种对基因的富集的分析,包括:

1)mRNA:差异表达及生存分析;

2)SNV:统计学、分布、类型及其生存意义;

3)CNV:杂合/纯合 CNV 缺失/扩增的统计;

4)甲基化:甲基化影响生存和表达;

5)癌症通路活性:10 种癌症相关通路的活性;

6)miRNA 网络:通过 miRNA 的基因调控网络;

7)药物分析:表达与药物敏感性的相关性 (IC50);

8)GTEx:基因在正常组织和 eQTL 中的表达。

整个数据库主界面设置很富有新意且简单明了,让广大使用的小伙伴一目了然。

 

1.在主页面搜索框,我们可以输入想要研究的基因,但是必须值得注意输入至少5个基因,否则不能得出结果,例如,以TP53为例,得到结果如下:

 

2. 我们以该数据提供的例子进行示范,来了解一下这个数据库的功能。输入基因后,点击搜索,步骤如下图所示:

 

3. 通过上一步的搜索,我们得到如下图的结果,点击左侧红框中的癌症类型和分析类型,就会在右侧显示出来相关选项,最下方会显示你所填选的基因的总个数、有效个数、无效个数。这里需要我们注意观察下方是否显示有无效的基因,如果有需要及时修改。最后点击「Start Gene Set Analysis」,当出现红色“Please check the results on top-left menus of TCGA Cancer/Drug Response/GTEx Normal Tissue.”时即可点击左上角的功能模块,我们就能查看分析结果。

 

功能子菜单

 

GSCALite数据库主要包含TCGA Cancer、Drug Sensitivity以及GTEx Normal Tissue三大模块,如下图所示:

1.TCGA Cancer

1)mRNA 表达:mRNA表达模块根据TCGA 表达数据计算整个癌症的基因组差异表达。模块分析结果提供差异表达,生存分析和亚型分析。如下如图所示:

Tumor vs.Normal:在这里显示了肿瘤和正常对照组基因表达的比例。横坐标为癌症类型,纵坐标为我们所研究的基因,圆圈的大小代表FDR值的大小,颜色显示log2 FC的大小,数值越大颜色越红。如下图所示,我们可以从这个图表中看出基因表达比例在癌症组中具有显著的研究意义。

若需要下载该图表,点击左上角的下载图标。我们还可以根据个人需求更改表格大小参数。

 

Table of comparison:该部分主要显示了所查询的基因集的详细信息。包括Fold Change、P-value和FDR等具体信息都有体现。我们可以点击列名旁边的箭头来改变排名。列名称下的方框处可以帮助用户搜索目标结果。

Survival:在生存分析选项,从颜色上就能区分出哪些是生存较差的指标,圈的大小代表P-valu的-log10数值大小。

 

2)SNV分析(单核苷酸基因变异):

 

SNV百分比率分析图表:从SNV百分比率分析图表可以直观地看出各基因在不同癌症类型中突变频率大小,突变频率越高红色越深,上方还直接的显示出了样本数量(在这里以E2F家族基因为例)。

 

SNV总结:在该子功能选项中,能详细的展现出基因变异类型(SNP、INS、DEL)等,内容非常详尽,简直是不能再详细了。如下图所示:

 

单核苷酸基因变异瀑布图:瀑布图是经典的基因变异分析数据展示图,如下图所示,不同颜色代表不同癌症类型,右侧还展现出图表频率,不用R语言就能出的炫彩图。

单核苷酸基因变异是否与生存相关:该子功能显示在选定的癌症类型中有SNV或无SNV的样本的Kaplan-Meier生存评估。无色点表示SNV不会改变存活率。此处,蓝色圆点表示对应基因中存在SNV的患者在TCGA数据集中的存活率较差。

 

3)CNV分析(拷贝数变异)

 

选择该子功能,得到如下图所示结果,浅红色的Hete Amp代表杂合扩增;浅绿色的Hete Del代表杂合缺失;深红色的Homo Amp代表纯合扩增;深绿色的Homo Del代表纯合缺失;灰色代表无CNV发生。

如下图所示,单独列出杂合CNV和纯和CNV点状图,蓝色代表CNV缺失,红色代表CNV扩增,点越大表明突变率越大。

 

如下图所示,展示的是拷贝数变异与表达的相关性,蓝色代表正相关,红色代表负相关,颜色越深相关性越强。点的大小代表统计学意义,点越大统计意义越显著。

4) 甲基化分析

 

甲基化差异:该子模块主要显示了每种癌症中肿瘤与正常样品之间基因的甲基化变化。蓝点代表肿瘤中的甲基化下调,红点代表肿瘤中的甲基化上调,颜色越深,差异越大。点的大小代表统计意义,点越大,统计意义越显著。

甲基化生存分析:该子模块主要显示具有特定基因的高甲基化和低甲基化的样品之间的生存差异,显示对数p值显著的基因。红点表示高甲基化基团的低差,蓝点相反。点的大小表示统计意义,点越大,统计意义越显著。

 

甲基化表达:该子模块主要显示甲基化与基因表达的相关性。其中蓝点表示负相关,即表示当基因的甲基化水平上调,基因表达下调,两者具有相反的趋势),红色表示正相关,即表示当基因的甲基化水平上调时,基因表达也上调,两者具有一致的趋势,颜色越深,相关性越高。

5)通路活性

 

癌症关键通路百分比:本子模块显示通路活性组之间的基因表达差异(通路和抑制),通路活性组由通路得分定义。红色为代表促进,绿色代表抑制。

热图百分比:热图显示在癌症类型中具有抑制或激活功能的基因。红色代表通路可以被给定基因激活的癌症百分比,抑制用蓝色表示。

相关性网络:该子模块通过线连接向查询显示基因与途径之间的关系。实线表示激活,虚线表示抑制。线条的颜色代表不同的癌症类型。

6)miRNA网络

 

本子功能提供miRNA的网络关系。在该网络中,节点大小与节点的度成正相关。子组是通过igraph R程序包通过随机游走在图中获得社区而生成的,并以不同的颜色显示。

2. Drug Sensitivity

 

基因组畸变影响临床治疗的反应,是药物筛选的潜在生物标志物。根据GDSC / CTRP癌细胞系 IC50药物数据对基因进行药物敏感性和基因表达谱数据进行研究。Spearman相关性代表基因表达与药物相关。正相关意味着基因高表达对药物具有抗性,反之亦然。

 

3. GTEx Normal Tissue

 

热图可提供所选组织中基因组的表达谱。在本功能模块,将以热图和箱形图的形式显示所选GTEx正常组织中查询基因集的表达谱和基因集变异分析得分,这里我们以E2F基因家组1-8为例,可得到如下图所示结果:

综上所述,就是对GSCALite数据库功能的简单介绍,该在线数据库的优势就在于涵盖了多数据库,而且还可以集SNV、CNV以及miRNA互作用、与药敏研究于一身,是生信文章分析、实验前指标筛选、基因通路预测的完美工具。这款具有如此多分析功能的科研神器,相信将来你一定会用到。

工具介绍

m6A2target:为m6A相关研究提供候选基因和研究思路

2021-10-9 18:30:53

工具介绍

不会R生信绘图在线工具

2021-10-10 1:34:17

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: sci666net@qq.com.
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索