基于四个甲基化mRNA标记物的风险评分系统预测肝细胞癌患者的生存

小编今早阅读文献时偶遇一篇刚发表在aging杂志上的纯数据挖掘文章

题目

A four-methylated mRNA signature-based risk  score system  predicts survival in  patients with  hepatocellular  carcinoma 。

 

接着我们就聊聊这篇文章干了啥?从题目可以看出这篇内容侧重甲基化研究。整篇文章的workflow如下:

01

查找四套GEO数据集并分别差异分析

作者分别下载了表达的GEO数据集GSE84402, GSE64432以及甲基化的GEO数据集GSE77003 和GSE57956,作者分别取差异基因(cancer VS normal)和差异甲基化基因(cancer VS normal),差异表达采用limma包实现,差异甲基化采用GEO2R实现, 接着分别进行了高表达/低甲基化和低表达/高甲基化的基因取交集,分别获得130个和18个重合的差异基因。Cutoff :p< 0.05 and [logFC]>1

02

MDEGs 功能富集分析

作者将高表达/低甲基化和低表达/高甲基化的基因称之为MDEGs,作者利用DAVID数据库进行了KEGG和GO分析,结果如下:

03

识别hub gene和临床价值

作者在进行完富集分析之后,便开始寻找hub gene,作者基于STRING数据库构建了PPI网络,筛选出前10个基因进行下一步研究,首先在TCGA数据库中验证了表达情况和甲基化情况,接着作者进一步考察甲基化和表达的相关性,发现大部分基因存在负相关,说明甲基化可能导致了表达情况的变化。作者这里还使用了一个甲基化的网站:DNA Methylation and gene expression in Human Cancer (http://methhc.mbc.nctu.edu.tw/php/ index.php)

接着作者对top基因进行了预后分析,发现只有四个基因存在预后价值并绘制了AUC曲线,如下:

04

预后模型构建

作者对筛选出的四个基因,构建了预后模型,采用中位数作为cutoff,将四个基因整合到一个表达式中做预后评判,发现在OS和PFS都有差异,同时ROC也被绘制,整体的ROC并不是很好。

05

构建列线图模型

作者整合了T stage, HCC risk factors 和the four-MDEG signature绘制了列线图模型,calibration curves 也被绘制如下:

根据列线图得分,患者可别分成三组,接着采用TCGA数据集发现三组的OS可以分开,如下:

06

比较列线图和T stage预测准确性

作者采用C-index比较T stage和列线图模型的预测准确度,发现列线图模型显著比Tstage预测准确,说明模型的优越性。

至此整篇文章就结束了。

文章思路总结

作者综合了四套GEO数据集(甲基化/表达)进行差异分析,然后取交集,分别进行GO/KEGG分析,接着进行PPI网络的构建,筛选hub gene,再接着进行模型构建和列线图模型构建以及TCGA数据库的验证。 

OK,这个文章就结束了,这篇文章思路非常清晰,以甲基化和基因表达即为切入点来分析,整个流程是不是很简单,大家是不是看的有点小激动?那就赶快去试一下吧!

写作与投稿

SCI写作专题第八期:Abstract和Title

2019-8-25 20:37:21

meta分析写作与投稿

Meta分析SCI写作的常见问题汇总

2019-8-29 17:07:52

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
搜索