文献解读:多维组学数据分析

今天跟大家文献解读的是去年八月份发表在GIGASCIENCEIF: 4.688上的一篇文章,主要提供测序数据的零值处理以及对数转换方法,以及通过处理后的数据识别丰度不同的特征基因蛋白或者具有协调表达的特征对。同时,零零散散介绍了很多R包的具体用法。
 
A field guide for the compositional analysis of any-omics data
多维组学数据成分分析的工作指南
新一代测序技术(NGS)使测定生物或环境样品中所有核苷酸的序列和相对丰度成为可能。NGS的基础是定量的RNA或DNA的存在作为counts,然而这些counts的大小在很大一部分程度上取决于测序深度,而非输入材料。因此,必须在使用前对counts进行归一化。传统归一化方法的假设为大多数特征不变,并且所有被研究的内容都具有相同的核苷酸合成承载能力。然而这些假设通常是不可验证的,并且在比较异质性较大的样本时可能不成立。在成分数据分析领域中发展起来的方法提供一种通用的解决方案,这种解决方案没有假设,对所有数据都有效。在此,本篇文章综合现有文献,为如何将成分数据分析应用于NGS测序数据提供简明指南。在存在总库大小,有效库大小和尖峰归一化等局限性时,通过对数比转换解决这些问题。
 
一. 工作流程

本工作主要基于R语言完成。它开始于一个由序列库生成的非标准化count矩阵,count值记录每个特征在每个样本中出现的次数。大多数软件以整数计数的方式返回测量值,也有些软件使用连续的值或比例值(TPM)。对于许多构成成分数据分析(CoDA)方法来说,单位并不重要。然而,小count往往比大count携带更多的不确定性,本工作可以直接对其建模。因此,本工作建议使用未经调整的原始count值。TPM也可以与CoDA方法一起使用,但如果样本之间的文库大小差异较大,则会对小count的建模结果产生偏差。图1提供联合NGS管道的示意图。彩色方框表示适用于任何相关数据集的过程。橙色表示0值处理过程,一般选择删除包含许多计数为0的特征,或者用较小的值取代0值。绿色部分描述变换相关分析中提出的对数比变换相关方法。这包括个体特征的差异丰度分析和特征对的比例分析。在黄色部分,研究者描述在独立于变换的分析中提出的独立于变换的方法。这包括分析特征对的对数比平均值的差异。在灰色中,描述了研究中没有涉及的数据类型所特有的其他基本步骤。

图1.工作流程

 
二. 数据采集
为证明本方法的实用性,研究者使用在脂多糖(LPS,有效的免疫原性刺激)暴露后小鼠树突状细胞所表达的RNA和蛋白质的测序数据。RNA-Seq和质谱(MS)数据已经预处理,以测定3147个基因的相对丰度。RNA-Seq和MS数据有28个重叠样本,跨越2个条件,7个时间点,每个重复2次。以下实验结果均在本数据基础上完成。
 
三. 零值处理
1. 处理的一般策略
零值处理的方法取决于零的性质。对于NGS数据,一个核苷酸片段要么被定序要么不被定序,并且不会包含四舍五入的零。因为在严格的CoDA框架中没有处理基本零的通用方法,所以我们假设,如果用无限深度排序,一个样本中出现的任何特性都可能出现在另一个样本中,因此将所有NGS零视为count零。有两种实现零处理的通用方法。在特征去除中,当一个特性包含许多0,通常选择删除该特征。在特征修改中,零被替换为非零值。分析人员可以选择一种或两种零处理方法,但应始终证明去除或修改零值特征不会对整体结果造成影响。
2. 使用zcomposition修改特性
有科学家建议使用贝叶斯乘法模型替换策略来替换0值,可以通过zCompositions包的cmultRepl功能完成。
 
四. 转换相关的分析
1. log-ratio转换
组合中的所有内容都是相互依赖的特性,不能单独理解。因此,对单个特征的任何分析都是针对参考进行的。这个参考将每个样本转换成一个无界空间,在那里可以使用任何统计方法。中心对数比(clr)变换使用样本向量的几何平均值作为参考。加法对数比 (alr)转换使用单个组件作为参考。其他还包括多加性对数比 (malr)转换等。malr变换包括四分位对数比(iqlr)变换,集中对数比(rclr)转换等。重要的是,转换不是标准化:标准化要求以绝对形式重新转换数据,但转换不是。基于转换的分析结果必须根据选择的参考进行解释。
其中,clr变换最为常见。
每个转换都包含自己的参照。在大多数实际环境中,转换的选择将取决于对结果解读的偏爱性。对clr数据的分析将揭示基因相对于样本均值的行为。对alr和malr数据的分析将揭示基因相对于1个或更明确选择的内部参照的行为。对iqlr数据的分析将揭示基因相对于样本间四分位数平均值的表现。需要注意的是,这些都不是标准化:每个新变量都是原始变量除以引用的对数比,因此应该被解释为样本内部的对数倍差。
2. 基于ALDEx2的差异丰度分析
差异丰度(DA)分析试图找出实验组之间丰度不同的特征。ALDEx2通过对对数比变换后的数据进行单变量统计分析,对组成数据中的DA进行检验。ALDEx2可以在RNA-Seq数据中高精度识别DA,并在高度稀疏的16S宏基因组count数据中控制假阳性率。图2展示出参考组改变对DA的影响,选择不同转换方法识别出的差异特征不同。可通过ALDEx2包识别两实验组间丰度不同的特征。

 图2. 差异丰度取决于选择的参考的解释

3. 基于Propr的均衡分析
在不假设关联网络稀疏性的前提下,通过均衡分析识别成分数据中的协调特征。通过计算3个比例度量中的1个,propr包测试所有样本的特征协调性。其中两个已经被证明在213个数据集的单细胞聚类和网络分析中,比其余15个竞争的关联测量结果要好。Vignette包可以通过划定不同阈值对识别出的协调(相关)特征构建可视化网络,网络结果如图3所示。

 图3. 协调特征网络构建
 
五. 转换的独立分析
上述方法依赖于对数比转换来规范一个基因与另一个基因的比较(或一对基因的协调)。然而,通过比较组内对数比率(VLR)与总对数比率(VLR)的差异,我们不需要参考来估计组间协调差异。VLR计算公式如下所示:

k组为Nk样本,其中xg和xh为分量向量。从这个方程中,我们可以看到任何的标准化或者变换因子都会被消去。VLR在[0,1]范围内,其中0表示完全协调。我们不能将一对的VLR与另一对的VLR进行比较,然而我们可以比较组间同一对的VLR差异。propd函数可以用于测试比例因子在实验组之间是否不同。图4展示特征基因对的对数转换丰度分布。本方法识别出的差异特征与ALDEx2识别出特征有较高一致性。

 图4.特征基因对的对数转换丰度分
 
六. 应用
本文提出两种组合数据垂直整合的总体策略。对于这里使用的RNA-Seq和MS数据,两者都量化了基因产物的相对丰度。这使得我们可以使用ALDEx2来发现mRNA丰度变化大于蛋白丰度的特征。同样,我们可以使用比例分析来发现基因和蛋白质在响应LPS时都有协调表达的特征对。最后,我们可以使用差异比例分析来发现基因对和相应的蛋白质对之间的化学计量差异特征对。图5给出了一些差异比例对的例子。

图5.mRNA丰度与蛋白丰度的比较

 
这篇文章的主要内容大概就是这些,看起来杂七杂八的很难理解,其实简单概况来说的话就是提供了测序数据的零值处理以及对数转换方法,以及通过处理后的数据识别丰度不同的特征基因蛋白或者具有协调表达的特征对。文章大框很好梳理,但是零零散散的也确实介绍了很多数据处理方法以及R包具体的应用,有需要的同学还是很有必要认真研读一番的。另外,文章也提供了应用R包的程序,学起来非常方便,刚刚入门的小白们还在等什么呢,赶快get起来吧!
文献解读

文献解读:膀胱癌免疫微环境

2020-1-23 21:18:59

文献解读

癌症临床试验中脑转移患者的排除

2020-1-23 21:38:22

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索