生命可以用更少的氨基酸编码蛋白质吗?

蛋白质是生命活动的主要承担者,生命进化最终都会体现在蛋白质功能的多样化上。蛋白质是由20种氨基酸编码的,相比于ATGC的DNA遗传编码信息,氨基酸字母表显示出极大地复杂性和多样性。

这就产生了一系列非常有趣的问题:

生命为什么会选择20种氨基酸作为标准字母表?

更少的氨基酸能否组成或满足一个蛋白质执行功能的基本组成单元?

我们能否用更少的氨基酸创造出摆脱当前遗传法则,设计更为独特的生命?

氨基酸约化

理论上,具有相似性质、原子排列或频率分布的天然氨基酸可以被合并,并用更小数量的约化字母表来表示编码的氨基酸,这个过程就叫氨基酸约化。 

最简单的约化方案是以极性或者亲疏水性作为标准,将20种氨基酸只约化为两个字母,最终会得到两个字母组成的约化氨基酸字母表。

当然,这种极端的方法产生的蛋白质,所能承载的信息实在太少,几乎不可能完成复杂的生命活动。那如果是3个,5个,10个呢?

比如,我们使用氨基酸在不同蛋白质二级结构中的偏好性来约化20种氨基酸构成的蛋白质字母表。下图中的蛋白质,通过氨基酸约化分析,它的三维结构与二级结构有极高的匹配度。这就揭示了一些蛋白质是甚至可以用很少的氨基酸来编码。

基于这个理论我们可以设计出更有意思的蛋白质。

氨基酸约化 Motif

在这之前,我们需要知道什么是Motif,这是研究蛋白质的关键知识点。Motif 序列是一类蛋白质共有的一段氨基酸序列,也就是说这个 Motif 序列是这类蛋白质所共享的。比如,常见的是转录因子的结合位点,蛋白质的结合位点等等。

氨基酸字母表的大小直接决定motif序列的复杂性和多样性。但是,传统的 Motif Logo 包括了20种氨基酸字母,显示出极大地复杂性。由于在一般的 Logo 生成过程中缺少对氨基酸性质等生物学因素的考虑,往往会导致对蛋白质功能进化保守性的评估出现偏差,引入冗余信息掩盖关键氨基酸序列信息。

利用氨基酸约化分析的多种方案,去应用到 motif 的可视化中就可以很好的解决以上问题。更重要的是,基于约化氨基酸的信息学 Motif logo 包含有更多的信息学和生物学意义,能更好的反映了蛋白序列的功能保守性。

总的来说,约化氨基酸的 Motif logo 作为蛋白质序列保守度的可视化图形,对研究同源蛋白质的系统发育和功能差异,以及蛋白质定向分子设计具有非常重要的意义。

构建 RaacLogo

我们可以通过在线工具 RaacLogo 可以完成约化 Motif 的构建,网址:http://bioinfor.imu.edu.cn/raaclogo 

该工具包含了40多种聚类算法和74种约化后的氨基酸字母,这些字母被提取生成673个约化的氨基酸簇(RAACs),用于简化复杂的logo字母。

们拿溶菌酶C(Lysozyme C,LYC)来获取约化氨基酸 Motif。这种酶具有溶菌作用,而且从鸡到人无处不在。

0. 准备工作

首先收集从鸡到人的21个溶菌酶C比对序列(网站默认提供该比对序列)。这一步操作和构建进化树的序列比对类似。

1. 输入序列

2. 选择一个氨基酸约化方案

3. 点击 Submit 提交任务

4. 我们选择其中一个方案

5. 生成 RaacLogo

结果有三个,分别对应着原生氨基酸Motif,通过颜色和字母显示约化 Motif,通过颜色显示约化 Motif。

可以通过右上角的导出相应的PNG,PDF,SVG文件。

也可以导入 AI 或 PS 进一步美化。

经过 RaacLogo 处理的 Motif 会非常整洁和简单,可以反映出高度的序列同源性。

可以看到,尽管LYC的氨基酸编码在从鸡到人的进化过程中发生了很大的变化,但我们可以看到,LYC的整体氨基酸特性在约化后仍保持不变,并且LYC的同源功能得以维持。

基于氨基酸约化提取特征

除了以上的应用外,可以基于氨基酸约化理论来做目前如火如荼的机器学习

我们都知道,做机器学习最关键的步骤就是特征提取。通过约化氨基酸来做特征提取,不仅可以减少过拟合的机会,而且会极大地降低计算维度,去除冗余信息。从而利用这些特征来做蛋白质的分类,预测以及其他的应用。

1. 进入网站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

选择 Analysis

2. 输入整理好的数据集

比如,预测是否为分泌蛋白质,就需要整理好分泌蛋白的数据集与非分泌蛋白的数据集。以 Fasta 的格式导入输入框。

3. 选择约化方案

4. 选择参数提交,得到结果

参数的介绍可以点击在线工具的Help 查看

结果会得到约化后的序列,以及序列的可视化。

5. 我们的特征在Download

6. 训练蛋白质分类器

如果你熟悉机器学习,利用这个序列特征就可以着手做蛋白质分类器了

但是,不熟悉也没关系,RaacBook 也提供了自动化的流程,可以在线完成蛋白质分类器的训练。

基于氨基酸约化训练模型

1. 进入网站 RaacBook

http://bioinfor.imu.edu.cn/raacbook

选择 Machine learning

2. 提供两个数据集

这两个数据集,可以是任意两种蛋白质序列。比如,和之前一样去预测是否为分泌蛋白质,就需要整理好分泌蛋白的数据集与非分泌蛋白的两个数据集,然后以 Fasta 的格式上传。

3. 选择参数

K-tuple:也叫K-mer,也就是说K个氨基酸作为一个整体做特征

Type:也就是分类方案

Method:机器学习方法,有KNN,SVM,RF,目前该工具正在更新更多的方法

4. 提交,等结果

会得到训练的ROC曲线,这个结果的好坏取决于之前选择的参数和数据集。

5. 下载训练结果

6. 拿到模型就可以去预测未知的序列

利用上面的模型可以构建在线网站去预测未知蛋白质序列。

目前,该在线工具正在增加一个模块:自动构建蛋白质预测器网站。也就是说,用户可以在拿到模型后就可以拥有一个自己的蛋白质预测网站。

下面,我们拿一个已经构建好的预测器网站来看看,比如防御素蛋白的预测器

http://bioinfor.imu.edu.cn/idpf

输入一段序列,我们去预测蛋白质

可以看到,这几段序列会有不同的打分值,如果一个标签的占比高,就意味着这段序列极有可能是这个标签。比如,Psd1 这段序列就是植物中的一种防御素蛋白。

自动训练模型

机器学习中模型训练会消耗大量的硬件资源和时间,因此现在该团队正在开发可以在本地运行的工具。可以实现以上的全部功能,并以 Python 包的形式发布,敬请期待。先看看目前进度的部分内容:

模型训练结果评估

筛选最优特征

ROC评估信息

高维特征缩减和可视化 

总的来说,蛋白质氨基酸约化分析是对生命进化本质的探索,对于蛋白质合成、拓扑结构预测,功能预测分类以及药物设计等具有重要的意义。 

如果对氨基酸约化研究方向感兴趣可以联系

左永春教授 :yczuo@imu.edu.cn

郑磊博士:baimoc@163.com

杂谈

致敬Zena Werb:一代科研人的伯乐

2020-6-24 21:14:29

杂谈

为什么北京疫情表明新冠病毒的传播能力增强

2020-6-25 20:31:23

声明 本网部分文章源于互联网,转载出于传递更多信息和学习之目的,并不意味着赞同其观点。
如转载稿涉及版权等问题,请立即联系管理员,我们会予以修改、删除相关文章,请留言反馈
When your legal rights are being violated, please send an email to: sci666net@qq.com
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索