作者
罗晓妍审稿
金淑婷
蛋白从头设计是蛋白质工程的长期课题,目前计算方法难以将蛋白序列映射至其功能。然而,今年3月NatureMachineIntelligence发表的一篇文章,似乎找到了序列与功能间的映射之法。作者提出ProteinGAN,一种基于自注意力机制的生成对抗网络,能够“学习”天然蛋白序列的多样性,并且进一步生成功能蛋白序列。ProteinGAN从复杂的多维氨基酸序列空间中学习序列间的进化关系,经实验验证,生成了具有天然物理性质的新序列。
1
研究背景
蛋白的三维结构、物理化学性质和分子功能均由其氨基酸序列来决定。计算方法能够直接生成新的功能序列变体,避免在巨大的蛋白质序列空间中进行实验筛选,满足了生物医学和生物技术领域对新蛋白质多样性的需求。传统的生物信息学方法,如基于隐马尔可夫模型(HMM)的方法,以及最近的机器学习方法,已经证明了从天然蛋白质序列中捕获结构和进化信息的巨大潜力。蛋白质研究中现有的大多数机器学习模型,是利用现有的数据对模型进行训练,以预测给定蛋白质序列的性质。生成模型能够学习底层数据分布并从中生成新的样本,因此,从理论上说,生成模型可以学习功能蛋白质序列空间的分布,并生成新的功能蛋白质序列,探索更多未知的功能序列,最大限度地减少对非功能序列的实验消耗。
因此,作者提出ProteinGAN,一种生成对抗网络模型,能够产生具有天然生化特性的新的功能蛋白序列。该方法证明了神经网络具有通过学习氨基酸之间复杂的进化依赖关系和泛化蛋白质序列空间的能力,可以产生高度多样化的序列。以苹果酸脱氢酶(MDH)为例,作者通过实验展示了ProteinGAN产生功能齐全的多种酶蛋白的潜力,生成的序列中,发生超过个位点突变的序列与天然酶的活性相近。
图1ProteinGAN训练方案
2
模型方法
神经网络结构
GAN结构包括两部分,生成器和判别器,本文中这两部分都使用了ResNetblocks。判别器中的每个block是由3个卷积核大小为3的一维卷积层构成,LeakyReLU作为激活函数。生成器的残差块包含两层转置卷积层,用来做上采样。由于CNN无法捕获远距离信息,作者使用了膨胀卷积。用膨胀卷积扩大感受野,膨胀率随着block的增加逐渐扩大,到网络的最后一层时,卷积核已经有足够的感受野来捕获长距离的关系。生成器和判别器同时应用了自注意力机制,用自注意力层捕获蛋白的功能区域,突出整个序列中不同的重要区域。作者实验了多种损失函数,最终根据实验结果选择了带R1正则化的non-saturatingloss。具体架构如下图所示。
图2判别器与生成器网络结构图
训练数据
从UniProt数据库下载得到细菌MDH序列,长度超过个氨基酸或含有非标准氨基酸的序列被移除。最终保留16,条序列,使用MMseq2对序列按一致性70%进行聚类以平衡训练数据集。其中,在序列数小于3的聚类中随机选择条序列(全体样本的20%)作为验证集,剩下的作为训练集(16,条)。
训练过程
生成器和判别器交替训练。为了避免生成偏向于具有大量同源物的序列,对较小的聚类在训练期间进行动态向上采样。为了跟踪性能和GAN损失,作者在训练过程中不断评估生成的数据。在不停止训练过程的情况下,每执行次梯度更新,生成的序列就会自动与训练和验证数据集对齐(BLAST工具)。在整个训练过程中,计算和监测序列的一致性分数。
3
实验结果分析
生成网络的潜在空间编码蛋白质特征
ProteinGAN基于生成对抗网络,它扩展了基于对齐的方法,独立地处理每个氨基酸。具体来说,ProteinGAN体系结构是一个时域卷积网络,旨在同时分析局部和全局序列特征,即捕获序列基序和长距离关系。此外,为了使ProteinGAN专注于对功能有重要影响的序列区域,作者还引入了一个自注意力层。该网络的最终架构包括45层,有超过万个可训练参数。
为了评估ProteinGAN的性能,并证明神经网络可以泛化蛋白质家族序列空间,从而产生不同的功能蛋白质,作者在一个细菌MDH酶家族上训练了神经网络。通过量化生成序列与自然序列的相似性来评估训练的进度。每个learningsteps,生成64个序列,并计算它们与训练和验证数据集中的天然序列的一致性。经过万个learningsteps后训练结束,生成的序列集和天然序列集之间的序列一致性已达到最高值。
ProteinGAN学习了天然蛋白质序列的内在关系
生成模型的主要目的是从具有代表性的样本中学习潜在的真实分布,因此作者首先评估了ProteinGAN捕获生物序列重要信息的能力,例如比较在天然序列和生成序列中发生的氨基酸突变,突变的统计结果能够反映出序列进化特性。在生成的和天然的MDH序列的多序列比对中,计算了每个位置的香农熵。生成序列的位置变异性与天然序列高度相似,高熵和低熵出现在序列排列中几乎相同的位置,显示了生成序列与天然序列整体的高相关性。这表明ProteinGAN从序列数据中学到了进化特征。
图3多序列比对中序列保守位置的统计结果
ProteinGAN扩展了已知的MDH序列空间
用t-SNE降维可视化生成序列和天然序列的结果表明,大多数天然MDH序列会分组聚成较大的簇,因为序列间十分相似。相反,生成的序列会分组聚成较小的簇,在自然序列簇之间插值,同时保持了生成的序列的多样性。
图4t-SNE可视化蛋白质序列空间
ProteinGAN生成的酶具有功能性
考虑到随机氨基酸替换通常会导致蛋白质活性的下降,甚至是完全丧失,作者实验测试了ProteinGAN产生的MDH序列是否具有催化活性。通过以训练集样本为模板,在生成序列集中进行序列搜索,得到了最相似的生成序列和训练序列对。过滤这些pairs,得到序列一致性从40%到%的序列对,不考虑差异过大的pairs,因为这些序列可能是不活跃的。选取了60条序列进行实验,发现在一致性45%~98%的序列对中,发生了7~次氨基酸突变,其中有55个已经成功合成并克隆到表达载体中。在大肠杆菌中产生重组蛋白并使用亲和色谱法纯化,产生11种蛋白质变体。为了识别额外的可溶性蛋白质,在有利于大肠杆菌菌株的生长条件下重复实验,将纯化的可溶性蛋白质的总数扩大到19种。19种(16条生成序列,3条自然序列做对照)中有13种可溶酶,显示出MDH催化活性。
4
总结
蛋白质家族是一组由共同祖先进化得到的蛋白质,通常认为它们会具有相似的序列、三维结构和功能。通过对齐后的蛋白质序列中氨基酸关系的统计模式,人们可以深入了解关于能决定特定蛋白质结构域、家族的结构和功能的多样性限制以及物理化学限制。基于这些理论,设计一种包含功能相关序列基序和正确的位置特异性氨基酸组成的蛋白质,是非常具有挑战性的。这里提出的ProteinGAN,直接从生物序列中学习潜在的氨基酸关系。与图像生成相比,评估蛋白质序列生成的结果是更有挑战性的。作者评估了ProteinGAN能否重现MDH蛋白家族的序列特征,通过检查氨基酸残基的变异性、活性位点的保守性以及局部和全局氨基酸关系,作者发现ProteinGAN生成的序列具有预期的基本特性。
总的来说,本文证明了人工生成的序列可以为蛋白质工程提供合适且多样化的起点,并在生物催化应用中有巨大潜力。
参考资料
Repecka,D.,Jauniskis,V.,Karpus,L.etal.Expandingfunctionalproteinsequencespacesusinggenerativeadversarialnetworks.NatMachIntell().