多肽成分分析研究现状——离子迁移谱和质谱分析

Published: 2021-07-01

Keyword:

在多肽合成和许多有机实验中，离不开对成分进行常规液相色谱-质谱(LC-MS)分析。而离子迁移谱(IMS)和质谱(MS)的组合进行分离为常规LC-MS分析进行了额外的维度延伸，增加了峰容量、选择性和分析深度。目前最新的进展已经大大提高了商用IMS设备的灵敏度，该技术将在基于MS的蛋白质组学中得到更广泛的应用。

而在质谱为基础的蛋白质组学中，气相肽离子的大小和形状是一个有待探索的维度。为了研究肽碰撞横截面 (CCS) 空间的性质和效用，德国耶拿大学医院一研究团队利用捕获离子迁移谱(TIMS)和平行积累-串联裂解(PASEF)技术对5种生物的蛋白质组全消化进行了100多万个数据点的测量。该研究团队将研究成果以“Deep learning the collisional cross sections of the peptide universe from a million experimental values”为题发布在《Nature》。

该研究中的100万个数据点的测量中，数据的规模和精度(CV < 1%)足以训练一个深度循环神经网络，该网络仅基于肽序列准确预测CCS值。合成蛋白醇肽的横截面预测在1.4%的中位相对误差(R > 0.99)。除了序列特异性相互作用之外，疏水性、脯氨酸的比例和组氨酸的位置是横截面的主要决定因素。并且CCS值现在可以对任何肽和生物体进行预测，为充分利用附加信息的高级蛋白质组学工作流程奠定基础。

肽的氨基酸与其测量截面之间的联系，通过参考或预测的CCS值增加其鉴定的可信度。这促使研究人员开发了基于氨基酸特定参数化和物理化学性质的各种(机器学习)模型。然而，由于没有全面的实验数据，预测肽构象空间的完整复杂性仍然难以捉摸。并且尚不清楚应该考虑哪些属性来最好地参数化这些模型并使它们具有可推广性。

研究人员推断，将 PASEF 获得的非常大且一致的数据集与最先进的深度学习方法相结合，可以解决这两个挑战。由于其固有的灵活性和扩展到大型数据集的能力，深度学习方法已被证明在基因组学以及最近在蛋白质组学中非常成功，可用于预测保留时间和碎片光谱。

在探索肽 CCS 空间在蛋白质组学中的性质和效用方面，研究人员首先通过 TIMS-TOF PASEF 测量了五个不同生物物种的非常大的 CCS 数据集。在此数据集的基础上，开发并训练了一个具有长短期记忆 (LSTM) 单元的双向循环神经网络，以预测胰蛋白酶肽领域中任何肽序列的 CCS 值。根据可解释 AI 的最新方法解释我们的网络，能够研究线性肽序列和肽横截面之间潜在关系的性质。

该项研究补充了最近仅基于肽序列预测其性质的研究，尤特别是那些使用深度学习保留时间和质谱/质谱强度的研究. 总之，现在几乎可以准确预测与蛋白质组学工作流程相关的任何肽特性，即使在离子迁移率设置中也是如此。

从概念上讲，这使得研究团队几乎完全重建了基于质谱的蛋白质组学实验的预期实验值，给出了已鉴定和定量肽的列表。从更狭义的角度来看，在很大程度上可有可无的时间和成本密集型实验库有很大的潜力。该项研究中介绍的CCS模型进一步扩展了这种策略的能力，以充分利用离子迁移率维度。

基于此，进一步设想，将预测的CCS、保留时间和质谱/质谱结合起来，可以提高数据库搜索中的得分，并缩小候选列表。这在具有挑战性的应用中尤其重要，例如微生物组的肽组学或蛋白质组学34，这些应用具有非常大的搜索空间。为了促进它的应用和进一步发展，除了这里包含的人类肽宇宙的现成预测之外，我们还提供了用于训练和预测的源代码。

参考文献：Meier, F., Köhler, N.D., Brunner, AD. et al. Deep learning the collisional cross sections of the peptide universe from a million experimental values. Nat Commun 12, 1185 (2021).

Prev：多肽在口腔癌治疗中彰显优势
Next：研究揭秘细胞穿透肽如何跨细胞膜易位