蛋白互作组学系列丨(四)IP-MS数据分析
上一期我们介绍了IP-MS实验的方案设计,这一期我们将进一步介绍IP-MS实验完成后会获得怎样的实验数据,以及如何从这些数据中筛选出高可信度的相互作用蛋白。
1、数据分析原则
在早期的IP-MS实验中,往往通过蛋白成分鉴定的方式筛选互作蛋白。即通过质谱检测分别获得实验组和对照组样品的蛋白鉴定列表,将实验组中鉴定到而对照组中未鉴定到的蛋白筛选为靶标蛋白的互作蛋白。
但这种数据分析方法在目前已不太适宜。一方面,随着质谱仪器性能和检测灵敏度的提升,即使是极微量的非特异性结合或清洗残留的背景蛋白,也会被目前的高分辨率质谱仪检测到,导致IP-MS样品蛋白鉴定列表的信息量急剧增加,难以起到筛选的作用;另一方面,根据目前的蛋白相互作用研究理念,蛋白之间的相互作用大部分都是较弱的、瞬时的、动态的结合,如果通过采用实验方法,如更严苛的清洗条件或清洗次数,尽量去除非特异性结合和清洗残留的背景蛋白,那么这部分较弱的相互作用蛋白也很可能被同时去除掉。
因此,在目前的IP-MS实验中,通常会选择较为温和的清洗条件,以保留更多的弱相互作用蛋白以及无法避免的背景蛋白和非特异性结合蛋白,之后基于定量蛋白质组学数据,即质谱检测获得的蛋白定量矩阵,通过实验组与对照组的蛋白定量比较筛选高可信的蛋白相互作用,过滤背景蛋白和非特异性结合。
2、数据分析方法概述
在IP-MS方法的应用的发展过程中,许多研究者和课题组分别开发出了各自不同的数据分析方法用于从高通量的质谱鉴定和定量数据中筛选出诱饵蛋白的相互作用蛋白,但其中大多数在当前的研究数据中,已难以达到很好的效果。
例如,早期开发出的CRAPome (Contaminant Repository for Affinity Purification)方法及其对应数据库,收录各类IP实验中鉴定到的非特异性背景蛋白,用于进行互作蛋白的筛选,已与当前主流的IP-MS数据分析原则不太适配。此外还有CompPASS (Comparative Proteomic Analysis Software Suite),MiST (mass spectrometry interaction statistics)和SAINT (Significance Analysis of INTeractome)评分算法,基于蛋白在各个样品中的定量数据对蛋白进行评分,将评分高于特定阈值的作为互作蛋白,但这些评分算法往往使用蛋白鉴定到的谱图数作为定量数据,随着非标记定量策略的发展,基于谱图计数的非标记定量算法在蛋白质组学领域已使用的越来越少了。SIANT算法最近的更新版本中(SAINTq),也改用基于信号强度的定量值进行蛋白评分和互作蛋白筛选了。
因此在目前的IP-MS数据分析中,主要以蛋白的非标记定量信号强度(LFQ intensity)作为蛋白定量数据,比较实验组与对照组间蛋白定量差异,与常规定量蛋白质组学数据分析方法类似,只是通常选择更高的差异蛋白筛选阈值。
3、数据预处理
质谱检测获得的原始谱图数据经过搜库软件的解析可获得各个样品中蛋白的相对定量信息。基于目前质谱仪器的检测灵敏度和蛋白互作研究方案,在来源于人源细胞的IP-MS样品中,通常可定量到1000-2000个蛋白,其中绝大部分是非特异性结合及清洗残留的背景蛋白。
与常规定量蛋白质组学数据类似,获得蛋白定量矩阵后,在进行不同组的蛋白定量比较前,需要对蛋白的定量数据进行预处理,通常包含以下步骤:
(1)定量数值对数转换
通常将蛋白的原始定量数值经过log2转换后进行统计学分析计算和展示。
(2)无效数据的删除
通常包括常见污染物蛋白、反库蛋白以及低频定量数据的删除。
常见污染物蛋白为在样品制备过程中难以避免的蛋白污染,如来源于实验操作人员皮肤头屑的角蛋白,来源于细胞培养基的牛血清蛋白,来源于蛋白酶解过程的猪源胰酶等。
反库蛋白为在数据库检索过程中添加的序列与真实蛋白序列相反的虚拟蛋白,用于蛋白鉴定结果的FDR筛选。
低频定量数据为在不同样品中检测次数过少,因此认为可信度较低,可能由于质谱检测随机性导致鉴定到的蛋白。例如,若每组实验3次重复,通常会保留至少一组实验中检测到2次及以上的蛋白定量数据。
(3)缺失数据的填充
为了便于统计分析,在数据矩阵中缺失的数据按照一定的规则填充数值,是组学数据分析的常见做法。在蛋白质组学数据中,通常以拟合正态分布填充极小值的方式进行缺失数据填充。大致来说,基于原有数据的正态分布情况,建立一个接近质谱检测极限的正态分布数据集,从中随机生成数据填充进入原有数据中缺失的部分。
4、互作蛋白筛选
根据IP-MS定量数据,在IP实验组中较IP对照组中显著升高的蛋白即被鉴定为靶标蛋白高可信的相互作用蛋白。由于IP实验的富集原理,IP-MS中显著差异蛋白的筛选标准相较常规蛋白质组学通常更高。可以以差异倍数>10,P value<0.01作为相互作用蛋白的筛选标准。
5、常见问题及数据结果评估
在目前较为理想的IP-MS的结果中,每个样品中均能定量到超过1000种不同蛋白。其中绝大部分在不同样品中定量无显著差别。在实验组中能鉴定到高强度的靶标蛋白检测信号,并通常在实验组和对照组间表现出最显著的差异。除靶标蛋白以外其他在实验组中显著定量较高的蛋白则被鉴定为靶标蛋白的互作蛋白。
如果IP-MS结果数据不符合预期,可从以下方面排查可能原因:
(1) 实验组样品鉴定蛋白数量过少
可能原因1:样本量过少,最常见的是IP的起始细胞量过少。
可能原因2:清洗条件不合适,例如使用了高盐缓冲液清洗beads,导致大部分蛋白在洗脱前或质谱送样检测前发生损失。
(2) 实验组中未鉴定到靶标蛋白
可能原因1:抗体富集效价不足,导致IP富集到的靶标蛋白过少;
可能原因2:抗体特异性不符,其识别的并非靶标蛋白,而可能是与靶标蛋白分子量接近的其他蛋白。
(3) 通过差异分析筛选出的互作蛋白过多
可能原因:对照组与实验组实验条件未能完全一致,如细胞用量、抗体用量等可能与实验组存在较大差异,导致对照组定量到的蛋白显著少于实验组。
参考文献
1. CHOI H, LARSEN B, LIN Z Y, et al. 2011. SAINT: probabilistic scoring of affinity purification-mass spectrometry data. Nat Methods [J], 8: 70-73.
2. JäGER S, CIMERMANCIC P, GULBAHCE N, et al. 2011. Global landscape of HIV-human protein complexes. Nature [J], 481: 365-370.
3. KEILHAUER E C, HEIN M Y, MANN M 2015. Accurate protein complex retrieval by affinity enrichment mass spectrometry (AE-MS) rather than affinity purification mass spectrometry (AP-MS). Mol Cell Proteomics [J], 14: 120-135.
4. MELLACHERUVU D, WRIGHT Z, COUZENS A L, et al. 2013. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods [J], 10: 730-736.
5. SOWA M E, BENNETT E J, GYGI S P, et al. 2009. Defining the human deubiquitinating enzyme interaction landscape. Cell [J], 138: 389-403.
6. TEO G, KOH H, FERMIN D, et al. 2016. SAINTq: Scoring protein-protein interactions in affinity purification - mass spectrometry experiments with fragment or peptide intensity data. Proteomics [J], 16: 2238-2245.
7. SHANG J, XIA T, HAN Q Q, et al. 2018. Quantitative Proteomics Identified TTC4 as a TBK1 Interactor and a Positive Regulator of SeV-Induced Innate Immunity. Proteomics [J], 18.