大型网站开发心得,校园网二级网站的建设,联想企业网盘,东莞广告公司有哪些目录 1. 蛋白组学方法学1.1 液相-质谱法1) 基本原理2) bottom-up策略的基本流程 1.2 PEA/Olink 2. 质谱数据分析2.1 原始数据格式2.2 分析过程1#xff09;鉴定搜索引擎#xff08;质谱组学#xff09;重难点/潜在的研究方向 2#xff09;定量3#xff09;预处理 2.3 下游… 目录 1. 蛋白组学方法学1.1 液相-质谱法1) 基本原理2) bottom-up策略的基本流程 1.2 PEA/Olink 2. 质谱数据分析2.1 原始数据格式2.2 分析过程1鉴定搜索引擎质谱组学重难点/潜在的研究方向 2定量3预处理 2.3 下游分析 参考附录 1. 蛋白组学方法学
目前常见的蛋白组学方法学如下图。
1.1 液相-质谱法 2001年基于鸟枪法蛋白质组学的想法John Yates团队开发了MudPIT技术… …。实现将鸟枪法应用于蛋白质组学是一件里程碑式的发展成就其不仅颠覆了传统的蛋白质分析方法还推动实现大规模分析。 1) 基本原理 Smith, Rob, et al. “Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist’s point of view.” BMC bioinformatics 15.7 (2014): 1-14. 分离 直接进样Direct injection是指将样品直接注入质量检测器。多数复杂样品的质谱实验都会预先分散分析物使电离能力不会受到大量分析物或背景离子的严重影响。分离方法包括
LC-MS液相色谱-质谱①液体流动相由双液组成。梯度液体成分的百分比的变化会使分析物缓慢地从色谱柱中释放出来进入质谱仪。②固定相装有化学衍生珠子的色谱柱。不同的固定相可以根据疏水性、电荷、大小或亲和性分离分析物。最常见的生物大分子固定相是反相疏水性和强阳离子电荷。GC-MS气相色谱-质谱①流动相为惰性气体如氦气。②固定相为根据极性分离分子的色谱柱。梯度是温度的升高与色谱柱亲和力强的分子在较高温度下洗脱。CE-MS毛细管电泳-质谱毛细管电泳使用施加在毛细管上的电场根据分子的大小、电荷和通过毛细管的流动阻力来分离分子。多维色谱法/串联色谱法将两个色谱系统应用于同一系统。如MUDPIT方法该方法采用两种正交分离策略如强阳离子交换基于电荷和反相基于疏水性色谱法以获得更高的分辨率。
电离 分析物必须电离即处于带电状态才能被质谱仪检测到。电喷雾离子化ESI是质谱组学中最常用的方法这主要是因为它能在不破坏化学键的情况下电离不稳定分子而且该方法可电离的分析物种类繁多。其他方法包括APCI、MALDI和EI。
质量检测 带电粒子通过质谱仪时检测到的粒子的质量电荷比 (m/z) 会被记录下来。输出结果的单次扫描表示在特定保留时间RT通过质谱仪的母离子precursor ions的快照。在 MS/MS 中小 m/z 窗口中的离子会被捕获进行第二次碎片化和 MS 检测产生第二组离子称为子离子product ions可通过将其 MS/MS 模式与数据库进行匹配来识别母离子。进行 MS/MS 的溶液比例很低通常只能捕获MS1数据的10-20%。由于多数 MS/MS 系统会根据强度自动选择片段大部分会在重复间重叠。在这 10-20% 的数据中只有不到 60% 可以通过数据库查询进行鉴定即使这样也会出现假阳性。 质谱仪输出原始数据是大量数据点的集合每个数据点由质荷比m/z、强度intensity和保留时间RT组成有profile或centroid两种格式。profile包含质谱仪记录的所有数据点而centroid则缩减为代表单个谱图中局部最大值的数据点即在给定 RT 的 m/z 范围内的数据分布。
一张谱图spectrum包含所有具有单一 RT 值的点。所有谱图的信号总和称为总离子谱TIS。包含扩展所有 RT 的、连续 m/z 范围的数据切片称为提取离子色谱图XIC。总离子色谱图TIC是所有 m/z 信号的总和而基峰色谱图BPC则是包含所有 m/z 信号中每个 RT 最强信号的集合。同位素示踪isotope trace是指单一分析物即肽或脂质的单一离子在特定电荷状态下产生的信号。同位素包络示踪isotopic envelope trace是单个分析物在特定电荷状态下产生的一组同位素示踪。 同一谱图的profilea和centroidb。profile包括检测到离子的每个点的 m/z 值的分布信号。centroid是经过算法处理的原始数据只保留检测到离子的每个范围内的局部最大值。
数据处理
原始数据处理 现有的降噪、特征检测和对应算法可对原始数据进行处理。许多算法需要从仪器的专有数据格式转成开放数据类型mzXML等。此外数据集大小会对内存访问方式、容量等提出一定要求。然后对数据进行去噪、选峰、特征检测、去同位素和去卷积处理。
分析物鉴定 使用数据库将实验特征即同位素包络线、同位素痕迹等与理论模式进行比较。 由于数据库不完整/增长以及噪声最佳匹配容易出现假阳性和错配。在此之前步骤中几乎都要进行统计分析以确定鉴定的显著性。
分析物定量 最后获得每个分析物的数量。
数据存储 分析物的鉴定、定量和原始数据必须存储在数据结构中以便有效地访问和处理数据。
数据集 缺乏带标签数据定性指标加标模拟。 开放数据集… …
2) bottom-up策略的基本流程
[1] 样本预处理提取蛋白等。[2] 蛋白酶解将蛋白酶切成肽段。[3] 同位素标记使用不同试剂标记不同样本。标记试剂的化学结构由报告基团、平衡基团和反应基团三部分组成通过不同位置的C13、N15同位素组合保证总分子量恒定。[4] 肽段分离降低样品复杂度从而鉴定出更多的肽段/蛋白。 肽段离线预分级使用HPLC将亲疏水性不同的肽段的分成多个馏分fraction再分别上质谱。肽段在线分离肽段会因为在nano-HPLC的色谱柱填料上的保留时间不同而得到预分离。使肽段在一定时间范围内先后进入质谱。 [5] 质谱解析 软电离离子源将中性肽段电离并形成带正电荷的肽段离子。质量分析器将不同质荷比的肽段离子母粒子分离并记录得到一级谱图。【串联质谱-DDA模式】每次扫描会自动选择信号强度较高前20-40个母离子继续碎裂然后对碎片离子的质荷比和强度进行记录从而得到二级谱图。【串联质谱-DIA模式】按照质量窗口对全部肽段母离子做二级碎裂因此能获得更多数据。而DDA会丢失掉绝大部分肽段信息。 [6] 数据解析样本经过质谱仪检测会记录对应的肽段母离子即肽段离子和二级子离子即肽段的碎片离子的质荷比、信号强度和保留时间。 鉴定/定性使用搜索软件分析质谱图得到序列信息。定量使用信号强度来推断表达水平。 参考 John Yates | 质谱的狂热爱好者 迈维代谢.蛋白质组学专题 | 一文读懂蛋白质组学研究策略及研究内容 迈维代谢. 蛋白质组学技术主流方法原理介绍 1.2 PEA/Olink 不同于质谱方法Olink产品基于PEA技术用于靶向定量蛋白组。。。 2. 质谱数据分析 2.1 原始数据格式 目前并没有统一的原始数据格式不同厂家质谱仪产出的原始数据格式汇总如下。 厂家格式Thermo.rawWatersfolderABWIFFAgilentfolderBrukeryep/.fid2.2 分析过程 Smith, Rob, et al. “Proteomics, lipidomics, metabolomics: a mass spectrometry tutorial from a computer scientist’s point of view.” BMC bioinformatics 15.7 (2014): 1-14. 1鉴定 搜索引擎 以数据库为中心的搜索 基本流程DDA中一张二级谱图理论上仅为一种肽段母离子的碎片离子可以使用理论蛋白序列库和二级谱图比对。特点①可评估结果可信度。②数据库中不存在的蛋白质将无法被鉴定。用户设置参数 碎片通道 MS/MS 图谱数据库搜索使用一组预定义的碎片通道这取决于所使用的 MS2 方法CID/HCD/ECD/ETD。用户应根据碎裂过程中使用的 MS2 方法配置所使用的 MS/MS 离子类型。肽段和碎片的质量容差①肽段质量容差决定搜索引擎提取多少肽段与理论 MS/MS 图谱进行匹配并取决于仪器的 MS1 质量精度。如果仪器校准良好则可设置较低的质量容差5 ppm这将缩短搜索时间并增加可信度。不过重要的是要将该值设置为高于仪器的 MS1 质量精度。系统误差与高质量值之间呈线性相关质量准确度以ppm为单位表示相对质量误差而不是以Da为单位的绝对质量误差。②碎片质量容差取决于采集时仪器的 MS2 质量精度并影响可与每个 MS2 峰匹配的碎片离子数量。酶消化限制 消化酶参数应与样品制备过程中使用的蛋白酶相对应酶解蛋白质过程中的蛋白水解反应遵循特定和明确的裂解模式。然而酶解过程可能经常不完全尤其是在非常复杂的蛋白质混合物中因此经常会出现漏切。因此建议进行“半约束”搜索包括一到两次内部漏切即使预计蛋白酶解过程是完全的。PTMs 搜索 应向搜索引擎提供样本中的所有预期修饰以减少假阳性匹配的可能。①固定修饰不会导致搜索空间和时间的扩大因为它总是应用于所有发生修饰的残基。②对于可变修饰会生成并计算有修饰和无修饰的理论肽段加上修饰间的组合大大扩展了图谱的搜索空间。因此在以数据库为中心的搜索中可变修饰的数量是有限制的。搜索多种修饰包括频率较低的修饰的一种更有效的方法是首先搜索少量可变修饰可能是频率较高和含量较多的修饰然后再进行第二次容错搜索以鉴定更多带有组合 PTM 的肽段。FDR 阈值 目标-诱饵搜索策略是一种估算 FDR 的方法。在该方法中诱饵命中数被用来估算虚假目标命中数。要成功执行 TDS用户应确认目标数据库和诱饵数据库的大小相同并且错误命中在两个数据库中分布均匀。通过调整 PSM 分数阈值可以在 FDR 和灵敏度之间找到一个平衡点。不同的搜索引擎具有不同的评分函数其权衡效率也大相径庭。对于大多数使用高质量参考蛋白进行的常规数据库搜索而言在 PSM、肽段和蛋白质水平上最大 1%的 FDR 是可以接受的。 常见方法Masto, 基于谱图库的搜索 基本流程DIA中一张二级谱图理论上包含多种肽段母离子的碎片离子。常先使用DDA模式构建一个谱图库通过比对谱图库完成肽段鉴定。再对碎片离子构建XIC并计算峰面积。接着根据碎片离子峰面积依次推断肽段峰面积和蛋白峰面积。 从头测序 机器学习方法 混合搜索引擎使用参考蛋白序列通过容错搜索鉴定潜在突变。 质控/过滤PSM/peptide/protein 周文婧等. 蛋白质组学肽段鉴定可信度评价方法 数据库不完整单核苷酸突变酶切位点、电荷、修饰类型、修饰位点的错误判断以及同位素峰的误匹配都可能造成错误鉴定因而得到质谱数据的初步解析结果后需要对谱图和肽段层次的解析结果进行质量控制即控制解析结果的错误率。 基于阈值的评价方法基于贝叶斯公式的方法目标-诱饵库方法target-decoy approachTDA ①人类蛋白质组计划HPP要求质谱分析中谱图、肽段和蛋白质3个层面的FDR均不能超过1%。 ②从肽段推断到蛋白质后蛋白质层面的错误率积累造成蛋白质层面的FDR较高是肽段层面的数倍或数十倍 。 ③TDA存在两个局限。一是该方法估计的准确度有待考究。二是该方法不能对单个鉴定结果的可信度进行评价。非TDA方法 质谱组学重难点/潜在的研究方向 校正质量偏移 分析物在 m/z 轴上的检测存在系统误差和随机误差。系统误差通常可通过常规的机器校准来缓解即使用质谱处理已知质量的分析物以创建一个模型用于对偏移进行内插。然而校准的效率随着时间的推移而降低。此外有些仪器在正常实验中注入加标标准品进行内部校准有助于克服空间电荷效应、电场、峰值强度和温度的时间效应。由于额外成本和抑制影响内部标准是不可取的。为了提供内部校准的质量精度同时具有更好的一致性和更低的成本人们提出了计算质量校准技术。 对应Correspondence 对应即对重复样本中同一分析物的重复信号的记录是许多 MS 实验中的一个关键问题在这些实验中需要对相似样本的多个run进行相互比较。目前存在的问题是用户参数过多、未知的模型行为、运行时间过长以及缺乏方法间的性能比较。 去噪 MS组学会产生噪声数据可能是虚假数据点也可能是数据点在RT、m/z或强度方面失真。MS组学中去噪是指去除虚假数据点。基线减法baseline subtraction是一种常用的方法其中强度低于自适应阈值的信号被视为噪声并被去除。 特征检测 特征检测泛指从质谱数据中提取各种信号元素如色谱数据中的isotopic envelope trace。 鉴定 质谱鉴定可能基于多种因素但前体质量分子质量和前体质量的碎片模式MS/MS是最常见的鉴定方法。这些谱图信息为大多数生物分子提供了独一无二的指纹然而低质量的谱图会造成假阳性和假阴性。虽然改进质谱技术能提高谱图质量但改进谱图搜索算法以及采用新的鉴定输入也能使鉴定更有把握。 预测保留时间 保留时间是指分析物被色谱延迟的时间。保留时间与分析物的理化特征相关因此可为鉴定提供另一个因素。由于实验参数的变化仪器间的保留时间差异很大因此需要保留时间归一化以及预测。 质量方差校正 质量方差即分析物的理论质量与实验观测质量之间的差异是一个尚未解决的问题。一种校正质量方差的方法是利用各分析物元素的权重来预测不可缺乏信号的 m/z 位置从而识别样品中理论质量的系统偏差。类似的方法还有通过快速傅立叶变换拟合正弦曲线来模拟差距。 动态范围抑制效应建模 动态范围dynamic range描述了在共洗脱分析物强度较高的情况下可检测信号的最小强度。所有质谱仪都有动态范围限制。目前的技术水平为 10^3 ~ 10^4 意味着在给定的 RT 条件下如果一种分析物的强度为1.3 × 10^5则强度小于 1.3 × 10^2 的任何分析物都不会被检测到。 碎片离子强度 由于 MS/MS 采集不仅能捕获目标分析物还能捕获周围的母离子而且由于碎裂并非完美的过程因此碎片离子强度并不像期望的那样准确。已经提出了几种机器学习方法来进行更准确的片段鉴定然而这仍是一个有待解决的问题。 肽从头测序 从头测序是数据库比对的替代方法用于处理与数据库不匹配的多肽由突变、多态性、氨基酸修饰或数据库条目缺失引起。原始肽序列是根据 MS/MS 指纹和分析物的化学特性重建的。 去同位素Deisotoping 去同位素是将同一分析物在不同电荷状态下的多个实例还原成单一特征的过程通常是一个单同位素峰。这是必要的步骤因为数据库搜索的查询只包括单电荷特征 m/z 和可选RT。复杂样品中不同分析物的同位素envelope trace会重叠这增加了记录同一分析物不同电荷版本的复杂性需要进行解卷积。 解卷积 当两个同量异位的分析物洗脱时它们之间没有间隙就会出现 RT 重叠。当两个分析物在当前电荷状态下的 m/z 没有充分分开时会发生同位素envelope重叠。当两个分析物的特定离子过于相似而无法在 m/z 值上分辨时会发生离子重叠。在高分辨率仪器中所有 m/z 重叠的可能性都较小因为高分辨率仪器的 m/z 信号更窄分辨能力更强。通过样品制备和实验protocal设计将相似分子分离到不同的 RT 区域可以在一定程度上减少 RT 重叠。 减少参数 一般来说大多数算法都需要用户通过手动调整来优化大量参数这需要耗费大量时间。 2定量 重难点 质谱信号强度与分析物的数量有关但并不等同。影响这种差异的因素包括 电离效率并非样品中的所有分析物都能被离子化。酶消化效率当使用酶如胰蛋白酶将蛋白质消化成肽时并非所有蛋白质都会被完全裂解。这会导致信号丰度低于预期因为真实丰度会被完整的蛋白质未被离子化因此无法检测到和未完全消化的蛋白质检测到的 m/z 与预期的肽成分不同所削弱。离子抑制当在给定时间内进入的分析物数量超过电离机器的电离能力时只有部分分析物带电。 对这些效应的精确建模将提高对样品中分析物数量的估计。 目前定量方法一般分为三种无标谱图计数法、稳定同位素的定量法和基于母离子信号强度的无标定量法。 谱图计数法一种利用肽信号建立蛋白质计数的方法。每当 MS/MS 鉴定出一种肽时含有肽的每种蛋白质的计数就会增加。尽管该方法非常普遍但其准确性依赖于 MS/MS 采集率非常低而且容易出现假阳性因为含有每个检测到肽段的所有蛋白质都被认为是存在的而实际上只有一个蛋白质是存在的。稳定同位素标记方法SILACICATiTRAQTMT也有很大的局限性。除了成本和样品制备的复杂性几乎所有方法都会增加共结合分析物的数量从而对处理样品的复杂性造成瓶颈。更重要的是由于该方法先验地靶向一小部分特定的分析物因此对于样品组成未知的数据驱动型发现而言从时间和经济的角度考虑这些方法并不实用。 3预处理 鉴定后质控/过滤 以maxquant软件输出的proteinGroups.txt结果为例参考LFQ-Analyst教程 去除潜在的污染序列contaminant去除反序列Reverse去除仅由位点鉴定identified by site的蛋白去除由一个Razor或unique肽定量的蛋白去除缺失值比例较高的蛋白 缺失值填补 缺失值填补 数据转换 对数转换 2.3 下游分析 差异表达富集分析功能注释蛋白互作 参考 附录 一些厂家质谱仪的性能参数 仪器名检测通量检测深度Orbitrap Astral (2023)24 PSD ~ 180 PSD12000 groups ~ 8000 groupsPSD日检测样本量。