当前位置: 首页 > news >正文

网站建设实训主要收获及体会删除wordpress搜索缓存

网站建设实训主要收获及体会,删除wordpress搜索缓存,合肥做企业建网站那家好,公司名称大全两个字基因组挖掘指导天然药物分子的发现 摘要 天然产物是临床药物的主要来源#xff0c;也是新药研发过程中先导化合物结构设计和优化的灵感源泉。但传统策略天然药源分子的发现却遭遇了瓶颈#xff0c;新颖天然产物的数量逐渐无法满足现代药物开发的需求和应对全球多药耐药的威胁… 基因组挖掘指导天然药物分子的发现 摘要 天然产物是临床药物的主要来源也是新药研发过程中先导化合物结构设计和优化的灵感源泉。但传统策略天然药源分子的发现却遭遇了瓶颈新颖天然产物的数量逐渐无法满足现代药物开发的需求和应对全球多药耐药的威胁。随着测序技术的快速迭代生物学的研究进入了基因组时代基因组挖掘指导天然产物定向发现的策略得以确立成功摆脱了传统天然产物发现策略对于生物样本生物量的依赖极大提高了活性天然产物发现的特异性和成功率。本文简述了基因组挖掘以及相关数据库和生物信息学工具的发展详细介绍了包括基于核心基因或后修饰基因的经典挖掘手段自抗性机制、进化理论指导的基因组挖掘和人工智能在活性天然产物发现中的具体应用并对基因组挖掘在药物发现和多学科交叉领域的影响和发展进行了展望。基因组信息中蕴藏着无可估量的化学潜能促进基因组挖掘与其他学科间的交叉融合提升对遗传信息的处理和分析能力增强下游基因簇表达通量和产物结构预测能力可实现天然小分子高通量、高新颖性和高效率的发现为开发具有自主知识产权的新药物、新化学品和新型酶催化剂服务。 有机生命体产生的化学物质不仅包括核酸、蛋白质等初级代谢中的生物大分子也包含大量结构类型多样的小分子次级代谢物又称天然产物1。这些天然产物及其衍生物是临床药物的主要来源也是新药研发过程中先导化合物结构设计和优化的灵感源泉。为了获得潜在的天然药源分子研究者们建立了一套直接从生物样本出发以活性或特殊的理化性质为指导的传统天然产物发现策略这一策略在20世纪取得了巨大成功发现了一大批至今仍在临床使用的药物2-4如开创抗生素治疗新纪元的青霉素5、他汀类降脂药物洛伐他汀6、抗癌药物紫杉醇7和抗疟药物青蒿素8等。然而由于对样本生物量的高度依赖该策略的研究对象受限于易获得、易培养的生命体。同时天然产物在生物样本中的含量差异较大低丰度的分子无法满足结构解析和活性研究的需求而高丰度的化合物又常常被重复发现这些弊端造成了新颖天然产物发现的步伐日趋放缓逐渐无法满足现代药物的开发和应对多重耐药威胁的需求9。 随着分子生物学的快速发展大量微生物的遗传操作体系逐步成熟尤其是天然产物丰富的链霉菌Streptomyces10研究者们开始探寻天然产物合成的遗传信息。1984年David Hopwood课题组11将天蓝色链霉菌S.coelicolor中一段推测可能负责放线紫红素Actinorhodin合成的DNA导入微小链霉菌S.parvulus后成功实现了放线紫红素的异源生产使得放线紫红素成为了第一个与基因组信息关联起来的微生物天然产物。进入新世纪后测序技术快速迭代获取基因组信息的成本大幅降低天然产物的生物合成研究迎来了基因组时代。随着大量天然产物生物合成过程的解析研究者们发现微生物中负责天然产物生物合成的基因在基因组上的邻近区域聚集成簇形成了天然产物的生物合成基因簇biosynthetic gene clusterBGC负责相同骨架结构合成的基因常常十分相似非核糖体肽合成酶nonribosomal peptide synthetaseNRPS和Ⅰ型聚酮合酶polyketide synthasePKS的结构域排列顺序与产物的合成过程一一对应12-13。这些发现为逐步建立基因序列与天然产物结构之间的直接联系提供了理论依据使得从基因组水平预测生物样本的化学潜能成为了可能1。由此直接从遗传信息入手定位天然产物的BGC通过对基因簇的原位激活或异源表达进而实现天然产物定向发现的策略得以确立称之为天然产物的基因组挖掘14。该策略摆脱了传统方法对样本生物量的依赖显著简化了分离纯化过程极大提高了天然产物发现的特异性和成功率。随着生物合成研究在真菌和动植物领域的深入高等生命体来源的天然产物的生物合成过程也在逐渐明晰这些合成路径的解析也为基因组挖掘在高等生命体中的应用铺平了道路。 更重要的是通过对公共数据中细菌基因组和宏基因组的分析研究者发现了数目和多样性极为庞大的天然产物BGC其种类远超现阶段已经分离鉴定的天然产物数量这充分暗示了有机生命体合成新颖天然产物的巨大潜能仍待开发15这为基因组挖掘提供了广阔的空间和巨大的机遇。本文首先简述了生物信息数据库和工具算法对基因组挖掘的促进作用然后详细介绍了基因组挖掘发现活性天然产物的经典案例并对基因组挖掘的后续发展方向、药物开发和学科间的交互影响等进行了展望。 1 基因组挖掘的数据基础和工具算法 21世纪初针对天蓝色链霉菌16和阿维链霉菌S.avermitilis17最早完成了全基因组测序随后其他放线菌的全基因组陆续得到公布研究者们发现放线菌基因组中存在着大量产物未知的BGC其多样性远高于已发现的天然产物类型这体现了基因组数据对于天然产物发现的重要意义14。随着测序技术的发展测序得到的DNA数据正呈现指数级的增长为了合理且高效地利用这些数据资源大量专业化的数据库和生物信息学工具也相继诞生进一步加速了天然产物基因组挖掘的发展。 1.1 基因组挖掘的数据基础 测序技术的发展是基因组数据增长的主要支撑自第一代测序技术使用的双脱氧链终止法18诞生以来测序技术已历经三代。由于双脱氧链终止法在人类基因组计划19实施中的低效表现直接催生了第二代的高通量测序技术20包括了高通量焦磷酸测序法和Illumina染色测序法。为了弥补第二代测序技术读长较短的缺陷第三代单分子测序技术21应运而生使得测序读长达到了1万个碱基对以上这对于宏基因组测序的后续组装十分有利。随着测序技术的迭代测序成本逐年递减测序效率却逐年递增形成的大规模基因组数据又催生了各种类型数据库的建立和完善。这些数据库涵盖了核酸序列数据库、蛋白质序列数据库和天然产物生物合成基因簇数据库等。 美国国家生物信息中心NCBIhttps//www.ncbi.nlm.nih.gov的GenBank数据库22是全球最大的核酸序列数据库包含近26万个物种的核酸序列信息。基于相对冗余的GenBank数据NCBI选取测序质量更加优异和注释信息更为全面的条目组建了RefSeq数据库23该数据库非冗余、广泛交联和注释信息丰富的特点正逐渐受到研究者们的青睐。其他的核酸数据库还包括由美国能源部联合基因组研究中心JGIhttps//genome.jgi.doe.gov/portal创立的综合性微生物基因组数据库IMG/M24。 值得注意的是大量公布的宏基因组测序数据拓宽了天然产物基因组挖掘的数据来源使得天然产物的发现模式不再局限于纯培养的微生物。截至2023年NCBI的assembly数据库25收录的组装后宏基因组达到了2145个涵盖了水体、土壤、动物消化道等众多环境样本。作为人类基因组计划的延伸人类微生物组计划已进入第2阶段26-27产生的宏基因组数据为研究微生物群对人类健康和疾病的影响发挥了重要的作用同时也为天然产物的基因组挖掘提供了新的数据来源。基于人类微生物组的数据Michael A. Fischbach团队从中发现了抗革兰氏阳性菌的活性硫肽类分子lactocillin28和多种具有蛋白酶抑制活性的二肽醛类化合物29。Shinichi Sunagawa等30通过1038个海水样本的宏基因组测序结合可培养海洋微生物基因组数据系统研究了海洋中微生物BGC的多样性和新颖性揭示了大约40 000个潜在的新颖BGC并搭建了一个交互式的数据分享平台microbiomics-oceanhttps//microbiomics.io/ocean/。这些研究展示了宏基因组数据在挖掘不可培养微生物来源的天然活性分子方面的潜能。 目前最大的蛋白数据库是Uniprothttps//www.uniprot.org的UniprotKB蛋白质序列数据库该库收录了超过57万个经文献核实的具有功能注释的蛋白序列条目和超过2亿条普通序列31。基于蛋白质序列数据库又形成了包括Pfam32-33、InterPro34等蛋白质家族数据库这些数据库依据功能和序列特征将蛋白质分为不同的家族并记录同一家族的序列保守性这些信息极大促进了蛋白质功能预测工具的开发和基因组挖掘过程中基因功能的预测。 随着越来越多的天然产物生物合成基因簇被报道天然产物生物合成基因簇数据库应运而生。其中由150位科学家联合创立的生物合成基因簇的最小信息数据库MIBiGhttps//mibig.secondarymetabolites.org35截止到2023年10月较为全面地收录了2502条已鉴定的天然产物生物合成基因簇使之成为开发基因组挖掘工具的重要数据基础该数据库也为生物合成基因簇及其编码产物的信息收录建立了参考标准。IMG-ABC天然产物生物合成基因簇数据库https//img.jgi.doe.gov/cgi-bin/abc-public/main.cgi基于JGI-IMG/M平台成为目前工具最为齐全的数据库囊括了已知主要来源于MIBiG和antiSMASH v5预测的共411 407条生物合成基因簇。作为应用最为广泛的次级代谢产物基因簇预测工具antiSMASH其开发者基于antiSMASH软件36对RefSeq核酸数据库中微生物天然产物基因簇的预测组建了基因簇数据库antiSMASH-DBhttps//antismash-db.secondarymetabolites.org2023年9月发布的第四版中已包含了231 534条次级代谢产物生物合成基因簇37。 1.2 用于基因组挖掘的经典算法与工具 天然产物基因组挖掘的核心在于有效识别和区分BGC本质上是对基因或蛋白质序列的分析。经典的用于生物序列比对和聚类的算法在基因组挖掘中均有应用如基本局部相似性比对工具basic local alignment search toolBLAST38该算法可以实现探针序列和多序列数据库的比对在最短的时间内寻找最优的匹配序列从而发现探针序列的同源物。该算法目前是NCBI网站指定的线上搜索工具目前已衍生出了PSI-BLAST、PHI-BLAST和DELTA-BLAST等功能更加丰富的工具39。另一个较为常用的比对算法是隐马尔可夫模型hidden Markov modelHMM该算法可以对相似性的蛋白质序列数据集进行分析形成序列位置上20种氨基酸残基出现频率的矩阵模型该模型体现的是多序列的保守信息如蛋白质的结构域domain利用该模型作为探针可以更加准确和全面地发现同类蛋白质避免单一条目检索时带来的亲缘物种的偏好性和非保守区域的无效匹配。聚类算法中较为突出的是CD-HITCluster Database at High Identity with Tolerance40该算法的核心是通过组建“最长序列优先”列表来删除超过某个一致性阈值的序列以减少冗余或高度相似序列生成非冗余的输出结果展现与目的序列密切相关的蛋白质家族的成员。 此外特异性地用于天然产物生物合成基因簇预测和注释的软件在过去的20年间层出不穷常用的分析工具包括ClustScan41、CLUSEAN42、NP.searcher43、antiSMASH36和PRISM44等。ClustScan可快速、半自动地对编码模块化生物合成酶的DNA序列进行注释包括聚酮合酶PKS、非核糖体肽合酶NRPS和PKS-NRPS杂合酶同时也能预测NRPS和PKS产物的化学结构41。antiSMASH是目前使用最广泛的基因组挖掘工具可用于古菌、细菌、真菌fungiSMASH和植物plantiSMASH基因组中天然产物生物合成基因簇的快速识别、注释和分析。最新版本的antiSMASH 736将基因簇的类型拓展至81种并且对产物结构预测、酶装配线可视化和放线菌转录调控因子结合位点预测等功能进行了优化和改进。PRISM除了有类似antiSMASH的基因簇预测和天然产物结构预测的功能外还通过引入深度学习算法来进行产物及活性预测将基因簇和天然产物潜在的生物学功能融合在一起44。 然而这些工具对于编码核糖体翻译后修饰肽RiPPs基因簇的识别仍然有所欠缺主要是由于前体肽序列过短且缺乏保守特征从而难以准确地定位和预测。为了解决这一问题许多专门针对RiPPs的基因簇挖掘和识别工具相继问世。RODEO45https//www.ripp.rodeo是首个结合了HMM分析启发式评估和机器学习来预测前体肽的基因组挖掘工具目前支持对套索肽类、Ⅰ型羊毛硫肽和硫肽类RiPPs的基因组挖掘和分析。RRE-Finder46https//github.com/Alexamk/RREFinder是一种通过定位RiPP前体识别元件RiPP precursor recognition elementRRE的基因组挖掘工具许多Ripps的后修饰酶依赖于RRE与前导肽的结合来发挥对核心肽的修饰作用。RRE-Finder有两种使用模式在精准模式下能够检索到所有已表征的包含RRE的RiPPs类别在探索模式下可以从UniProtKB蛋白数据库中调取到大量未表征的高可信度RRE蛋白序列从而定位到新颖RiPPs的生物合成基因簇。DeepRiPP47http//deepripp.magarveylab.ca使用深度学习算法从基因组中预测RiPPs等短肽序列。在无法获得完整基因簇的情况下DeepRiPP也能仅通过短肽序列就判断出该短肽是否是RiPPs家族的前体肽并根据已知RiPPs后修饰酶的特性预测出其结构结合代谢组的质谱数据DeepRiPP还能在代谢组中精确定位出RiPPs的信号。 同样为了克服了宏基因组等测序信息不完整的缺陷Sugimoto等48开发了利用分段式隐马尔可夫算法spHMM的MetaBGC不依赖于测序数据的组装从测序数据可以直接获得天然产物合成基因簇信息。MetaBGC首先将保守的天然产物合成酶序列打碎成30个左右的氨基酸片段来模拟基因测序的片段然后对这些片段分别构建pHMM并进行评估。接着作者利用评分高的pHMM从宏基因组数据中直接找出天然产物生物合成基因。这种方法使得从碎片化严重的宏基因组数据中进行基因组挖掘变得简单而迅速。 2 针对生物合成核心基因的基因组挖掘 天然产物按化学结构和生源途径可简单划分为聚酮类、多肽类、萜类、生物碱类、嘌呤和嘧啶类以及苯丙素类等。各类别结构骨架的高度相似性暗示了同类别天然产物具有保守的生物合成逻辑负责编码骨架形成的核心酶具有一定的保守性。因此可以通过定位天然产物骨架的合成基因来实现对特定类别天然产物基因簇的发现结合基因簇中其他基因的比较分析从而挖掘出同一类别但结构更加丰富的天然产物为药物的开发提供结构更加多样的先导化合物。 2.1 烯二炔类天然产物的基因组挖掘 烯二炔类天然产物因其独特的分子结构和超强的抗肿瘤活性而备受关注其核心结构是一个由双键偶联两个炔键构成的烯二炔依据其核心烯二炔环的大小分为九元环和十元环烯二炔两种类型。烯二炔活性基团可通过伯格曼芳构化反应产生的苯双自由基作用于DNA小沟区促使DNA链间交联或双链断裂从而发挥抗肿瘤活性49。目前烯二炔类化合物卡奇霉素Calicheamicin已开发成为FDA批准上市的抗体偶联药物antibody-drug conjugateADC而其他的烯二炔类天然产物仍然是后续ADC开发潜在的有效载荷50。基于已知报道的烯二炔类天然产物基因簇该类天然产物的生物合成需要5个保守的聚酮合酶基因E3/E4/E5/E/E10图1。Shen Ben课题组51多年来一直致力于烯二炔类天然产物的发现和生物合成研究他们通过分析Genbank数据库中4889个细菌基因组信息发现了61个基因簇中含有上述合成烯二炔骨架结构特征的保守基因盒其中10条来源于已报道的烯二炔类天然产物生物合成基因簇。为了快速发现潜在的同源基因簇该团队52采用前期开发的高通量实时PCR技术即预先建立未测序的细菌基因组文库对负责特定天然产物合成的关键且保守的基因设计简并引物以基因组文库为模板进行PCR然后使用DNA荧光燃料SYBR Green Ⅰ对PCR产物进行熔解曲线分析以得到的Tm值为指标判断菌株基因组中是否含有该关键基因的同源物再结合进一步的测序从而高效地发现大量特定天然产物的同源基因簇。基于此该团队针对烯二炔聚酮合酶E5/E或者E/E10基因设计简并引物通过高通量的实时PCR技术从3400株放线菌中筛选出81株潜在的烯二炔产生菌株并对其中的31株菌进行全基因组测序确证了该方法的可靠性。最终他们53发现了C-1027的高产菌株可满足后续在化学、生物学和临床等领域的研究以及一类新颖的具有强效广谱抗肿瘤活性的烯二炔天然产物天赐霉素Tiancimycin A图1。 图1 图1   烯二炔类天然产物生物合成基因簇及代表性化合物 2.2 脂肽类天然产物的基因组挖掘 脂肽是一大类具有生物活性的微生物天然产物结构中通常包含一个亲水性环肽以及N端不同长度或官能团化的疏水性脂肪链这种两亲性使脂肽高度功能化比如作为生物表面活性剂同时也赋予其不同的生态角色包括物种间的防御、竞争和共生等54-55。目前报道的大多数脂肽都是非核糖体来源由多结构域的大型非核糖体肽合酶以装配线的形式线上合成。经典的最小NRPS模块包含识别氨基酸底物的腺苷化A结构域催化肽键形成的缩合C结构域和挂载延伸肽链的硫酯T结构域。这些结构域以及在链延伸过程中可能存在的一些差向异构酶结构域或者甲基转移酶结构域均可通过生物信息学工具进行预测。基于此Sean F. Brady课题组56近几年尝试利用基因组信息来预测非核糖体肽结构建立了合成-生物信息天然产物synthetic-bioinformatic natural productssyn-BNPs发现新方法。 在最近的工作中研究者系统分析了10 858条细菌基因组信息从中找到35条可能编码多黏菌素类似物的非核糖体肽生物合成基因簇。多黏菌素为脂肽类天然产物曾被誉为抵御革兰氏阴性菌的最后一道防线而如今也面临肆虐全球的多黏菌素抗性基因的威胁57-58。研究者认为自然进化产生多黏菌素同系物可能是对抗自然耐药性的一种策略也极有可能抵御临床上的耐药性。研究者以腺苷化结构域信息为指导选择了其中与多黏菌素结构差异最大的生物合成基因簇不使用微生物的培养和基因簇的激活而是利用固相多肽合成技术化学合成了化合物Macolacin图2发现其对临床上常见的几种耐多药包括多黏菌素细菌均具有高效的抑制活性59。syn-BNP方法利用生物信息学算法从持续增长的海量微生物基因组中通过化学-酶合成方法快速获得数量庞大的syn-BNP化合物库从中鉴定新的生物活性小分子为针对耐药病原菌的抗生素发现开辟了一条资源获取新途径60-62。 图2 图2   从细菌天然基因簇的组成中获得启示发现抗耐药株的新型多黏菌素类分子Macolacin59 2.3 膦酸盐类天然产物的基因组挖掘 膦酸盐类化合物是一类比较罕见的含碳磷键的天然产物其能够模拟生物分子的磷酸酯或碳酸基团影响细胞的代谢过程和信号转导从而表现出抗菌、抗癌和除草的活性63。并且不同于磷酸酯中易水解的氧磷键碳磷键的高度稳定性使这类化合物同时具有抵抗化学和酶降解的能力。目前已经有许多实现商业化的膦酸盐药物包括临床上应用于细菌性膀胱炎的广谱抗生素磷霉素Fosfomycin、市售除草剂的主要成分草铵膦Glufosinate、治疗与艾滋病相关的巨细胞病毒和疱疹病毒感染的膦甲酸钠Hosphonoformate64等。膦酸盐类天然产物水溶性高无法提取到有机溶剂中且大多数为短肽没有紫外吸收想通过传统的天然产物发现策略获得膦酸盐无异于大海捞针。针对膦酸盐天然产物的生物合成研究表明其生物合成过程均起始于磷酸烯醇式丙酮酸变位酶PepM催化磷酸烯醇式丙酮酸PEP转变为磷酸丙酮酸PnPy随后再经下游的酶催化产生后续的生物合成中间体分流至不同类型膦酸盐天然产物的生物合成路径中65-66。因此将pepM作为基因簇标志物应用于膦酸盐类天然产物基因组挖掘成为了以生物信息学为导向的该类天然产物发现的新策略。2015年Wilfred van der Donk和William W. Metcalf课题组67利用该方法设计pepM的简并引物通过大规模高通量聚合酶链反应PCR在1万株放线菌基因组中鉴定出403株可能的膦酸盐产生菌株。随后通过基因组测序确认其中278株包含了膦酸盐类天然产物的生物合成基因簇并通过PepM的序列相似性网络分析和系统发育分析从中发现了5个潜在的新类别基因簇结合31P NMR磷谱的检测至少有45株产生了膦酸盐类天然产物图3。凭借该策略该团队最终发现了11种新颖的膦酸盐类天然产物。 图3 图3   从放线菌基因组中挖掘活性膦酸盐类天然产物 2.4 海洋动物来源的萜类化合物的基因组挖掘 萜类化合物是最丰富的天然产物该类化合物主要来源于植物和微生物的次级代谢并挖掘了许多重要临床药物如紫杉醇和青蒿素等。萜类合酶terpene cyclaseTC是萜类生物合成过程中塑造萜类骨架的核心酶常作为萜类挖掘的主要切入点。依据形成碳正离子方式的不同经典的萜类合酶可以分为两种类型Ⅰ型萜类合酶的序列中含有保守的DDxxD基序和NSE/DTE基序以异戊烯基焦磷酸前体上焦磷酸部分的离去而触发碳正离子的生成。Ⅱ型萜类合酶的序列中含有保守的DxDD基序以质子化异戊烯基前体中烯键或环氧环来触发碳正离子的生成68-69。由于目前已知的萜类合酶在一级序列的相似性并不高难以使用单一的特定序列来广泛发掘其他未知的萜类合酶针对微生物来源的萜类合酶的基因组挖掘均采用了HMM算法生成的模型来进行挖掘Haruo Ikeda团队70将HMM和系统发育分析结合戈惠明团队71将HMM和序列相似性网络分析结合均发现了大量细菌来源的萜类合酶及其产物。随着高等生物基因组和转录组数据的逐渐释放针对动植物来源萜类的基因组挖掘也已取得新的进展。 八放珊瑚是萜类化合物的一个重要来源已分离出超过4000种倍半萜和二萜类化合物占已报道海洋天然产物的12%以上72。大多数海洋无脊椎动物依赖于共生菌产生的天然产物来进行捕食和防卫而未发现八放珊瑚拥有丰富的共生微生物和藻类73。Bradley S. Moore课题组74对已表征的细菌和真菌Ⅰ型萜类合酶序列构建HMM随后在已测序的八放珊瑚Dendronephthagigantea中进行检索得到了一些得分较低的序列利用这些序列对HMM进行优化后对已公开的八放珊瑚基因组和转录组重新进行检索。结合系统发育分析发现这些挖掘到的条目与植物和微生物来源的已知的萜类合酶不同在进化树上单独成为一支。尽管如此但所有珊瑚来源的萜类合酶序列都具有微生物Ⅰ型萜类合酶的保守基序。研究者利用大肠杆菌对这些八放珊瑚来源的萜类合酶进行异源表达共获得了8个萜类骨架产物图4并通过体外酶反应验证了它们的功能证明了从八放珊瑚中分离得到的许多萜类化合物是珊瑚自身编码的酶催化产物而不是来源于共生的藻类或微生物。同期Eric W. Schmidt课题组75同样采用HMM检索的方法在八放珊瑚E.caribaeorum中挖掘到多个萜类合酶并表征了两个能形成eunicellane型二萜化合物关键前体的萜类合酶。两个研究团队都在这些珊瑚来源的萜类合酶基因附近发现了编码细胞色素P450酶、脱水酶和短链脱氢酶等的后修饰基因这些基因可能形成了萜类的合成基因簇佐证了珊瑚自身产生多样性萜类化合物的能力也是探索新型珊瑚来源萜类天然产物的基因基础。 图4 图4   针对萜类合酶的基因组挖掘发现八放珊瑚来源的萜类74 3 针对特定药效团的基因组挖掘 天然产物的结构中常包含一些对发挥生物学功能有重要影响的化学基团称为药效团。药效团可能是一些亲电或亲核基团直接与靶标蛋白共价结合影响或破坏蛋白的功能或是合适的大小或电负性促使该部分基团以非共价的形式有利占据蛋白的活性空腔使蛋白无法发挥正常功能76-77。这些药效团往往由后修饰酶催化形成包括在天然产物骨架结构中进行氧化、糖基化、卤化、硝化等特定类型的修饰亦可催化天然产物骨架的重排、芳构化、大环化等进一步拓展了天然产物结构的多样性和复杂性78-82。因此以催化形成特定药效团的后修饰酶作为探针展开基因组挖掘有助于发现活性更优的新颖天然产物而且以药效团为出发点而不是骨架合成基因为挖掘探针可以有效突破天然产物类别的限制。 3.1 卤代天然产物的基因组挖掘 卤素基团是众多临床药物的药效团化合物中卤素取代基可通过位阻效应、极性效应或与蛋白受体形成卤键来影响化合物的生物活性83。例如人体所分泌的甲状腺激素结构上碘的数量是激素活性的重要因素84糖肽类抗生素万古霉素当骨架上两个氯原子中任何一个缺失都会导致抗菌活性的大幅下降85抗肿瘤海洋天然产物Salinosporamide A依赖于氯原子来发挥蛋白酶体的共价抑制活性86。生物体内的卤化过程由卤化酶所负责其作用机制与生物氧化类似主要包含有亲电性的血红素依赖性卤化酶、黄素依赖性卤化酶和钒依赖性卤化酶、自由基机理的α-KG依赖性卤化酶以及亲核性的SAM依赖性的氟化酶87。 为了更高效地从庞大的基因组序列中发现含卤天然产物Pelzer课题组88以黄素依赖性卤化酶的保守序列为探针对550株随机选择的放线菌进行PCR筛选从中鉴定出103条可能编码卤化酶的基因结合系统发育分析和质谱检测分离出卤化的Ⅱ型聚酮化合物CBS40其对多种革兰氏阳性菌都表现出强效的抑制活性。Xie Yunying课题组89采用类似的方法以黄素依赖性卤化酶GedL为探针在本地真菌数据库中进行tBLASTp分析抽取周边基因信息利用antiSMASH进行注释找到一条未被表征的含卤化酶的生物合成基因簇通过发酵培养最终分离得到含卤天然产物Pestalachlorides 1a/1b和2a/2b这两对阻转异构体对一些临床上的耐药菌株均有不同程度的抑制活性图5a。 图5 图5   卤代天然产物的基因组挖掘 虽然氟在自然界的丰度很高但生物体内的氟化并不常见。目前只有一类SAM依赖性氟化酶被报道直接催化CF键的形成图5b。David O′Hagan课题组90利用BLAST工具从三株不同种属放线菌中定位到与已报道的来自卡特兰链霉菌S.cattleya的氟化酶基因flA高度同源的3个基因并通过体外酶学实验和晶体学研究表征它们的功能为含氟天然产物的发现和有机氟化物的生物转化提供了新的思路。 3.2 含特殊元素天然产物的基因组挖掘 硒是一种非金属元素是动物体必需的微量元素和植物有益的营养元素91-92。目前可通过硒代半胱氨酸和2-硒尿苷将硒引入蛋白质和核酸中具体过程是硒磷酸合成酶SelD对硒化氢进行磷酸化生成硒磷酸SeP作为硒代半胱氨酸合酶SelA和硒尿苷合酶SelU的底物将其引入到生物大分子中93-95而将硒特异性引入有机小分子的生化过程尚未报道。鉴于SeP是常见的硒供体Mohammad R. Seyedsayamdost研究团队92推测含硒小分子可能遵循类似的生物合成逻辑由于微生物中负责特定天然产物合成的基因常聚集成簇以selD为切入点在该基因的周边有可能存在与有机硒化物合成相关的基因从而有可能从头发现一条有机硒化物的合成通路。基于这一假说研究者展开了针对有机小分子硒化物的基因组挖掘。首先通过在NCBI的保守蛋白结构域家族CDD中调取SelD家族COG0709的所有序列使用CD-HIT工具进行聚类分析以去除冗余序列再通过E-Direct工具获取selD基因周边4000 bp的区域为了进一步提升周边基因与selD的相关性研究者重点关注那些与selD同向且具有重叠区域的共定位基因除了已表征的与硒代大分子生物合成和硒代谢或转运相关的基因外一个编码功能尚不明晰的tigr04348家族糖基转移酶的基因引起了作者的关注。为了进一步获取更多的信息研究人员继续寻找与selD和tigr04348两个基因共定位的第3个基因从中发现了一个编码EgtB蛋白的同源基因而EgtB负责催化麦角硫因生物合成中CS键形成96。827个不同的细菌基因组中均保守地含有这3个紧邻排布的基因组合表明其可能编码了一个全新而广泛存在的含硒代谢产物的生物合成途径。随后研究人员通过代谢组学分析从两株细菌的代谢物中鉴定到了麦角硫因ergothioneine和麦角硒因selenoneineSEN后续的体外酶学表征揭示了无机硒元素掺入有机天然产物之中的合成路径图6这一案例充分展示了基因组挖掘策略可以实现全新类型天然产物及其生物合成途径的从头发现是近年来基因组挖掘研究中的标志性成果。 图6 图6   通过基因组挖掘发现新型硒代天然产物 砷元素广泛存在于自然界中无机砷俗称“砒霜”通常有剧毒而含有CAs键的有机砷类化合物毒性较低并且可以作为化疗药物的候选药物97。目前虽然已报道了300多个有机砷类天然产物但对它们的生物合成认识依旧有限大多可能是由AsⅢ S-adenosylmethionineSAM甲基转移酶连续催化甲基化而形成终产物97-98。Hiroyasu Onaka课题组99从模式放线菌Streptomyceslividans A32中鉴定了一个砷类次级代谢产物Bisenarsan在阐明生物合成途径过程中发现其中间体具有抗菌活性并确定了其中参与CAs键形成的磷酸甘油酸变位酶BsnN而非其他有机砷生物合成过程中的由甲基转移酶催化砷的烷基化。随后研究人员在RefSeq数据库中检索了100条同源基因进行系统发育分析结果表明BsnN同源蛋白能够在进化上与经典的磷酸甘油酸变位酶实现功能区分。并且BsnN同源蛋白集中分布于各种放线菌基因组上暗示了放线菌中蕴藏着产生砷类天然产物的巨大潜力可服务于后续通过基因组挖掘探索更多具有药用价值的有机砷类化合物。 3.3 含有N—N键天然产物的基因组挖掘 含有NN键的天然产物较为罕见但衍生出了许多复杂多样的官能团包括哌嗪酸、重氮基团、亚硝胺和二醇二氮等丰富的结构多样性赋予了这类天然产物多样的生物活性100比如作为DNA烷基化试剂的抗肿瘤药物链脲佐菌素Streptozotocin101具有MTAP缺陷肿瘤细胞抑制活性的丙氨菌素L-alanosine102和具有强效抗真菌活性的Kutzneride103等。 2017年Katherine S. Ryan课题组104在含有哌嗪酸结构单元的非核糖体肽Kutzneride生物合成过程中报道了首例以N-羟基鸟氨酸为底物催化NN键形成的血红素依赖酶KtzT并且发现ktzT同源基因在含有哌嗪酸合成砌块的天然产物生物合成基因簇中高度保守。随后Raymond J. Andersen等105就以KtzT为探针在NCBI数据库中定位到一条NRPS基因簇通过发酵培养结合1H/15N HSQC-TOCSY分析获得了含哌嗪酸的肽类天然产物Incarnatapeptin A和Incarnatapeptin B其中Incarnatapeptin B在体外对前列腺癌细胞具有抑制活性。为了充分开发未测序菌株的生物合成潜力Oh Dong-Chan研究团队106针对ktzT及其上游基因ktzI的保守区域设计了兼并引物对包含2020株细菌基因组的DNA文库进行PCR筛选鉴定出62株阳性菌株通过发酵培养最终分离表征了3个新颖的含哌嗪酸单元的天然产物其中Lenziamide A具有抗结肠癌活性图7a。 图7 图7   基因组挖掘含哌嗪酸和二醇二氮结构单元的天然产物 2019年Emily P. Balskus研究团队107在对含有亚硝胺结构片段的天然产物Streptozotocin进行生物合成研究过程中发现了一个以N-甲基精氨酸为底物催化氧化重排形成NN键的金属酶SznF。SznF是一个多结构域蛋白包括了NADPH依赖的氧化还原结构域和C端的cupin结构域分别行使对N-甲基精氨酸氧化和重排的催化功能。随后Christian Hertweck课题组108以cupin结构域同源蛋白GrbD为探针利用EFI-EST工具对可能含有亚硝胺结构单元的天然产物进行挖掘定位到37条潜在基因簇选取部分菌株进行发酵后从中分离鉴定出10个含有二醇二氮结构的嗜铁素类天然产物图7b。 3.4 rSAM介导的RiPPs类环肽天然产物的挖掘 自由基SAM酶rSAM利用4Fe-4S簇和S-腺苷甲硫氨酸SAM产生5-脱氧腺嘌呤核苷自由基dAdo•中间体从而诱发后续各种各样的自由基反应涉及天然产物生物合成、辅因子生物合成和蛋白质的翻译后修饰等生化过程109。对于核糖体翻译后修饰肽ribosomally synthesized and post-translationally modified peptidesRiPPs而言rSAM可催化线性的多肽前体中多种类型氨基酸之间的交联反应。 Sactipeptides是一类具有抗菌、溶血等生物活性的RiPPs天然产物其结构中CαS键的交联由rSAM催化。Douglas A. Mitchell课题组110从InterPro数据库中找到超过450 000条rSAM用已表征的rSAM序列为探针经PSI-BLAST四轮分析后选取约4600条rSAM序列进行相似性网络分析SSN。对其中处于不同聚类的3条基因簇进行产物鉴定分别得到新颖的具有生长抑制活性的CαS交联产物Huazacin、CβS交联产物Freyrasin和CγS交联产物Thermocellin。 2018年Seyedsayamdost研究团队111提出链球菌的RaS-RiPPs网络分析他们整合了2875株链球菌中所有由shp/rgg群体感应QS系统控制的包含rSAM的RiPPs基因簇利用前体肽序列构建SSN以底物特异序列来区分rSAM酶的潜在功能最终形成16个类群。截至2022年他们已对其中8个类群的rSAM酶的功能进行了挖掘和验证发现了W-K、C-N、R-Y、T-Q、C-G、C-S以及S-H的环化交联产物112-115图8。 图8 图8   RaS-RiPPs序列相似性网络和对应的交联产物111-115 已表征类群的rSAM酶催化形成的交联由红色标注 3.5 真菌RiPPs类环肽天然产物的挖掘 相较于细菌真菌来源RiPPs类环肽天然产物的挖掘却十分少见这主要受限于该类天然产物的发现和生物合成研究相对较少。目前真菌来源的RiPPs类环肽天然产物可以分为Cycloamanides、Borosins和Dikaritins三个家族116。Cycloamanides类是以酰胺键方式首尾环化的小环肽典型的代表是Cycloamanide B该类前体肽序列的N端含有较为保守的MSDIN序列一种保守的脯氨酰寡肽酶BPopB负责核心肽的释放和酰胺键形成实现其头尾大环化116图9。为了更多地挖掘这一类RiPPs天然产物研究者以前体肽中较为保守的N端和C端氨基酸序列为探针在不同种属的担子菌纲真菌的基因组中陆续发现了大量编码Cycloamanides类核糖体肽的基因簇117其中Jonathan D. Walton团队118利用LC-MS/MS在剧毒真菌死亡帽Amanitaphalloides代谢物中发现了该家族的两个新成员Cycloamanide E和Cycloamanide F。Borosins家族成员的生成依赖于脯氨酰寡肽酶POphP催化的核心肽释放和酰胺键形成该家族的前体肽OphMA融合了氮甲基转移酶的功能致使该家族产物结构中存在高度的氮甲基化116如Omphalotin H图9。基于此Michael F. Freeman团队119通过使用ophMA的氮甲基转移酶结构域作为探针最终从基干菌类和子囊菌类真菌中共寻找了54个与OphMA类似的前体肽并通过LC-MS/MS对相应的产物进行了结构验证。Dikaritins家族环肽是通过醚键交联成环的小环肽Ustiloxin B图9是该家族的第一个成员其生物合成基因包括前体肽基因ustA负责环化的DUF3328结构域蛋白基因ustYa/Yb和肽酶基因kex1/2120。基于此Myco Umemura团队121通过ustY基因和ustA基因的重复序列在曲霉属真菌中进行检索成功发现了94个同源基因簇并通过异源表达和产物的分离发现了该家族的新成员Asperipin-2a图9。2023年谭仁祥团队122在一株昆虫的内生真菌Acauliumalbum H-JQSF中发现了一个由30个常见蛋白源L型氨基酸组成的新环肽产物Acalitide图9具有显著的抗帕金森病的活性。结合产生菌的基因组序列分析和合成基因在米曲霉Aspergillusoryzae宿主中的异源表达实验发现这是一种新类别的真菌RiPP催化线性前体肽发生环化的酶是一个注释为S53家族肽酶的蛋白AcaB可以预见该发现将会开启针对这一新型环肽的基因组挖掘研究。这些研究直接促进真菌来源RiPPs的发现和后续的生物合成研究展示了有别于细菌的独特的RiPPs形成过程为新型真菌环肽的发现开创了新的思路。 图9 图9   真菌来源的RiPPs以及催化其环化的酶 3.6 植物RiPPs类自催化分支环肽天然产物的挖掘 植物产生的RiPPs种类远不及微生物丰富但往往都具有显著且多样的药理活性。其中有两类环肽的生物合成过程较为明晰分别是由内肽酶或蛋白酶催化头尾相连的环肽如Cyclotide123和Orbitide124等以及由前体肽C端BURP结构域催化氨基酸之间发生偶联的分支环肽如枸杞素125和Moroidin126等。BURP该家族蛋白的四个经典成员BNM2、USP、RD22和PG1β的首字母组成结构域是一类铜离子依赖的C端蛋白目前只在陆生植物中发现通常与非生物胁迫反应相关127。Roland D. Kersten和Marnix H. Medema研究团队128合作开发了一套植物分支环肽的系统性发掘流程图10。他们首先利用液相色谱-质谱来获取植物组织有机粗提物的氨基酸亚胺离子碎片信息将这些代谢组学数据集提交至包含已知分支环肽代谢组信息的分子网络中随后将从分子网络获得的氨基酸信息结合植物基因组和转录组中的前体肽序列是否含有BURP结构域来判断潜在分支环肽的新颖度。按照此流程分离鉴定了5类植物来源的分支环肽同时也表征了前体肽中的BURP结构域为自催化的肽环化酶。鉴于BURP结构域与分支环肽骨架形成直接相关Marnix H. Medema等在plantiSMASH129中寻找编码BURP结构域的基因并开发了一个RepeatFinder算法确认基因N端是否包含重复的核心肽序列基于此在苋菜、土豆和番茄基因组中找到了已知分支环肽枸杞素的前体肽序列从而证明了利用该方法进行植物分支环肽基因组挖掘的可行性随后发现大豆基因组中的一段编码BURP结构域的序列GLYMA_04G180400包含了与已报道分支环肽区别较大的核心肽序列将该基因合成后在本氏烟草N.benthamiana中进行瞬时表达成功产生了两个分支环肽。 图10 图10   植物分支环肽发掘流程 4 自抗性基因在基因组挖掘中的应用 上述以核心酶或修饰酶为探针的基因组挖掘均是一种结构导向的天然产物发现策略这种策略难以预知目标产物的生物活性。这对于下游以活性为导向的药物开发十分不便。因此建立一种通过基因组序列信息直接预测产物活性的方法来实现目标活性天然产物的精准挖掘则能极大加速药物开发的进程。 天然产物一般都具有特定的生理功能有利于保障生产者在特定环境中的生存优势例如微生物产生活性次级代谢产物靶向竞争者体内重要代谢途径中的酶来抑制竞争者的生长。然而在抑制竞争者的同时这些活性产物也有可能对生产者自身产生毒害作用。为了避免这种情况发生生产者需要自身进化出自抗性机制。目前已知的自抗性机制主要包括①转运蛋白将毒性产物运输到胞外的外排泵机制130②抗性蛋白对细胞内的毒性产物进行捕获131或修饰132③靶点蛋白被修饰使之不受毒性产物的抑制133④菌株自身编码了一个持家基因的突变体也称为自抗性基因使之既具有原始代谢酶的催化功能又不被天然产物所抑制134。由于这种突变体与持家基因高度类似且常常与天然产物生物合成基因成簇存在因此可以通过对自抗性基因功能的生物信息学分析来直接预测基因簇产物的生物活性和作用靶点实现活性导向的天然产物基因组挖掘图11。 图11 图11   自抗性基因导向的基因组挖掘获得活性天然产物 2013年Gerard D. Wright研究团队135认为对某一类抗生素不敏感的菌株可能编码了一些针对该类抗生素的抗性基因而这些抗性基因很可能是为了抵御自身产生的类似抗生素这为发现特定类型的新抗生素提供了崭新的视角。为了验证猜想他们构建了一个基于万古霉素抗性的放线菌筛选平台以催化糖肽类天然产物交联的单加氧酶为探针通过PCR筛选和系统发育分析发现了一个新型糖肽类抗生素Pekiskomycin首次证明了微生物自抗性机制可以作为新抗生素发现的依据。第一个详细阐述自抗性基因导向的基因组挖掘研究是由Moore团队136在2015年完成的该团队在86个盐孢菌基因组中筛选具有双拷贝的管家基因定位到一个坐落在PKS-NRPS生物合成基因簇上的脂肪酸合酶将该基因簇在天蓝色链霉菌中异源表达后产生了一系列脂肪酸合酶天然产物抑制剂Thiolactomycins图11。 酪蛋白水解蛋白酶PClpP在原核及真核生物的线粒体中广泛存在且高度保守。Gerard D. Wright研究团队137以clpP作为可能的自抗性基因在Genbank数据库中进行基因组挖掘定位到10条基因簇期望从中找到潜在的ClpP天然抑制剂类抗生素。其中有6条包含了一个双模块的NRPS该双模块NRPS广泛分布于各种放线菌和临床致病菌簇内大多编码了一个丝氨酸水解酶推测该基因簇产物发挥丝氨酸水解酶的抑制作用。研究者发现其中1条除了含有双模块的NRPS外还罕见地包含了一个Ⅰ型PKS于是将该基因簇在天蓝色链霉菌S.coelicolor M1154中进行异源表达分离鉴定了一个ClpP共价抑制剂Clipibicyclene图11。 四环素是一类具有抗菌活性的广谱抗生素目前报道的四环素天然产物仅有5个其中2个已作为临床用药138。戈惠明团队138对已知四环素的生物合成基因簇进行分析发现其中均存在由转录调控因子控制外排泵表达的抗性基因tetR利用抗性基因和骨架合成基因双探针在放线菌基因组数据库进行挖掘结合链延长因子的系统发育分析定位到30条四环素生物合成基因簇。随后通过构建基因组相似性网络genome neighborhood networkGNN关注到一条包含大量新颖后修饰酶的四环素基因簇经过发酵分离得到天然产物Hainancycline图11是30年来首次鉴定的新型四环素类天然产物也是目前发现的修饰最为复杂的一类四环素天然产物。 合成支链氨基酸的关键酶乙酰乳酸合酶ALS是许多除草剂的作用靶点。吕雪峰研究团队139选择ALS为探针对459个测序真菌基因组进行扫描在亮白曲霉A.candidus和蘑菇A.campestris中发现了两条同源的NRPS-PKS生物合成基因簇与ALS共定位。通过生物信息学分析和化学表征确定该基因簇产物为黄酮类天然产物氯黄酮图11。活性评价显示氯黄酮具有抑制拟南芥种子萌发和抑制病原菌生长的活性因而具有开发成为除草剂和抗生素的潜力。 值得注意的是为了便于研究者们开展自抗性基因导向的基因组挖掘Nadine Ziemert团队140在2017年推出了一个可以在线使用的分析网站ARTSAntibiotic Resistant Target Seekerhttps//arts.ziemertlab.com。该网站首先使用antiSMASH考察天然产物基因簇中是否存在重复拷贝的管家基因以及该基因的系统发育分析来确认其是否为自抗性基因进而识别出可以产生活性天然产物的基因簇。2020年该工具的2.0版本141进一步增强了分析能力可以实现对所有细菌和宏基因组数据的自动挖掘。2022年该团队142发布了ARTS-DB数据库该数据库收录了ARTS 2.0对共计70 000多个基因组和宏基因组的分析结果并提供了配套的查询工具从而免去了大量冗余的重复分析。 5 进化理论在基因组挖掘中的应用 天然产物结构多样性是生物合成基因簇持续进化的结果而构建分子系统发育树是追溯特定基因进化足迹和确定同源基因进化关系的常用手段。基于分子系统发育的天然产物发现策略正是构筑在生物合成基因可以作为基因簇进化标志的基本假设之上从而以点及面地体现基因簇之间的进化关系以及对应产物的结构多样性和新颖性143。具体而言如果一个未知功能的核心基因与已知的同源基因进化距离较远那么它的生物合成基因簇可能编码了一个与已知天然产物骨架完全不同的新颖产物反之如果该基因与一些基因紧密分布在一个进化分支之内那么这些基因所在的基因簇的产物将十分类似图12。 图12 图12   构建系统发育树指导新颖天然产物的发现143 进化理论指导的基因组挖掘最为成功的一个案例来自于对新型Ⅱ型聚酮的发掘。Ⅱ型聚酮基因簇中负责聚酮骨架形成的聚酮合酶KS链长决定因子CLF和酰基载体蛋白ACP是Ⅱ型聚酮骨架合成的核心酶。张骊駻团队144首先以167个经表征的Ⅱ型聚酮合酶的CLF蛋白建立了系统发育树发现聚酮产物中骨架结构上碳原子数量与CLF的系统发育密切相关。基于此该研究团队对NCBI上RefSeq数据库中细菌基因组展开分析对其中所有的CLF构建系统发育树描绘了细菌产生Ⅱ型聚酮的综合潜能。随后研究人员选择CLF系统发育树中与已知CLF进化距离较远的条目将对应的菌株进行发酵和产物的分离鉴定从中发现了2类新的Ⅱ型聚酮天然产物包括一种新的角形萘吡喃骨架结构图12。 trans-AT聚酮合酶虽然属于Ⅰ型模块化聚酮合酶但与经典的cis-AT聚酮合酶采取完全不同的进化方式。相较于cis-AT聚酮合酶的每个模块都嵌合了一个能够识别延伸单元的酰基转移酶结构域ATtrans-AT聚酮合酶基因簇只编码了一个游离于聚酮合酶之外的AT蛋白通常负责特异性识别丙二酰辅酶A。并且trans-AT聚酮合酶的KS结构域只专一地接受不同修饰的特定底物因此根据KS结构域的系统进化分析可以推测出其编码的聚酮骨架145。Jörn Piel课题组多年来对trans-AT类的天然产物开展了较为深入和系统的研究通过持续对KS结构域系统进化分析的补充和更新他们从一些不常见的微生物中分离得到许多活性trans-AT天然产物包括具有抗菌活性的Elansolid D146、细胞毒活性的Diaphorin147和Nosperin148等图12。与此同时他们还开发了一个基于KS系统进化预测trans-AT聚酮骨架的在线网站149http//transator.ethz.ch/trans-AT-PKS收录了54个trans-AT聚酮合酶的655个KS结构域进一步推动具有潜在药用价值的聚酮化合物的基因组挖掘。 6 人工智能在基因组挖掘中的应用 随着基因组大数据时代的到来经典的基因组挖掘工具正面临着分析处理大数据的考验同时历经多年的发展基因组挖掘的目标已不仅仅是从基因组信息中识别和预测已知类别天然产物的基因簇更需要研究者们建立新的思路以实现对全新类别天然产物基因簇的无参考式的从头识别。近十年以来人工智能正改变着各行各业对信息的处理方式对于基因组挖掘而言是值得交叉融合的重要工具。 在健康的人体肠道中旅居着数百万种微生物这些微生物中不乏大量的致病菌而肠道微生物群体却能够彼此制衡和谐共存。其中一个重要的原因是肠道中的有益菌可以产生一些具有抗菌活性的小肽称为抗菌肽antimicrobial peptideAMP150这些小肽或其简单的修饰物具有抑制病原微生物的能力。但是面对丰富的人体微生物测序数据资源基因组挖掘这类小肽却面临着序列短、多样性高、相似性低的难题传统的挖掘工具无法高效和特异性地识别这些小肽的基因。陈义华和王军研究团队151借用人工智能中的深度学习方法为发掘抗菌肽提供了崭新的模式研究团队构建了5种自然语言学习的神经网络把抗菌肽的氨基酸序列作为学习的模板建立阳性和阴性数据集用以训练深度学习的模型让模型可以从DNA层面直接识别抗菌肽基因图13a。最终综合利用三种神经网络模型建立的抗菌肽预测模型从1万多个微生物组中预测出了216种潜在的新型抗菌肽经多肽的合成和活性评价发现其中181种新型抗菌肽具有抗菌活性进一步实验表明部分抗菌肽对多重耐药革兰氏阴性菌也具有较强的抑菌能力其中活性最好的抗菌肽c_AMP1043通过与细胞膜和细胞壁结合诱发了细胞膜破裂从而杀灭微生物。 图13 图13   人工智能在基因组挖掘中的应用 另一个利用人工智能的案例源自于针对RiPPs类天然产物的基因组挖掘RiPPs的生物合成过程始于核糖体合成的核心肽历经修饰加工最终经过切割释放出最终产物152。而针对RiPPs的预测分析大多仍是基于已知类型中的关键修饰基因的同源性检索这种方式很难发掘新颖类型的RiPPs。同时在测序数据中那些低质量的测序数据或碎片化的测序信息常被忽略但其中很可能蕴含着大量值得分析的信息。另外将代谢组的分析和基因水平的预测偶联为一套分析流程将能提升新颖产物的发现概率。Nathan A. Magarvey团队47针对此问题开发了一套由3个模块组成的RiPPs预测流程——DeepRiPP一个集成的基因组和代谢组学的分析平台使用机器学习来自动化选择性地发现和分离新的RiPPs图13b。第一个模块是NLPPrecursor它使用自然语言构建了基于深度学习的预测模型该模型分为两步从测序数据中识别前体肽再预测其切割位点。第二个模块BARLEY负责对预测结果信息进行排序以辅助研究者寻找最优价值的基因簇而第三个模块CLAMS则可以将含有该基因簇菌株的代谢组数据与预测的产物信息进行偶联分析自动化地从复杂的细菌提取物中识别出目标基因簇可能的产物。在研究中研究者使用DeepRiPP对数据库中来自463个菌株的10 498个提取物展开了大规模的比较代谢组学分析并从中发现了3种新型RiPPs其真实结构与DeepRiPP平台预测结果完全一致从而证明了该套分析流程的有效性和便捷性。这一方法也证明了联合使用基因组和代谢组数据可以有效提升天然产物发掘的通量和速度。 7 总结与展望 具有巨大化学多样性的天然产物为药物开发提供了无可比拟的小分子文库从中诞生了大量的药物或先导化合物。由于众多抗生素药物集中发现于20世纪50年代左右这一时期被称为天然产物发现的“黄金时代”153。然而自20世纪后期以来天然产物来源的药物出现了大幅下降这一方面是由于小分子化学合成技术的进步和高通量筛选平台的出现更重要的是传统的天然产物发现策略导致了大量高丰度化合物的重复出现而低丰度或不可培养微生物中的资源却难以得到发掘154。随着基因组时代的到来研究者开始逐步阐明天然产物的生物合成过程使得天然产物的结构可以与负责编码其生物合成的基因形成对应关系由此通过基因组信息确定合成基因簇进而发现天然产物的基因组挖掘策略得以建立该策略配合下游高效的异源表达平台可以突破对生产者生物量的依赖为天然产物的发现开辟了新的途径。 基因组挖掘的实施离不开高效便捷的工具软件在基因组挖掘的前期受限于测序成本较小的细菌基因组增长最快造成了大量天然产物基因簇预测软件应对的均是细菌基因组。与细菌相比针对真核生物尤其是植物的生物合成研究存在着更大的挑战。植物基因组庞大遗传背景复杂难以获取高质量基因组序列并且大多数情况下天然产物生物合成基因并不成簇分布在植物基因组中。因此针对真菌和其他高等生命体的生物合成基因预测平台发展缓慢虽然目前已经出现了针对真菌基因组特点设计的fungiSMASH155和针对植物基因组特点设计的plantiSMASH129这些软件目前可识别的基因簇类型仍然较少错误率较高但随着更多真菌与植物来源天然产物的生物合成案例的阐明和计算机性能的逐步提升针对真菌和其他高等生命体开发的软件和工具将会更加全面和完善。 此外基因组挖掘正在不断吸纳其他学科的最新技术和发展成果。首先是“微生物组学”带来了大量的宏基因组测序数据如人体微生物组计划27 156、海洋微生物组研究157等有效获取了大量不可培养微生物的遗传信息探明了潜藏其中的天然产物合成潜能。其次测序技术的不断迭代和成本的进一步降低使得众多植物和动物的遗传信息得以公布基因组、转录组、代谢组和蛋白质组学等多组学multi-omics联合分析与基因组挖掘的有效融合促使一些高等生命体来源的天然产物生物合成基因簇相继得到阐明如通过对南方红豆杉Taxuschinensis var.mairei基因组进化分析和转录组分析确定参与紫杉醇生物合成的关键基因158-161通过基于两种益母草的比较基因组学和代谢组学等多种手段找到合成益母草碱的关键酶并阐明生物合成路径162通过分析石松科植物Phlegmariurustetrastichus不同组织的转录差异表达定位参与石松生物碱生物合成的新型类碳酸酐样酶163对海洋蠕虫基因组进行测序组装结合宏转录组和蛋白质组学分析找到蠕虫体内植物甾醇从头合成所需的生物合成基因164通过全基因组关联图谱定位决定鹦鹉羽毛颜色的关键聚酮合酶165以及人体内由“病毒抑制蛋白”催化产生具有抗病毒活性的小分子核糖核苷酸衍生物166等这为基因组挖掘提供了物种范围更为广泛的研究素材预计高等真核生物的基因组挖掘会在不久的未来得到迅速发展并为天然小分子药物的发现提供更加丰富多样的先导化合物。再次合成生物学在最近的二十年里发展迅速一方面催生了一大批可用于基因表达的底盘和元件为基因簇的异源表达或原位激活提供了技术保障167-168另一方面DNA合成技术的成熟和成本的降低让研究者们可以批量直接合成难以获得的基因资源。最后人工智能在近几年的迅速崛起已经深刻影响了合成生物学的发展人工智能在处理大数据和发现潜在规律上的绝对优势必将深刻影响基因组挖掘的思路和方法深度学习在抗菌肽的基因组挖掘之中已经展现了其广阔的应用前景151。相应地以药物分子为导向的基因组挖掘在发现小分子先导化合物的同时也同步促进了大量新颖酶学机制和小分子合成通路的阐明这为天然药物的仿生化学合成和下游的生物工程生产提供了新的酶学素材和合成路径上的设计思路169。这些有机小分子的发现同样可以为产生宿主本身在生态位中的功能和互作提供了分子层面的切入点170-172。 总而言之基于目前对大规模基因组数据的分析无论是微生物还是更高等的植物和动物基因组信息中蕴藏着无可估量的塑造天然小分子的能力这是药物发现的分子宝库而挖掘这一宝藏需要研究者们进一步促进基因组挖掘与其他学科间的交叉融合进一步提升对遗传信息的处理和分析能力增强下游的基因簇表达通量和产物的结构预测能力从而实现天然小分子高通量、高新颖性和高效率的发现为开发具有自主知识产权的新药物、新化学品和新型酶催化剂服务。
http://www.w-s-a.com/news/848564/

相关文章:

  • 桥东区住房和建设局网站怎么做网上问卷
  • 做期货要看哪些网站伪装的福祉 wordpress
  • 做网站需要多少费用网站建设需要懂什么语言
  • 网站手机端做app开发商城设计方案
  • 在建设厅网站上查询注销建造师查域名是否注册
  • 企业网站推广方案策划公司网站在国外打开很慢使用cdn好还是国外租用服务器好
  • 龙华o2o网站建设百度不收录什么网站吗
  • 模板搭建网站百度信息流推广
  • 移动端网站制作模板自己做的网站点击赚钱
  • 网站站长如何赚钱wordpress抓取别人网站
  • 做网站媒体专门做产品定制的网站
  • 公司企业网站建设步骤免费asp网站模板
  • 台州企业网站搭建价格做留言的网站
  • 西安网站建设q.479185700強高端网站设计定制公司
  • 网站设计是平面设计吗音频文件放到网站空间里生成链接怎么做
  • seo是对网站进行什么优化可以在哪些网站做翻译兼职
  • 南宁seo网站推广服务网站建设客户分析
  • 网站属于什么公司甜品售卖网站网页设计
  • 如何在宝塔中安装wordpressseo1888网站建设
  • 网站系统cms湖南平台网站建设制作
  • 美团网站怎么做未备案网站加速
  • 通用cms网站wordpress可以商用
  • 阳江网络问政平台 周报济南seo公司案例
  • 重庆聚百思网站开发网络市场调研
  • seo工具共享网站敬请期待的英语
  • 最好看免费观看高清大全中国移动网络优化做什么的
  • 网站开发的步骤医院网站建设细节
  • 阿雷网站建设wordpress lucene
  • seo做多个网站建筑公司企业标语
  • 各大网站收录查询汕尾手机网站设计