彩票网站开发 晓风,网站建设 国家标准,网站建设公司 - 百度,dede门户网站模板下载A multimodal conversational agent for DNA, RNA and protein tasks
用于DNA、RNA和蛋白质任务的多模态对话代理
https://huggingface.co/InstaDeepAI/ChatNT 摘要
语言模型正在蓬勃发展#xff0c;推动着对话代理的应用#xff0c;帮助和赋能人类解决各种任务。最近推动着对话代理的应用帮助和赋能人类解决各种任务。最近这些模型已被扩展以支持更多的模态包括视觉、音频和视频展示了在多个领域包括医疗保健中的卓越能力。然而在生物学领域对话代理仍然受到限制因为它们尚未完全理解生物序列。与此同时通过对序列数据进行自监督已经构建了高性能的生物序列基础模型但这些模型需要针对每个具体应用进行微调导致任务之间的泛化能力有限。此外这些模型并非对话型这限制了它们对没有编码能力的用户的实用性。本文提出通过引入ChatNT来弥合生物学基础模型与对话代理之间的鸿沟ChatNT是一种具有先进生物序列理解能力的多模态对话代理。ChatNT在Nucleotide Transformer基准测试中实现了新的最先进的结果能够一次性解决所有任务使用英语并能对未见过的问题进行泛化。此外我们还策划了一套更具生物学相关性的任务涵盖DNA、RNA和蛋白质跨越多个物种、组织和生物过程。ChatNT在这些任务上达到了与最先进的专门方法相当的性能。我们还提出了一种基于困惑度的技术帮助校准模型预测的置信度。通过应用通过英语解码器和DNA编码器的归因方法我们展示了ChatNT的回答基于生物学上连贯的特征如检测启动子TATA基序或剪接位点二核苷酸。我们的基因组指令调优框架可以扩展到更多任务和数据模态例如结构和影像使其成为生物学领域的广泛适用工具。ChatNT为构建能够理解生物学的通用智能代理提供了潜在方向同时对没有编码背景的用户也具备可访问性。
正文
理解细胞、组织和生物体如何解读基因组中编码的信息对于推进我们对生物学的理解至关重要。一个生物体的DNA序列包含了所有指定RNA和蛋白质的指令同时也指示了这些分子应何时以及在何种细胞背景下产生。自从人类基因组被测序以来主要的研究重点一直是识别每一个基因组元素表征它们的功能并评估遗传变异对不同基因调控和细胞过程的影响。考虑到生物序列和过程的复杂性以及基因组学数据的日益增加已经开发出几种机器学习和深度学习方法以极高的准确性预测不同的分子表型。这些任务包括预测蛋白质与DNA和RNA的结合、DNA甲基化、染色质特征、调控元件、剪接、基因表达、mRNA特性如稳定性和多腺苷酸化以及蛋白质特性如熔点等。
尽管监督学习的深度学习模型已经显著提高了这些任务的预测能力但由于标签数据的稀缺性标签过程耗时且昂贵它们的性能仍然常常受到限制。然而由于现代测序技术的通量增加和成本降低大量未标记的基因组数据正在快速增加这为自监督深度学习方法提供了一个重要机会利用这些未标记的数据进行训练。通过采用如掩码预测或下一个标记预测等学习技术深度学习模型可以在预训练阶段构建强大的基因组基础表示聚合核苷酸和较大序列模式之间的关联形成富有表现力的高维向量捕捉已知的基因组元素和蛋白质结合位点。这些模型可以在微调阶段利用这些丰富的表示学习得更快并在监督任务中取得更好的性能即在有标签的数据上进行训练即使数据稀缺。最近已有多种此类基础模型以这种方式构建并展示了它们可以在成百上千个物种的基因组上进行预训练然后微调以解决大量的分子表型预测任务。
尽管如此当前DNA基础模型的性能和应用领域仍然有限。在当前的范式中基础模型需要为每个特定任务单独进行微调以生成准确的表示和预测因此更适合作为特定任务的专家。这不仅导致随着任务数量的增加模型的数量也急剧增加而且还阻碍了监督任务之间的迁移能力以及在零样本环境下即无需对某些示例进行进一步微调解决新任务的能力。因此亟需重新思考基因组学人工智能AI系统的开发目标是建立通用的统一模型捕捉所有不同生物序列和功能之间的复杂关系。其他领域如自然语言处理NLP和计算机视觉已经证明并行训练多个任务可以实现任务之间的知识迁移并提高准确性和泛化能力。在这些领域中英语语言被证明发挥着更广泛的作用作为一种通用接口用于表示各种任务和指令并帮助指导端到端多任务模型的训练。将这种方法转移到生物学数据上是开发可以同时解决所有基因组学任务并提高准确性的通用模型的一种有前景的方法。
构建通用基因组学AI系统的另一个重要方面是其对不同类型用户的可访问性。大多数生物学家不知道如何使用当前的基因组学模型更不用说如何为特定任务编程一个模型了。此类模型不是对话型的因此对于没有编码能力的用户来说其实用性有限。在这里语言作为一种通用接口能够发挥重要作用作为一个通用AI助手通过能够明确表示为英语语言的任务指令来解决基因组学任务。例如最近ChatGPT和GPT-4的成功展示了大型语言模型LLM在跟随人类指令方面的强大能力以及这种工具如何通过其易用性转变多个行业。我们设想一旦我们拥有像ChatGPT一样精通生物学任务的代理程序基因组学和生物学领域也会发生同样的范式转变。
为此我们在本文中提出了一种构建基因组学基础模型的方法。与NLP领域的研究成果类似并受到近期视觉和语言多模态模型的启发我们建议将所有监督基因组学预测任务表述为文本到文本的任务并构建一个多模态DNA和语言代理命名为Chat Nucleotide Transformer或ChatNT。ChatNT可以接收一个或多个DNA序列并用英语提示来解决所有这些任务。这种表述方法使我们能够使用相同的词汇即英语和DNA词汇的拼接来表达所有任务并通过最小化统一目标来学习解决这些任务类似于GPT类模型从而实现无缝的新任务集成和泛化。用英语表述任务也是向模型提供附加元数据如物种、染色体或细胞类型的简单方式而这些信息在大多数现有的DNA基础模型中是缺失的。
ChatNT被构建为一个通用的基因组学AI系统——一个可以解读多种生物序列并处理数十个任务的统一模型在对话代理设置中运行。我们创建了基因组学指令任务数据集包含了多种分类和回归任务的英语问题和指令集。我们首先展示了ChatNT在Nucleotide Transformer基准测试中取得了新的最先进成果。接下来我们在更多与生物学相关的任务中评估了ChatNT这些任务涵盖了DNA、RNA和蛋白质过程。ChatNT在所有任务中都达到了最先进的性能与多个专门模型的性能相匹配例如用于RNA多腺苷酸化的APARENT2和用于蛋白质相关任务的ESM2同时能够一次性解决大量任务并以英语进行表达。最后其英语对话能力使其比其他模型更易于使用扩大了其对没有机器学习或计算机科学背景的科学家的可访问性。我们的基因组学指令调优框架可以轻松扩展到新的任务或生物数据模态例如测序实验和影像无需每次从头开始预训练使其成为一个广泛适用于生物学的工具。
结果
将DNA基础模型转化为对话代理——ChatNT
ChatNT是一个基因组学指令调优框架它将指令调优代理扩展到生物学和生物序列的多模态空间。我们的框架设计为模块化并且可端到端训练。它结合了以下三部分(1) DNA编码模型预训练于基因组测序数据提供DNA序列表示(2) 英语解码器通常是预训练的GPT风格的大型语言模型LLM用于理解用户指令并生成响应(3) 一个投影层将DNA编码器提取的表示投影到输入的英语单词嵌入空间中使得这两者都能被英语解码器使用见图1c和方法部分。与大多数多模态研究例如参考文献26通常会冻结编码器仅训练投影层有时还会训练解码器不同在本研究中我们决定除了投影层外还要对编码器进行反向传播以允许在DNA模型层级进行监督知识传播。由于英语解码器保持冻结ChatNT能够受益于其完整的初始对话能力确保这些能力在训练过程中不会退化。在本研究中我们使用Nucleotide Transformer v2一个在850个物种基因组上预训练的5亿参数模型作为DNA编码器以及Vicuna-7b一个经过指令微调的7亿参数LLaMA模型作为英语解码器来构建对话代理ChatNT。保持这种模块化架构使得将来可以在不改变模型架构的情况下使用不断改进的编码器和解码器。 将DNA基础模型转化为对话代理——ChatNT
a, 训练过程中所包括的不同类别下游任务的示意图。UTR未翻译区。 b, 我们的基因组学指令数据集中每个任务可用的英语和DNA标记的统计数据。英语问答指令使用LLaMA分词器进行标记化而DNA序列则使用Nucleotide Transformer分词器进行标记化。 c, ChatNT构建多模态和多任务基因组学AI系统的方法。ChatNT对话代理可以通过英语提示来解决给定问题和核苷酸序列的各种任务。在这个例子中用户输入一个DNA序列fasta文件并要求代理评估给定RNA序列的降解率。问题标记与投影后的DNA表示结合后传递到英语语言模型解码器中。预训练的解码器通过下一个标记预测写出答案在此情况下预测输入序列的降解率。 为了训练和评估ChatNT我们将基因组学任务数据集转换为指令数据集通过用英语框定每个任务参见补充图1方法和“结果”部分。我们为每个任务创建了训练和测试文件包含各自的DNA序列并结合了经过整理的英语问题和答案。参见图1c预测RNA降解水平的问答示例‘用户在-5到5的范围内确定人类RNA序列myseq.fna的降解率。ChatNT该序列的降解率为1.83’其中候选DNA序列的投影嵌入插入在myseq.fna位置。我们保留了每个任务原始数据的相同训练-测试划分并使用不同的问题进行训练和测试以评估模型的英语泛化能力。这不仅使得可以评估代理在DNA序列间的泛化能力还可以评估其对所使用英语语言的鲁棒性。我们还提供了一种灵活的方法通过使用位置标签myseq.fna交错英语和DNA序列使用户能够在同一问题中引用多个序列。
ChatNT被训练为同时解决所有任务在每个批次中对任务进行统一抽样。ChatNT通过自然语言提示实现多任务处理用户提出的问题将指导代理进行感兴趣的任务。给定文本提示和一个或多个DNA序列作为输入ChatNT被训练以最小化所有任务的统一目标该目标表现为ChatNT预测与目标答案标记之间的交叉熵损失类似于其他指令微调工作的做法。这个单一的目标使得在不同任务间无缝学习成为可能而不会引入来自不同目标和损失函数例如分类的交叉熵与回归的均方误差MSE的冲突梯度或尺度问题。此外它还允许我们在未来扩展模型以处理额外的任务而无需改变模型架构或从头开始训练。总之ChatNT提供了一个通用的基因组学AI系统以对话方式解决多个任务从而为基因组学模型提供了不同的范式。
除了无缝整合多种类型的标记和实验数据到单一的通用基础模型中ChatNT还被设计为对话式的使用户能够轻松与其交互并在不需要编程背景的情况下使用它参见补充图1中的示例。我们依赖一个冻结的英语语言模型Vicuna-7b它是从LLaMA模型微调得到的。ChatNT保持了语言模型的所有固有对话能力。有趣的是我们观察到由于用于构建LLaMA的训练数据集已经包含了大量生命科学论文我们的代理还能够回答关于基因组学的多个问题包括定义调控元素如启动子和增强子零-shot即无需任何额外的训练数据。此外ChatNT还能够回答许多与生物学无关的问题并解决诸如摘要或编写简单编程代码等任务。由于我们的方法是通用的并且建立在任何预训练的英语语言模型之上ChatNT的能力可以随着新的、更强大的开源语言模型的出现而自然改进。虽然对话能力是ChatNT的一个重要方面但已经由相应的语言模型提供我们在这项工作中集中展示了ChatNT能够以英语高精度解决一系列高级基因组学任务。
ChatNT在基因组学基准测试中取得了改进的性能
为了开发ChatNT并优化其架构我们创建了Nucleotide Transformer基准测试的指令版本方法和补充表1。这个基因组数据集适用于在模型实验期间的快速迭代因为它包含了一组多样的小型数据集并且已经在多项DNA基础模型研究中进行了广泛评估。我们训练ChatNT一次性解决所有18个任务并使用测试集中的DNA序列和问题评估其性能。
我们首先使用这个基准测试系统地比较了ChatNT与两种不同投影架构的性能。在之前的多模态模型中聚合编码器信息的经典方式是使用可训练的投影将编码器嵌入转换为语言嵌入标记这些标记的维度与语言模型中的单词嵌入空间相同。在ChatNT中我们使用了来自Flamingo的Perceiver重采样器基于门控交叉注意力作为投影层参见补充图2a。使用这种投影层并在所有18个任务上微调DNA编码器和投影ChatNT在这个基准测试中取得了新的最先进准确率平均Matthew相关系数MCC为0.71比之前的最先进模型Nucleotide Transformer v2500M高出2个点图2a和补充图2d和3。 a, ChatNT、没有英语感知投影的ChatNT和13种不同基因组学基础模型在Nucleotide Transformer基准测试中的18个任务上的平均表现。条形图表示平均MCC值±标准误n18。 b, 一个雷达图展示了ChatNT在18个任务中的表现与专门微调于每个任务的Nucleotide Transformer v2模型的比较。 然而类似于所有其他投影层当前Perceiver重采样器的实现为编码器标记生成相同的固定嵌入集无论所提问题如何因此它需要在这组嵌入中捕捉每个下游任务的所有相关信息。我们假设鉴于潜在序列的多样性包括不同的长度、物种和生物学属性这个特性可能在扩展模型以应对多个下游任务时产生基因组学中的信息瓶颈。因此我们开发了一种英语感知的Perceiver投影它从输入序列中提取与用户提问相关的表示这使得能够利用输入DNA序列中对特定问题相关的上下文信息方法和补充图2b。我们观察到在将DNA嵌入投影到英语解码器空间时通过考虑问题显著提高了性能平均MCC为0.77较0.71有所提升图2a和补充图2c、d。这可以通过DNA序列中的非常具体的上下文和任务特定信息来解释必须保留这些信息才能解决各种基因组学任务。由于解码器保持冻结投影层不仅需要将序列嵌入带入英语解码器的嵌入空间还需要执行操作从嵌入中提取相关信息以回答问题。我们的结果表明使投影感知问题有助于这两个方面从而实现更好的性能和任务间的迁移。
总之具有英语感知投影的ChatNT以下简称ChatNT在此基准测试中达到了新的最先进准确度平均MCC为0.77并且一次性解决了所有18个任务图2a。ChatNT比之前的最先进Nucleotide Transformer v2500M模型提高了8个点作为ChatNT中的DNA编码器平均MCC为0.77对比0.69图2a、b。除了在DNA序列和任务之间进行泛化ChatNT还能够在问题之间进行泛化正如基于语言提示变化的预测准确度的低变异性所展示的补充图4。我们的结果表明通过自然语言制定的单一统一目标促进了多个下游任务之间的迁移学习并帮助提供了改进的性能。
精心策划的生物学相关任务指令数据集 尽管Nucleotide Transformer基准测试非常适合模型实验和调试系统但它遗漏了许多在基因组学中具有重要生物学意义的任务特别是涉及更复杂生物学过程以及更现代实验技术和涉及定量预测的任务。因此我们精心策划了第二个基因组学指令数据集包含27个以英语表述的基因组学任务这些任务来源于不同研究涵盖了多个调控过程方法和补充表2。这些任务包括与DNA21个任务、RNA3个任务和蛋白质序列3个任务相关的任务涵盖了多个物种并框定为二元/多标签分类任务和回归任务。最终的指令数据集包含了总计6.05亿个DNA标记即36亿个碱基对和2.73亿个英语标记包括每个任务平均1000个问答对图1b。
该集合包括来自Nucleotide Transformer和BEND基准测试的非冗余任务子集并补充了来自植物AgroNT基准测试和人类ChromTransfer的相关任务。这些基准测试在文献中得到了广泛使用来自不同的研究小组代表了多种DNA过程和物种。这些选定的任务包括涉及组蛋白和染色质特征、启动子和增强子调控元素、剪接位点等生物过程的二元和多标签分类任务。
我们进一步添加了与启动子活性、增强子活性、RNA多腺苷酸化和降解以及多种蛋白质特性相关的最先进且具有挑战性的回归任务。这些数据集是各自领域的参考数据集涉及生物学DNA、RNA和蛋白质序列的复杂特性。所有RNA和蛋白质任务都是从相应的DNA和编码序列CDS预测的而不是直接从RNA和蛋白质序列预测的。对于RNA序列获取匹配的DNA序列很简单但对于蛋白质序列由于密码子使用的复杂性这更加具有挑战性。因此我们使用了Boshar等人策划的CDS注释来处理蛋白质任务。
参见图3和补充图1了解我们数据集中不同类型基因组学任务的问答示例还可参见补充图5–7。例如启动子分类任务的训练示例如下“用户在人类细胞中序列myseq.fna中是否存在启动子能否判断其强弱ChatNT是的在您提供的DNA序列中存在一个弱启动子。”其中候选DNA序列的投影嵌入插入在myseq.fna位置。回归任务也以英语表述代理需要写出对应所请求数量的数字例如“用户在-5到5的范围内确定小鼠RNA序列myseq.fna的降解率。ChatNT该序列的降解率为2.4。”定量刻度的详细信息见方法部分。损失计算与交叉熵损失相同将标量值视为数字标记。这种方法在我们的设置中表现良好并且产生了与传统MSE损失相当的结果因为ChatNT是自回归的可以捕捉数字的顺序结构。较早的数字错误例如数量级顺序会导致更高的损失促使模型首先集中于预测最重要的数字然后再精细调整较不重要的数字从而有效地引入了数字的层次分解。为了评估性能我们提取每个答案中的数字并测试它们与真实值的相关性。 a, d, e左侧启动子a、DNA甲基化d和剪接位点任务e的对话示例。右侧显示混淆矩阵的热图比较ChatNT预测的标签与观察到的标签。报告了性能指标。 b, c, f左侧烟草叶片中的启动子强度b、RNA降解c和蛋白质熔解组任务f的对话示例。右侧散点图比较ChatNT的预测值和观察值。报告了皮尔逊相关系数PCC。 总之这组精心策划的任务为我们模型在不同生物序列领域中的能力和实用性提供了一个总体视角。我们将ChatNT训练为一个通用代理能够一次性解决所有27个基因组学任务并以英语进行表达并将其性能与每个任务的最先进专用模型进行了比较方法部分。
在不同基因组学过程和物种任务上的评估 我们首先评估了ChatNT在与不同DNA过程相关的21个任务上的表现这些任务涉及酵母、植物、果蝇、小鼠和人类。ChatNT在与不同专用模型进行直接微调的这些任务上表现出色并且对语言提示的变化具有较强的鲁棒性图3a、b、d、e和图4a、c。特别地我们在检测人类增强子类型方面取得了改进的表现。然而我们也观察到与专门在该任务上进行微调的最先进的AgroNT模型相比植物物种的增强子性能显著下降。由于AgroNT是基于48种不同植物物种的基因组进行预训练的因此改善ChatNT中使用的编码器可能会提高这种类型任务的性能。 a条形图显示了ChatNT与每个任务对应基准的性能比较。每个任务使用的度量与相应基准研究中使用的度量相同补充表2。数据以均值±标准差n 10每个任务表示。Chrom.染色质Dev.发育Hk.管家基因。 b–dChatNT与基准模型在所有任务n 27b、分类任务n 17c和回归任务n 10d上的比较。度量与a中相同。箱线图标出中位数、上四分位数和下四分位数以及1.5倍四分位范围须状线离群值单独显示。 由于ChatNT以英语解决任务它能够无缝处理二元和多标签分类任务。通过提取ChatNT在答案中预测的术语我们可以量化其预测性能。正如我们在图3中的一些示例所展示的ChatNT准确识别了包含人类或小鼠启动子的输入序列图3a包含在人类胚胎干细胞HUES64细胞系图3d中甲基化的CpG位点的序列以及包含剪接受体和供体位点的序列图3e。
ChatNT还能够通过写出预测得分的数字来解决定量任务。我们观察到在预测植物启动子活性方面表现具有竞争力特别是在烟草叶片图3b和玉米原生质体中但在果蝇增强子活性方面与最先进的DeepSTARR模型相比性能显著降低图4a。重要的是预测数字的分布与原始得分之间有很好的相关性图3b。这一有效处理回归任务的能力在生物学中至关重要尤其是在考虑到语言模型在数值处理方面的已知局限性和不可靠性时。这一点特别重要因为回归任务相较于分类任务在复杂性上有所不同分类任务在训练集中的比例更高。我们认为这可以通过在训练过程中改善分类任务和回归任务之间的平衡来解决可以通过加权损失或任务抽样频率课程来实现。
ChatNT解决转录组学和蛋白质组学任务 ChatNT采用灵活的架构允许其处理任何可以用我们的DNA编码器——Nucleotide Transformer处理的生物序列。为了展示其泛化能力我们在新的基因组学指令数据集中包含了三个RNA和三个蛋白质回归任务补充图6和7。这些任务包括预测RNA多腺苷酸化和降解速率以及不同蛋白质特性。用于模型训练的对话示例如下“用户在人类HEK293细胞中RNA序列myseq.fna的近端位点的多腺苷酸化比率是多少范围从0到1ChatNT该序列的近端位点多腺苷酸化比率为0.69。”和“用户指定给定编码序列CDSmyseq.fna的蛋白质熔点范围在0到100之间。ChatNT该蛋白质的熔点为80.81。”。ChatNT的性能与最先进的专用模型进行了比较包括用于多腺苷酸化的APARENT2模型、用于RNA降解的Saluki模型和用于蛋白质任务的ESM2模型补充表2。
总体而言我们在六个RNA和蛋白质任务的测试集上观察到ChatNT表现良好皮尔逊相关系数PCC在0.62到0.91之间图3c、f和图4a。ChatNT在预测近端多腺苷酸化位点比率PCC为0.91对比0.90和蛋白质熔点PCC为0.89对比0.85方面超越了专用模型。对于人类和小鼠的RNA降解任务ChatNT的PCC为0.62和0.63比专用的Saluki模型低了10个点PCC为0.74和0.71。ChatNT在与最先进的蛋白质语言模型ESM2的两个蛋白质任务与蛋白质荧光和稳定性相关上的表现也具有竞争力。尽管ChatNT目前还无法超越每个专用模型在RNA和蛋白质任务上的表现但我们展示了它已经能够处理这些任务并且利用DNA基础模型Nucleotide Transformer作为DNA编码器取得了高性能。ChatNT的灵活架构允许用户插入不同的编码器如专门用于RNA和蛋白质领域的语言模型这应能缩小RNA和蛋白质组学领域与专用深度学习模型之间的差距并提高ChatNT作为统一生物学模型的能力和泛化能力。
评估ChatNT答案的可信度 ChatNT旨在帮助和增强科学家和研究人员的日常研究。因此它的性能和可靠性至关重要。然而与返回概率或定量得分的标准机器学习模型不同ChatNT直接回答问题无法让用户感知其置信度从而减少其在敏感应用中的实际价值。这是一个重要挑战并且是当前所有对话型代理共同面临的问题。为了解决这个问题我们研究了一种评估我们代理在二元分类任务中置信度的方法。我们不是直接为给定序列生成二元分类问题的答案而是计算该问题的模型困惑度基于正面和负面答案的示例。我们确保这些选定的答案不包含在模型的训练数据集中。这些困惑度值对于正面和负面答案的计算结果将用于推导每个类别的logits和概率。该方法使我们能够像标准分类器一样从ChatNT推导每个问题示例的概率我们将其称为基于困惑度的分类器图5a。目前这个过程被作为事后分析进行研究尚未集成到ChatNT工具中但一旦完全开发出来可以在未来的版本中加入提供这些信息给用户。 a描述基于困惑度分类器的卡通图基于ChatNT的回答。 b人类染色质chrom.可及性任务的校准图HepG2细胞系。散点图比较了原始绿色和校准紫色基于困惑度的分类器的预测概率与阳性样本的比例在十个区间中的表现。 c原始基于困惑度的分类器在十个区间内的预测概率直方图。 d校准后的基于困惑度的分类器在十个区间内的预测概率直方图。 eChatNT答案是与否与其派生的基于困惑度的概率在所有二元分类任务中的性能比较MCC。 计算概率使我们能够评估模型的校准性即预测概率、其置信度与预测准确性之间的相关性。当一个模型在给定置信度为p时预测的类别总是100%正确时我们称该模型为良好校准的。我们计算了ChatNT在所有二元分类任务中的基于困惑度的概率。在图5b–d中我们展示了基于染色质可及性任务的预测结果的校准图示例。我们观察到我们的模型在低置信度和高置信度区域校准良好但在中等置信度区域表现较差。例如预测概率为0.9的示例正确预测的概率为90%而预测概率为0.5的示例仅有25%的时间正确预测。为改善这一点我们展示了通过在训练集上拟合Platt模型来校准我们的模型从而提高模型在所有预测范围内的置信度图5b–d。此校准步骤适用于所有二元分类任务。总体而言使用这些基于困惑度的预测ChatNT在各个任务上的性能保持一致图5e但校准性得到了提高。因此我们的方法不仅可以准确衡量语言模型的预测性能还能有效评估其不确定性水平。这项技术尽管是通用的应该对其他语言模型领域也有益。
模型解释揭示了学习到的DNA序列特征 语言模型在生物序列中的一个关键应用是揭示DNA、RNA和蛋白质序列的潜在编码或语法。为了评估ChatNT的预测是否依赖于生物学相关的序列特征并且是否可以用于进一步的发现我们使用了模型解释工具分析来自我们数据集中不同任务的数百个序列。虽然这些技术已广泛应用于序列模型特别是在DNA的情况下但在输出以自然语言表达的多模态模型中如ChatNT这种做法尚未被应用。为了实现这一点我们量化了输入DNA序列中每个DNA标记即6-mer对ChatNT预测的英语标记回答的贡献图6a。更具体地我们计算了预测标记相对于输入DNA标记的梯度通过英语解码器、Perceiver投影和DNA编码器进行反向传播。我们将这种方法应用于三个不同基因组学任务的序列这些任务在文献中已知具有明确的预测序列特征通常与GT二核苷酸重叠的剪接供体位点、与AG二核苷酸重叠的剪接受体位点以及依赖于TATA-box基序的启动子。 a描述ChatNT预测的解释卡通图针对输入序列。对于给定的输入问题和DNA序列我们计算每个预测的英语标记对每个输入DNA标记的梯度。w.r.t.相对于。 b–d从ChatNT中提取的序列特征任务为剪接供体b、剪接受体c和TATA启动子d。展示了合并的序列基序y轴为比特上每个任务的序列k-mer谱图下。 对于每个任务我们计算了输入DNA标记相对于ChatNT所回答的“是”或“否”标记的贡献。我们对每个任务的每个标签的测试集序列子集进行了此分析识别出每个输入序列中贡献最大的DNA标记。显示重要的6-mer在所有序列中的频率揭示了正标签序列在已知的序列特征上有所富集例如剪接供体和受体二核苷酸图6b–d。实际上通过结合所有正序列中得分最高的标记并计算每个位置的核苷酸频率恢复了每个任务的主要序列模式匹配了已知的剪接供体GT二核苷酸、剪接受体AG二核苷酸和启动子TATA基序。总的来说这些结果表明ChatNT的答案基于生物学上连贯的特征并且该模型可以用于解释DNA的基础语言。值得强调的是ChatNT通过单一的统一模型完成这一任务。通常这种分析依赖于为每个任务量身定制的专用或微调模型。我们的结果揭示了在不同任务中提取的一致且有意义的特征凸显了ChatNT学习DNA通用语法的能力并将其与自然语言连接。
讨论 我们提出了ChatNT一个多模态对话代理可以处理DNA、RNA和蛋白质序列并解决多个生物学相关的下游任务。我们构建并策划了基因组学指令任务数据集包括二元和多标签分类及回归任务涵盖了不同物种和基因组学过程。还包括与转录组学和蛋白质组学过程相关的任务展示了这种方法在不同领域的多功能性和通用性。ChatNT在Nucleotide Transformer基准测试中达到了新的最先进水平并在我们的27个任务数据集上展示了与专用模型相媲美的性能。重要的是与需要为每个任务创建专用模型的常规方法不同ChatNT在一个统一的模型中解决了所有任务并提供了一个简单自然的聊天界面供用户使用该模型。我们还引入了一种技术来探测语言模型在二元分类任务中的置信度并在需要时进行校准。通过模型解释分析我们还展示了ChatNT在回答不同基因组学任务时学会了关联生物学相关的序列特征。总之ChatNT证明了自然语言大型语言模型LLMs可以扩展到处理生物序列模态不仅显示出对话能力还能准确回答多个生物学相关的问题。
为了从DNA序列中提取解决所有任务所需的复杂信息我们引入了基于Perceiver重采样器的架构重新采样并将DNA嵌入投影到自然语言嵌入空间中。我们识别出一个信息瓶颈问题这个问题源于任务、物种和生物过程的多样性这些信息被编码在DNA序列中并展示了如何通过根据所提问题对投影进行条件化来解决这一问题。这种条件化使投影模块能够从DNA嵌入中提取出适当的量以解决当前任务正如我们通过相较于未条件化投影模块的改进性能所展示的。
在这项工作中我们决定专注于用户如研究人员或科学家希望检测分子表型或计算给定DNA序列的定量特性的情况。虽然我们相信这涵盖了已经相当多的实际应用案例但将代理能力扩展到处理其他典型生物信息学管道将是很有趣的。这些管道可能包括调用工具来计算序列的统计数据将序列与参考数据库进行比对以计算多序列比对查询外部数据库获取关于序列的额外信息或递归地调用ChatNT模型处理包含多个序列的FASTA文件并生成汇总的表格结果及其对应的分析。这得到了外部工具在大型语言模型中的成功支持如Toolformer、LLaVA-Plus、geneGPT或GPT-4等。此类管道还可以从ChatNT处理多个序列的能力中受益从而减少推理计算成本。通过将ChatNT当前的英语解码器替换为更大的模型和/或使用强化学习人类反馈微调的模型如Llama2-chat 70B可能有助于扩展模型在这些方向上的能力并改善其整体实用性。
关于ChatNT可以处理的序列长度代理具有其DNA编码器的固有限制。当前版本使用的是Nucleotide Transformer v2模型作为DNA编码器该模型已经在最多12 kb长的序列上进行了训练。然而存在多种技术可以用来扩展其上下文多个研究表明Nucleotide Transformer模型在处理高达50 kb的序列时表现有所提升。此外可以在该框架中更换DNA编码器例如使用Borzoi它可以处理长达524 kb的序列并使用任务所需的长上下文。未来ChatNT可以通过使用新开发的DNA序列编码器来进一步改进。
ChatNT通过自然语言提示隐式处理物种和细胞类型信息而不是作为结构化输入。当查询指定了物种或细胞类型时模型直接从文本中提取并整合此上下文信息。这种方法利用了预训练语言模型根据语言上下文解释和条件化预测的能力。此能力通过我们的指令调优过程得到了促进其中包括特定任务的示例涵盖了不同的物种和细胞类型。将更多具有多样化提示的数据纳入训练应能使模型在广泛的生物学背景下进行泛化。一旦我们进一步扩大任务和数据的规模未来该代理的一个额外应用场景将是零-shot预测基因组变异的功能影响。可以使用本研究中引入的位置标签来提示用户在同一个问题中引用多个序列。例如用户可以使用两个不同的位置标签向ChatNT提供参考序列和突变序列并让模型利用这两个序列的完整投影嵌入来进行突变影响的最终评估。一个例子是“用户我有一个突变将序列wildtype.fna更改为mutation.fna。ChatNT是的这个基因变异是致病的。”这将为比较不同序列并通过DNA序列的学习表示评估基因变异的影响开辟新机会。
ChatNT的能力已通过使用预训练的DNA基础模型Nucleotide Transformer进行DNA序列处理得到展示。正如我们在实验中所示处理DNA序列不仅可以解决基因组学中的任务还可以解决转录组学和蛋白质组学中的任务后者使用对应的CDS区域。然而我们的方法可以轻松扩展以集成来自其他组学模态的编码器如RNA和蛋白质语言模型以原生处理RNA和氨基酸序列。通过我们的位置标签系统支持多个序列可以简单地添加任意数量的编码器并训练其相应的投影以在同一问题中结合不同的组学和模态。我们设想这种方法可以进一步扩展我们模型的能力和性能实现跨模态的优越迁移学习。
最后我们注意到目前ChatNT尚未建立机制来通知用户任务和细胞类型的覆盖范围例如训练数据中包含的内容或当用户提出超出训练分布的问题时的处理方式。按照当前LLM研究的方向这类机制可以通过向ChatNT的系统消息添加其训练的任务和数据集类型以及如何在提问超出该范围时处理来轻松实现。这些机制还应有助于防止滥用并确保这种工具的安全使用。
本工作作为一个概念验证证明了可以构建多模态生物序列和英语对话代理解决先进的生物学相关任务并为构建未来理解生物序列和原理的高度能力代理奠定了基础。类似于自然语言处理NLP和多模态模型的发展我们期望通过在两个主要方向上的发展出现如零-shot性能等新能力(1) 通过包括来自多样生物过程、组织、个体和物种的示例扩大任务的数量(2) 集成更多的数据模态如RNA和蛋白质序列、影像数据和个人健康记录。当这些能力出现时评估模型的安全性和鲁棒性将是至关重要的例如通过红队测试。因此ChatNT代表了向生物学和医学通用人工智能迈进的重要一步。
方法
ChatNT模型
架构 ChatNT是一个多模态代理输入一个或多个DNA序列和一个英语提示并返回一个英语单词的分布用于自回归地生成一个英语答案。我们引入了一个DNA英语标记占位符DNA它被添加到输入的英语提示中供用户引用DNA序列。该架构也扩展为处理多个DNA序列。在这种情况下每个DNA序列由DNA编码器独立处理输入的英语提示预计包含与输入的DNA序列数量相等的DNA英语标记占位符。
ChatNT架构由三部分组成一个预训练的DNA编码器一个将DNA嵌入投影到英语单词嵌入空间的投影模型和一个预训练的英语解码器。虽然我们的架构是通用的理论上可以与任何DNA编码器和英语解码器搭配工作但我们决定分别使用预训练的Nucleotide Transformer v2一个在850个物种基因组上预训练的5亿参数模型和Vicuna-7b一个微调的7亿参数Llama模型进行实验。在训练过程中我们将英语解码器保持冻结仅更新DNA编码器和投影模型的权重。投影模型在训练开始时从零初始化。
DNA编码器处理DNA序列并为每个输入标记返回一个嵌入向量在Nucleotide Transformer模型中每个标记表示一个6-mer核苷酸。我们记L为DNA序列中的核苷酸数N为DNA标记的数量大约。每个输入的DNA序列如果需要会进行填充直到最终长度为2,048个标记约为12 kb。由于DNA编码器的输出嵌入维度可能与英语语言模型的单词嵌入维度不同我们首先使用一个密集神经网络将每个DNA标记嵌入映射到英语单词维度。在第二阶段我们使用Perceiver重采样器架构该架构利用投影的DNA标记嵌入与可学习查询之间的交叉注意力将N个DNA标记嵌入重采样为K个嵌入向量补充图2a。我们已调整此Perceiver重采样器以包括一个额外的交叉注意力步骤介于可学习查询和英语问题之间以从DNA序列中提取依赖于上下文的表示补充图2b。
与此同时英语提示被标记化并为每个标记生成英语标记嵌入。然后将K个重采样的DNA嵌入向量插入到英语输入序列中的DNA序列占位符标记位置。如果输入多个DNA序列则对每个DNA序列分别且独立地应用这些操作。在实践中我们对K的多个值进行了实验发现较低的值如1或4不能使DNA编码器显著影响冻结的英语解码器的行为。我们发现K64在英语解码器的输入长度和实践中的性能之间提供了良好的折衷。
在推理过程中DNA编码器的嵌入仅计算一次。推理是通过自回归的方式进行的依次预测每个新标记直到预测到序列结束标记。在生成过程中英语解码器的关键、查询和值被缓存以避免计算不必要的操作。我们使用温度采样温度τ0.001。
在我们的统一方法中所有任务都被框定为文本带有附加DNA输入到文本的转换模型生成的输出是一个不受限制的文本序列。对于回归任务数值值在该序列中生成并通过交叉熵损失进行优化而没有任何预定义的结构约束。然而这种灵活性使得标准回归度量如MSE不能直接应用因为计算MSE需要一个结构化的数字输出格式并具有指定的占位符。强制这种格式会限制我们方法的通用性和适应性。尽管如此尽管范围广泛我们的目标在回归任务中仍取得了竞争性的结果。
整个ChatNT的代码库是在Jax中开发的使用Haiku进行神经网络实现。所有训练都在8个H100 GPU实例的集群上进行模型评估可以在单个A100-80GB GPU上完成。所有训练的参数包括DNA编码器和Perceiver投影的参数以及优化器累加器和英语解码器的所有冻结参数均以float32格式存储并更新。
训练
我们在补充表3中描述了ChatNT各部分的所有超参数。ChatNT使用Adam优化器进行训练学习率为3e−5其它超参数采用默认设置β1 0.9, β2 0.999, ϵ 1e−8, ϵroot 0.0。我们使用梯度裁剪值为1并在批量大小为65,536个标记相当于256个样本上累积梯度。我们对每个批次的任务进行了均匀抽样确保每个批次在每个任务中的样本比例相同。我们在27个任务的数据集上训练模型训练数据量为20亿个标记780万样本在一个由8个H100 GPU实例组成的集群上训练训练时长为4天。
评估
ChatNT的评估可以在单个A100 GPU上进行每批次32个样本并且每个样本生成最多40个标记每秒13个标记生成时间为1:40分钟。对于每个任务我们评估了ChatNT在测试集中的5000个样本上的表现并报告了相应基准研究中使用的性能度量补充表1和2。
基因组学指令数据集
Nucleotide Transformer基准指令 我们为Nucleotide Transformer基准创建了一个指令版本补充表1。为了将DNA序列数据集转换为指令数据集我们为每个任务策划了几十个英语问题和答案并为每个输入DNA序列抽样一个问题-答案对。在问题中引用输入DNA序列时我们使用DNA标记占位符DNA。答案包含相应输入序列的分类标签。我们将18个二元和多标签分类数据集转换为多样的问题-答案指令针对每个DNA序列。我们为每个任务提供了训练集和测试集包含不同的DNA序列以及不同的问题用以评估模型的表现和英语泛化能力。我们保持了与原始数据集相同的训练和测试集。
新的策划基因组学指令数据集 此处创建的新的基因组学指令数据集包含来自不同研究的27个任务以英语框定更多详细信息见补充表2。它涵盖了与DNA21个任务、RNA3个任务和蛋白质序列3个任务相关的多个调控过程。这些任务来源于多种物种包括人类、小鼠、果蝇和植物。在所有任务中包括15个二元分类任务、2个多标签分类任务和10个回归任务。每个任务的训练示例数量从5,500个到300万个不等。有关每个特定任务的数据来源和处理的详细信息请参见补充信息。
我们按照上述方法将DNA序列数据集转换为指令数据集。答案包含相应输入序列的分类标签或回归分数最多为小数位。除了具有单个问题-答案轮次的简单示例和单个序列外我们还添加了更复杂的示例其中包含多个轮次的连续问题这些问题可以是相关的也可以是无关的并且交换中问题可以引用多个序列。最终的基因组学指令数据集包含总计6.05亿个DNA标记即36亿个碱基对以及2.73亿个英语标记包括问题和答案。
我们为每个任务获取了不同DNA序列和不同问题的训练集和测试集以评估模型的表现和英语泛化能力。
基准数据集 对于27个基因组学任务中的每一个任务我们将ChatNT的表现与该数据集的最先进方法进行了比较。这些包括卷积神经网络DeepSTARR、ChromTransfer、APARENT2和Saluki以及基于Nucleotide Transformer、agroNT、DNABERT和ESM2的微调基础模型。我们根据每个任务使用不同的性能度量遵循相应研究中使用的度量。每个任务的基准方法和性能度量的详细信息可以在补充表2中找到。大多数基准性能度量直接从相关论文中获取。对于ESM2我们不得不在更新的数据集版本上重新运行它们。
ChatNT预测的校准 我们开发了一种方法来评估和校准ChatNT在二元分类任务中的置信度。
对于给定的二元分类任务我们从相应任务的测试集中选择N个正面和负面的示例。我们记这些示例分别为和其中0 ≥ i N。然后对于给定的问题x和DNA序列s我们分别计算模型在正面和负面示例上的平均困惑度。我们将这两个值分别记为和其中θ表示ChatNT的权重张量。我们按如下方式计算它们
其中表示答案的第j个标记返回给定问题、DNA序列和从答案中直到第j个标记的标记的情况下第j个标记的概率。负面困惑度值以类似方式计算。
这些困惑度值对于正面和负面答案表示模型如何将问题与这些答案对齐的衡量。我们将它们直接解释为logits并使用softmax变换来计算输入问题的各类别概率。此方法使我们能够从ChatNT中为每个问题示例推导概率。我们对每个任务的1,000个测试示例应用了此方法。
为了校准这些预测我们首先计算了基于困惑度的概率使用10,000个训练示例作为我们的校准数据集并用它们来拟合Platt模型。更具体地我们使用scikit-learn中的逻辑回归作为校准模型并使用以下参数进行训练逆正则化因子C 0.1并使用lbfgs求解器。逻辑回归模型学习将ChatNT的基于困惑度的概率映射到更准确的尺度。然后我们应用该模型来校准上述1,000个测试示例的概率。
作为度量我们计算了原始基于困惑度的概率和校准后的概率的接收者操作特征曲线下面积AUROC和MCC。
归因图计算 我们使用基于梯度的方法计算归因分析的显著性图使用梯度⨀输入方法。对于每个序列我们计算模型第一次预测的输出标记‘是’或‘否’相对于输入序列的梯度产生一个位置特定的图突出显示每个k-mer对模型预测的贡献。
此分析在每个标签的500个测试集序列上进行任务为剪接供体和剪接受体并在每个标签的200个序列上进行任务为TATA启动子。输入序列被标记化为6长度的k-mer每个标记创建一个one-hot编码向量。这些one-hot编码的标记随后与模型的嵌入矩阵相乘从而能够计算相对于输入的梯度而不是它们的离散实体。这些梯度被逐元素相乘得到每个k-mer在其相应位置的梯度敏感性按照梯度⨀输入方法。我们取梯度的绝对值以捕捉每个k-mer对预测输出的贡献大小。
为了总结k-mer的贡献使用归因图生成每个序列的序列标志展示每个k-mer的相对重要性。我们使用Logomaker根据归因分数的相对重要性缩放每个k-mer的高度。此外对于每个归因图我们识别出归因值最高的五个k-mer并将它们汇总允许我们通过聚合这些k-mer的出现频率计算全局k-mer频率。这为我们提供了最具归因值的k-mer及其在所有序列中的频率分布的见解。
最后我们通过对序列归因图取平均值并选择最大归因位置的k-mer来计算每个任务的序列标志。围绕该k-mer的子序列包括其左右两侧的区域被转换为位置权重矩阵并使用Logomaker可视化为序列标志。