当前位置：首页 > news >正文

织梦做旅游网站中国网络营销公司

news 2026/4/8 17:49:29

织梦做旅游网站,中国网络营销公司,网站外部链接合理建设,银川网站制作公司https://arxiv.org/pdf/2309.01029 目录可解释性在大型语言模型中#xff1a;一项调查摘要1 引言2 LLMs的训练范式2.1 传统微调范式2.2 提示范式 3 传统微调范式的解释3.1 局部解释3.1.1 基于特征归因的解释3.1.2 基于注意力的解释3.1.3 基于示例的解释 3.2 全局解释3.2.1 基…https://arxiv.org/pdf/2309.01029 目录可解释性在大型语言模型中一项调查摘要1 引言2 LLMs的训练范式2.1 传统微调范式2.2 提示范式 3 传统微调范式的解释3.1 局部解释3.1.1 基于特征归因的解释3.1.2 基于注意力的解释3.1.3 基于示例的解释 3.2 全局解释3.2.1 基于探针的解释3.2.2 神经元激活解释3.2.3 基于概念的解释3.2.4 机制性可解释性 3.3 利用解释3.3.1 调试模型3.3.2 改进模型 4 解释提示范式4.1 基础模型解释4.1.1 解释上下文学习4.1.2 解释CoT提示4.1.3 表示工程 4.2 助手模型解释4.2.1 解释微调的作用4.2.2 解释幻觉 4.3 利用解释4.3.1 改进LLMs4.3.2 下游应用 5 解释评估5.1 传统微调范式的解释评估5.2 提示范式中的解释评估 6 研究挑战6.1 缺乏真值解释6.2 新兴能力的来源6.3 两种范式的比较6.4 LLMs的捷径学习6.5 注意力冗余6.6 从快照可解释性转向时间分析6.7 安全和伦理 7 结论可解释性在大型语言模型中一项调查摘要大型语言模型LLMs在自然语言处理方面展示了令人印象深刻的能力。然而它们的内部机制仍然不清晰这种缺乏透明度为下游应用带来了不必要的风险。因此理解和解释这些模型对于阐明它们的行为、限制和社会影响至关重要。在本文中我们介绍了一种可解释性技术的分类并为解释基于Transformer的语言模型提供了一个结构化的概述。我们根据LLMs的训练范式对技术进行分类传统的基于微调的范式和基于提示的范式。对于每种范式我们总结了生成单个预测的局部解释和整体模型知识全局解释的目标和主要方法。我们还讨论了评估生成解释的指标并讨论了如何利用解释来调试模型和提高性能。最后我们检查了在LLMs时代与常规深度学习模型相比解释技术的关键挑战和新兴机遇。 1 引言大型语言模型LLMs如BERTDevlin等人2019a、GPT-3Brown等人2020、GPT4OpenAI2023b、LLaMA-2Touvron等人2023b和ClaudeAnthropicAI2023在广泛的自然语言处理NLP任务中展示了令人印象深刻的性能。像微软、谷歌和百度等主要技术公司已在他们的商业产品和服务中部署了LLMs以增强功能。例如微软利用GPT-3.5来提高新必应的搜索相关性排名Mehdi2023。由于LLMs是众所周知的复杂“黑箱”系统它们的内部工作机制是不透明的而且高复杂性使得模型解释变得非常具有挑战性。这种模型透明度的缺乏有时会导致有害内容的生成或幻觉Weidinger等人2021。因此开发可解释性以揭示这些强大模型的工作原理至关重要。可解释性指的是以人类可理解的术语解释或展示模型行为的能力Doshi-Velez和Kim2017Du等人2019a。提高LLMs的可解释性至关重要原因有两个。首先对于普通用户来说可解释性通过以易于理解的方式阐明模型预测背后的推理机制建立适当的信任而无需技术专长。这样最终用户能够理解LLMs的能力、限制和潜在缺陷。其次对于研究人员和开发人员来说解释模型行为提供了洞察力以识别无意的偏见、风险和性能改进的领域。换句话说可解释性作为一种调试工具可以快速推进模型在下游任务上的性能Strobelt等人2018Bastings等人2022Yuksekgonul等人2023。它有助于跟踪模型能力随时间的变化比较不同模型并为现实世界部署开发可靠、道德和安全的模型。与传统的深度学习模型相比LLMs在参数和训练数据的规模上引入了复杂的挑战和激动人心的机遇用于可解释性研究。首先随着模型变得更大由于内部复杂性的增加和训练数据的庞大理解和解释它们的决策过程变得更加困难。这种复杂性还要求大量的计算资源来生成解释。一方面传统的实用特征归因技术如基于梯度的方法Sundararajan等人2017和SHAP值Lundberg和Lee2017a可能需要大量的计算能力来解释具有数十亿参数的LLMs。这使得这些解释技术对于最终用户可以利用的实际应用来说不太实用。另一方面这种增加的复杂性使得深入分析变得具有挑战性阻碍了模型的调试和诊断。此外理解LLMs在上下文学习Li等人2023b和思维链提示Wu等人2023a方面的独特能力以及幻觉现象对于解释和改进模型是不可或缺的。其次这种规模也促进了可解释性技术的创新并提供了对模型行为更丰富的见解。例如LLMs可以为其自身的决策过程提供思维链解释。此外最近的研究发现LLMs可以作为工具为其他机器学习模型所做的预测提供事后解释Kroeger等人2023。为了更好地理解和增强LLMs必须回顾现有的可解释性技术并发展对潜在未来方向的理解。在本文中我们提供了一种全面的方法概述用于解释基于Transformer的语言模型。在第2节中我们介绍了应用LLMs的两个主要范式1传统的下游微调范式和2提示范式。基于这种分类我们在第3节中回顾了微调LLMs的可解释性方法在第4节中回顾了提示LLMs的可解释性方法。在第5节中我们讨论了可解释性方法的评估。最后在第6节中我们进一步讨论了与传统深度学习模型相比解释LLMs的研究挑战并提供了潜在未来研究方向的见解。本文旨在全面组织对解释复杂语言模型的最新研究进展。 Feature Attribution Explanation - 特征归因解释Attention-based Explanation - 基于注意力的解释Local Explanation - 局部解释Example-based Explanation - 基于示例的解释Natural Language Explanation - 自然语言解释Probing-based Explanation - 基于探针的解释Traditional Fine-tuning - 传统微调 Neuron Activation Explanation - 神经元激活解释 Global Explanation - 全局解释Paradigm (Sec.3) - 范式第3节Concept-based Explanation - 基于概念的解释Mechanistic Interpretability - 机制性可解释性Using Explanation - 使用解释 Debuging Models - 调试模型Improving Models - 改进模型 Explaining Incontext Learning - 解释上下文学习Explaining CoT Prompting - 解释思维链提示Base Model - 基础模型Representation Engineering - 表示工程Explaining Role of Finetuning - 解释微调的作用LLM - 大型语言模型Prompting Paradigm (Sec.4) - 提示范式第4节Assistant Model - 助手模型Explaining Hallucination - 解释幻觉Explainability - 可解释性Uncertainty Quantification - 不确定性量化Using Explanation - 使用解释 Improving LLMs - 改进LLMsDownstream Applications - 下游应用 Evaluating Plausibility - 评估合理性Finetuning Paradigm - 微调范式 Evaluating Faithfulness - 评估忠实度 Explanation Evaluation (Sec.5) - 解释评估第5节 Evaluating Plausibility - 评估合理性Prompting Paradigm - 提示范式 Evaluating Faithfulness - 评估忠实度图1我们将LLM可解释性分为两个主要范式。基于这种分类我们总结了属于这两种范式的LLM的不同种类的可解释性技术。我们还讨论了在这两种范式下生成的解释的评估。 2 LLMs的训练范式 LLMs的训练可以广泛地分为两个范式即传统的微调和提示基于它们如何用于适应下游任务。由于两种范式之间存在显著的区别因此分别提出了各种类型的解释如图1所示。 2.1 传统微调范式在这个范式中首先在大量未标记的文本数据上预训练一个语言模型然后在特定下游领域的一组标记数据上进行微调例如在GLUE基准测试中的SST-2、MNLI和QQPWang等人2019。在微调期间很容易在语言模型的最终编码器层之上添加全连接层允许其适应各种下游任务Rogers等人2021。这个范式已经为中等大小的语言模型显示了成功通常包含高达十亿个参数。例子包括BERTDevlin等人2019a、RoBERTaLiu等人2019、ELECTRAClark等人2020、DeBERTaHe等人2021等。这个范式的解释集中在两个关键领域1理解自监督预训练如何使模型获得对语言的基础理解例如语法、语义和上下文关系2分析微调过程如何使这些预训练模型具备有效解决下游任务的能力。 2.2 提示范式提示范式涉及使用提示例如带有空白的自然语言句子供模型填充以实现零样本或少样本学习而无需额外的训练数据。在这个范式下的模型可以分为两种类型基于它们的开发阶段基础模型随着LLMs在大小和训练数据上的扩展它们展示了令人印象深刻的新能力而无需额外的训练数据。其中一种能力是通过提示进行少样本学习。这种类型的范式通常适用于大型语言模型具有数十亿参数例如GPT-3Brown等人2020、OPTZhang等人2022b、LLaMA-1Touvron等人2023a、LLaMA-2Touvron等人2023b、FalconAlmazrouei等人2023。这些模型被称为基础模型或基础模型2它们可以与用户聊天而无需进一步与人类偏好对齐。大型模型通常适合这个范式大小超过10亿。例如LLaMA-2Touvron等人2023b有高达700亿参数。基础模型的解释旨在理解模型如何学习利用其预训练知识来响应提示。助手模型基础模型有两个主要限制1它们不能遵循用户指令因为预训练数据中包含的指令-响应示例很少2它们倾向于生成有偏见和有害的内容Carlini等人2023。为了解决这些限制基础模型通过监督微调进一步微调见图2以实现人类水平的能力如开放领域对话。关键思想是通过指令调整和人类反馈的强化学习RLHF使模型的响应与人类反馈和偏好保持一致。这个过程最典型的方式是通过提示响应演示对进行指令调整并通过人类反馈的强化学习。模型使用自然语言反馈进行训练以执行复杂的多轮对话。属于这一类别的模型包括OpenAI的GPT-3.5和GPT4Bubeck等人2023、Anthropic的ClaudeAnthropicAI2023以及开源模型如Meta的LLaMA-2-ChatTouvron等人2023b、AlpacaTaori等人2023和VicunaChiang等人2023。这些模型可以称为助手模型、聊天助手或对话模型。这里的解释侧重于理解模型如何从对话中学习开放式的交互行为。图中的内容描述了大型语言模型LLMs的预训练和微调过程。以下是中英文的对应翻译 Large scale - 大规模Finetuning - 微调text corpus dataset - 文本语料库数据集Random - 随机Unsupervised - 无监督Base model - 基础模型Supervised Fine-tuning - 有监督微调Assistant model - 助手模型Initialization - 初始化pre-training - 预训练e.g., LLaMA-2 - 例如LLaMA-2RLHF - 人类反馈的强化学习Reinforcement Learning from Human Feedbacke.g., LLaMA-2-Chat - 例如LLaMA-2-Chat 图2LLMs 通过随机初始化进行无监督预训练以创建基础模型。然后可以通过指令调整和RLHF对基础模型进行微调以产生助手模型。 3 传统微调范式的解释在本节中我们回顾了使用预训练和下游微调范式训练的LLMs的解释技术。首先我们介绍了提供局部解释第3.1节和全局解释第3.2节的方法。在这里局部解释旨在提供语言模型对特定输入实例进行预测的理解而全局解释旨在提供LLM总体工作方式的广泛理解。接下来我们讨论了如何使用解释来调试和改进模型第3.3节。图3局部解释由四个子领域组成。每个子领域的组织结构以及特定个体解释方法的示例都已给出。 (a) 在第6层句子A和句子B之间的注意力矩阵的二分图注意力表示Vig, 2019 (b) 通过删除“did”问题被扰动对于简化后的问题答案“Colorado Springs experiments”的置信度甚至增加了尽管对于人类来说答案是无意义的Feng等人2018 © 基于变换器的语言模型的Shapley值Chen等人2023c (d) 提供输入文本的重要部分的解释以协助常识推理Rajani等人2019 (e) 提供输入文本的负面示例以测试模型在情感预测方面的能力并且也可以用来提高模型性能Wu等人2021 (f) 以人类几乎无法察觉的方式改变输入文本但分类结果却偏离了原始意图Jin等人2020。 Attention Visualization - 注意力可视化 Layer:6 - 层6 Attention: Sentence A - Sentence B - 注意力句子A - 句子B Commonsense Reasoning - 常识推理 Question: While eating a hamburger with friends, what are people trying to do? - 问题和朋友一起吃汉堡时人们试图做什么 Choices: have fun, tasty, or indigestion - 选项享受乐趣、美味或消化不良 Explanation: Usually a hamburger with friends indicates a good time. - 解释通常和朋友一起吃汉堡意味着享受美好时光。 Sentiment Analysis - 情感分析 Original text: It is great for kids (positive). - 原始文本这对孩子们有好处积极。 Negation examples: It is not great for kids (negative). - 否定示例这对孩子们没有好处消极。 Question Answering - 问题回答 Context: In 1899, John Jacob Astor IV invested $100,000 for Tesla to further develop and produce a new lighting system. Instead, Tesla used the money to fund his Colorado Springs experiments. - 上下文1899年约翰·雅各布·阿斯特四世投资了10万美元给特斯拉以进一步开发和生产新的照明系统。相反特斯拉用这笔钱资助了他的科罗拉多斯普林斯实验。 Question: What did Tesla spend Astor’s money on? - 问题特斯拉把阿斯特的钱花在了什么上 Perturbed text: The characters, cast in impossibly engineered circumstances, are fully estranged from reality (Positive) - 扰动后的文本角色们被置于不可能设计的情况下完全脱离现实积极。 Confidence: 0.78 - 0.91 - 置信度0.78 - 0.91 Feature Attribution - 特征归因 Perturbation-based - 基于扰动的 Adversarial Example - 对抗性示例 Gradient-based - 基于梯度的 Surrogate model - 替代模型 Decomposition - 分解 Counterfactual - 反事实的请注意图中的 “[CLS]” 和 “[SEP]” 是在某些基于Transformer的模型中使用的特殊的序列标记分别表示序列的开始和结束。在翻译时通常保留这些标记不变。 3.1 局部解释第一类解释是指解释LLM生成的预测。让我们考虑一个场景我们有一个语言模型我们将特定文本输入到模型中。然后模型产生一个分类输出如情感分类或下一个标记的预测。在这种情况下解释的作用是阐明模型生成特定分类或标记预测的过程。由于目标是解释LLM对特定输入进行预测的方式我们称之为局部解释。这一类包括生成解释的四种主要方法基于特征归因的解释、基于注意力的解释、基于示例的解释和自然语言解释见图3。 3.1.1 基于特征归因的解释特征归因方法旨在衡量每个输入特征例如单词、短语、文本跨度对模型预测的相关性。给定一个由n个单词特征{x1, x2, …, xn}组成的输入文本x微调后的语言模型f生成输出f(x)。归因方法为输入单词特征xi分配一个相关性分数R(xi)以反映其对模型预测f(x)的贡献。遵循此策略的方法主要可以分为四种类型基于扰动的方法、基于梯度的方法、替代模型和基于分解的方法。基于扰动的解释基于扰动的方法通过扰动输入样本如移除、掩盖或改变输入特征并评估模型输出变化来工作。最直接的策略是留一法它通过在不同层次上移除特征包括嵌入向量、隐藏单元Li等人2017、单词Li等人2016、标记和跨度Wu等人2020b来衡量特征的重要性。基本思想是移除最少的输入集以改变模型的预测。输入集的选择采用各种指标如置信度分数或强化学习。然而这种移除策略假设输入特征是独立的并忽略了它们之间的相关性。此外基于置信度分数的方法可能因过度自信模型的病理行为而失败Feng等人2018。例如即使减少的输入毫无意义模型也可以保持高置信度的预测。这种过度自信问题可以通过使用常规示例的正则化、标签平滑和微调模型的置信度来缓解Feng等人2018。此外当前的扰动方法倾向于生成分布之外的数据。这可以通过限制扰动数据保持接近原始数据分布来缓解Qiu等人2021。基于梯度的解释基于梯度的归因技术通过分析输出相对于每个输入维度的偏导数来确定每个输入特征的重要性。导数的幅度反映了输出对输入变化的敏感性。原始梯度方法的基本公式描述为[ s_j \frac{\partial f(x)}{\partial x_j} ]其中( f(x) )是网络的预测函数( x_j )表示输入向量。这种方法也经过改进如梯度×输入Kindermans等人2017并已用于各种解释任务如计算标记级别的归因分数Mohebbi等人2021。然而普通的基于梯度的方法有一些主要限制。首先它们不满足输入不变性这意味着像常数偏移这样的输入转换可以生成误导性的归因而不影响模型预测Kindermans等人2017。其次它们无法处理零值输入。第三它们受到梯度饱和的影响大梯度占主导地位掩盖了较小的梯度。差分参考方法如集成梯度IG被认为是解决这些挑战的好方法因为它满足了更多归因的公理Sundararajan等人2017。IG及其变体的基本机制是在输入在参考点和实际输入之间插值时累积梯度。基线参考点对可靠评估至关重要但选择适当基线的标准仍然不清楚。一些使用噪声或训练数据中的合成参考但性能不能保证Lundstrom等人2022。此外IG难以捕捉饱和区域的输出变化应该专注于未饱和区域Miglani等人2020。IG的另一个挑战是实现高质量积分的计算开销。由于IG沿着直线路径积分这与离散的词嵌入空间不匹配因此已经开发了变体以适应语言模型Sikdar等人2021Sanyal Ren2021Enguehard2023。替代模型替代模型方法使用更简单、更易于人类理解的模型来解释黑盒模型的单个预测。这些替代模型包括决策树、线性模型、决策规则和其他更易于人类理解的白盒模型。解释模型需要满足可加性意味着预测的总影响应该等于每个解释因素的个别影响之和。此外可解释表示的选择也很重要。与原始特征不同这些表示应该足够强大以生成解释但仍然对人类来说易于理解和有意义。一个早期代表性的局部解释方法称为LIMERibeiro等人2016采用这种范式。为了为特定实例生成解释替代模型在围绕该实例局部采样的数据上进行训练以近似原始复杂模型在局部区域的行为。然而研究表明LIME不满足某些加性归因属性如局部准确性、一致性和缺失性Lundberg Lee2017b。SHAP是另一个满足加性归因方法理想属性的框架Lundberg Lee2017b。它将特征视为合作预测游戏中的参与者并为每个特征子集分配一个值反映它们对模型预测的贡献。与为每个实例构建局部解释模型不同SHAP使用整个数据集计算Shapley值Shapley等人1953。应用SHAP的挑战包括选择合适的方法来移除特征和有效估计Shapley值。特征移除可以通过用基线如零、均值或来自分布的样本替换值来完成但选择正确的基线尚不清楚。估计Shapley值也面临计算复杂性呈指数级增长的特征数量。已经采用了加权线性回归、排列和其他特定于模型的方法Chen等人2023c来估计Shapley值。尽管复杂但由于其对大型深度模型的表达能力SHAP仍然流行并广泛使用。为了使SHAP适应基于Transformer的语言模型已经提出了如TransSHAP等方法Chen等人2023cKokalj等人2021。TransSHAP主要关注将SHAP适应于子词文本输入并提供顺序可视化解释非常适合理解LLMs如何进行预测。基于分解的方法分解技术的目标是将相关性分数分解为来自输入的线性贡献。一些工作直接从最终输出层向输入分配相关性分数Du等人2019b。另一系列工作从最终输出层向输入逐层归因相关性分数。逐层相关性传播LRPMontavon等人2019和泰勒型分解方法DTDMontavon等人2015是两类常用的方法。总体思想是将层l1中神经元j的相关性分数R(l1)j分解为层l中每个输入神经元i的相关性分数可以表示为R(l1)j Σi R(l,l1)i←j。关键区别在于LRP和DTD使用的相关性传播规则。这些方法可以应用于将相关性分数分解为来自模型组件的贡献如注意力头Voita等人2019、标记和神经元激活Voita等人2021。这两种方法都已应用于推导基于Transformer的模型中输入的相关性分数Wu Ong2021Chefer等人2021。 3.1.2 基于注意力的解释注意力机制通常被视为一种专注于输入最相关部分的方式。直观上注意力可能捕捉输入中间状态之间的有意义的相关性这些相关性可以解释模型的预测。许多现有方法尝试仅基于注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可以分为三个主要组可视化方法、基于函数的方法和基于探针的方法。由于基于探针的技术通常用于学习全局解释它们在第3.2.1节中讨论。此外关于注意力权重是否真的适合解释的研究中存在广泛的争论。这个主题将在后面的讨论中涵盖。图中的内容展示了两种不同的注意力表示方法二分图和热图用于显示模型在处理两个句子时的注意力权重分配。以下是中英文的对应翻译 Layer:4 - 层4v|Attention:All - 注意力全部V - 垂直线表示二分图的分隔AttentionHeatmap - 注意力热图[CLS] - [分类标记][SEP] - [分隔符]the - 这个/那个rug - 地毯cat - 猫on - 在…上面sat - 坐sit的过去式lay - 躺lay的过去式mat - 垫子图4二分图注意力表示和热图用于展示注意力矩阵。 (a) Bipartite Graph - (a) 二分图(b) Heatmap - (b) 热图图中的二分图(a)部分使用了线条连接来表示不同句子成分之间的注意力关系而热图(b)部分则通过颜色的深浅来表示注意力的强度。这种可视化方法有助于理解模型在处理语言时如何分配其注意力资源。可视化通过显示注意力模式和统计数据可视化注意力提供了一种直观的方式来理解模型的工作原理。常见的技术包括使用二分图或热图可视化单个输入的注意力头。这两种方法只是注意力的不同视觉表示形式一种是图表另一种是矩阵如图4所示。可视化系统在显示多个尺度上的关系方面有所不同它们以不同形式表示不同模型的注意力。在输入数据层面显示前提句和假设句之间每个单词/标记/句子对的注意力分数以评估模型预测的忠实度Vig2019。一些系统还允许用户手动修改注意力权重以观察效果Jaunet等人2021。在神经元层面可以检查个别注意力头以理解模型行为Park等人2019Vig2019Hoover等人2020Jaunet等人2021。在模型层面可视化跨头部和层的注意力以识别模式Park等人2019Vig2019Yeh等人2023。一项值得注意的工作集中在可视化注意力流以追踪注意力的演变这可以用来理解信息转换并实现模型之间训练阶段的比较DeRose等人2020。因此注意力可视化提供了一种明确、交互的方式来诊断偏见、错误并评估决策规则。有趣的是它还有助于提出解释性假设。基于函数的方法由于原始注意力不足以完全解释模型预测一些研究已经开发了增强型变体作为替代品以识别重要的归因以供解释。梯度是衡量敏感性和显著性的广泛认可的度量因此它被广泛纳入自定义的归因分数中。这些自定义的归因分数在定义涉及注意力权重的梯度方面有所不同。例如梯度可以是输出相对于注意力权重的偏导数Barkan等人2021或者是偏导数的集成版本Hao等人2021。梯度和注意力之间的操作也可以不同如逐元素乘积。总的来说这些融合了注意力和梯度的归因分数通常比单独使用任何一个表现得更好因为它们融合了更多有助于突出重要特征并理解网络的信息。关于注意力的争论对注意力头进行了广泛的研究评估但关于这种方法有效性的争论不太可能很快得到解决。这场争论源于几个关键方面。首先一些工作将基于注意力的解释与其他方法如LIME的解释进行比较。他们发现注意力通常没有识别预测中最重要的特征Serrano Smith2019Jain Wallace2019。与这些替代方案相比它们提供的解释较差Thorne等人2019或者不能与其他解释方法相关联Jain Wallace2019Liu等人2020Ethayarajh Jurafsky2021。其次一些直接批评注意力机制在模型预测中的有用性。他们认为原始注意力未能捕捉文本中的句法结构可能并不像通常假设的那样对预测做出贡献Mohankumar等人2020。此外原始注意力包含冗余信息降低了其在解释中的可靠性Bai等人2021Brunner等人2019。然而其他研究则反驳了这些说法。例如评估解释模型的一致性可能会在各种方法中带来挑战不仅限于注意力Neely等人2021。此外不重新训练的注意力权重的操纵可能会产生偏见评估Wiegreffe Pinter2019。此外BERT中的注意力头已被证明有效地编码了句法Clark等人2019。为了使注意力可解释还探索了通过优化输入表示Mohankumar等人2020、规范学习目标Moradi等人2021、避免偏见学习Bai等人2021甚至融入人类推理Arous等人2021的技术解决方案。但持续争论的核心原因是缺乏确立的评估标准这将在第5.1节中进一步讨论。 3.1.3 基于示例的解释基于示例的解释旨在从个别实例的角度解释模型行为Koh Liang, 2017。与基于模型或基于特征的解释不同基于示例的解释展示了模型输出如何随着不同输入而变化。我们关注对抗性示例、反事实解释和数据影响。对抗性示例通常是通过操纵输入数据中较不重要的部分合成的。它们揭示了模型失败或出错的案例暴露了其弱点。相比之下反事实解释主要是通过改变输入数据的重要部分生成的它们在算法补救等场景中很受欢迎因为它们提供了达到理想结果的补救措施。与操纵输入不同数据影响检查训练数据如何影响模型对测试数据的预测。对抗性示例研究表明神经模型对输入数据的微小变化非常敏感。这些精心制作的修改可以在几乎不被人类察觉的情况下改变模型的决策。对抗性示例在暴露模型失败的领域至关重要并且通常被添加到训练数据中以提高鲁棒性和准确性。对抗性示例最初是通过单词级别的操作生成的如错误、删除和插入这些在检查时很明显。更高级的基于标记的扰动方法如TextFoolerJin等人2020已经发展起来它根据排名首先策略性地针对重要的单词。然后根据单词嵌入相似度、相同的词性、句子语义相似度和预测变化来选择候选词。然而与上下文化的表示相比单词嵌入在句子表示上受到限制通常导致不连贯的片段。通过专注于上下文化的表示采用掩码然后填充过程的一系列工作已经取得了最先进的性能Garg Ramakrishnan, 2020; Li等人2021b。它们利用像BERT这样的预训练掩码语言模型进行包括替换、插入和合并在内的扰动。通常使用大型语料库来训练掩码语言模型生成上下文化的表示并获得标记重要性。然后模型被冻结并按排名顺序对标记执行扰动操作。对于替换生成的示例替换掩码标记。对于注入新标记被插入到掩码标记的左侧或右侧。对于合并一个双字母被掩码并被一个标记替换。SemAttackWang等人2022b提出了一个更通用且有效框架适用于包括错别字空间、知识空间和上下文化语义空间在内的各种嵌入空间。输入标记首先被转换到嵌入空间以生成扰动嵌入然后迭代优化以满足攻击目标。实验表明即使在白盒设置中有防御措施替换5%的单词也可以将BERT的准确率从70.6%降低到2.4%。SemAttack的出色攻击性能可能是因为它直接操纵嵌入。反事实解释反事实解释是一种常见的因果解释形式将输入视为Granger因果下预测的原因。给定观察到的输入x和某些特征已更改的扰动xˆ预测y将变为yˆ。反事实解释揭示了基于某些观察到的输入变化将会发生什么。它们通常被生成以满足特定需求例如通过选择特定的反事实来实现算法补救。示例可以通过人类生成或释义或单词替换等扰动技术生成。代表性的生成器PolyjuiceWu等人2021支持输入句子的多种排列类型如删除、否定和洗牌。它还可以根据其重要性来扰乱标记。然后Polyjuice在特定于下游任务的原始和扰动句子对上微调GPT-2以提供现实的反事实。与以前依赖众包工作者的方法Kaushik等人2020的2分钟相比它以每个反事实10秒的中值速度生成更广泛的反事实。反事实解释生成被构建为一个两阶段方法首先掩码/选择重要标记然后填充/编辑这些标记Treviso等人2023; Ross等人2021。具体来说MiCE在第一阶段使用基于梯度的归因来选择要掩码的标记并专注于通过二进制搜索优化最小编辑Ross等人2021。相比之下CREST利用选择性合理化模型的合理性并放宽了MiCE的严格最小性约束。相反CREST使用合理化器的稀疏预算来控制接近度Treviso等人2023。实验表明这两种方法在有效性和流畅性方面都生成了高质量的反事实。数据影响这组方法通过测量它们对测试点损失的影响来表征个别训练样本的影响Yeh等人2018。这个概念最初来自统计学描述了在移除特定数据点后模型参数如何受到影响。通过观察影响模式我们可以加深对模型如何根据其训练数据进行预测的理解。由于研究人员已经认识到数据的重要性已经开发了几种方法从数据为中心的角度分析模型。首先影响函数使我们能够通过测量梯度和Hessian-向量积来近似概念而无需重新训练模型Koh Liang, 2017。Yeh等人2018将测试点的预测分解为训练点的线性组合正值表示兴奋性训练点负值表示抑制性点。Data Shapley采用蒙特卡洛和基于梯度的方法来量化数据点对预测器性能的贡献更高的Shapley值告诉所需的数据类型以改进预测器Ghorbani Zou, 2019。另一种方法使用随机梯度下降SGD并通过分析不包含该点的小批量的Hessian向量来推断训练点的影响Hara等人2019。基于这种方法TracIn在训练过程中使用微积分定理和检查点来推导训练点的影响Pruthi等人2020。然而上述方法通常即使应用于中等大小的模型也伴随着昂贵的计算成本。为了解决这个问题可以考虑两个关键维度1减少搜索空间和2减少在Hessian向量中近似的参数数量。Guo等人2020还展示了影响函数在模型调试中的适用性。最近Anthropic采用了特征值校正的Kronecker分解近似曲率EK-FAC来扩展这种方法到具有8.1亿、6.4亿、22亿和52亿参数的LLMs。结果表明随着模型规模的增加有影响力的序列更好地捕获查询的推理过程而较小的模型通常提供语义上无关的信息片段Grosse等人2023。 3.2 全局解释与旨在解释模型单个预测的局部解释不同全局解释提供了对语言模型内部工作机制的洞察。全局解释的目标是理解各个组成部分神经元、隐藏层和更大的模块所编码的内容并解释各个组成部分学习到的知识/语言属性。我们检视了三种主要的全局解释方法分析模型表示和参数的探针方法确定模型对输入反应的神经元激活分析以及基于概念的方法。 3.2.1 基于探针的解释自监督预训练过程导致模型从训练数据中获得广泛的语言知识。探针技术是指用来理解像BERT这样的LLMs捕获的知识的方法。基于分类器的探针基于分类器的探针的基本思想是在像BERTDevlin等人2019b、T5Raffel等人2020这样的预训练或微调语言模型之上训练一个浅层分类器。为了执行探针首先冻结预训练模型的参数模型生成输入单词、短语或句子的表示并学习注意力权重等参数。这些表示和模型参数被输入到探针分类器中其任务是识别模型所获得的某些语言属性或推理能力。一旦探针训练完成它将在保留数据集上进行评估。标记数据来自可用的标注器或黄金注释数据集。尽管每个探针分类器通常针对特定任务定制但训练分类器以探测不同知识的方法是一致的。我们将根据探测的模型组成部分即向量表示和模型参数呈现相关研究。我们首先检查研究向量表示以测量嵌入知识的工作。在这一类中知识意味着低层次的语法知识或高层次的语义知识。研究表明较低层次更能预测单词级的语法而较高层次更能捕获句子级的语法和语义知识Belinkov等人2017Peters等人2018Blevins等人2018Jawahar等人2019。句法标签可以进一步细分为单词级或句子级类别。单词级句法标签提供有关每个单词的信息例如词性标签、形态学标签、最小短语成分标签等。句子级句法标签描述整个句子的属性例如语态主动或被动、时态过去、现在、未来和顶级句法序列。对于单词级句法探针通常通过依赖解析器Dozat Manning2017引入解析树以帮助提取依赖关系Tenney等人2019b。还开发了一种结构探针通过度量所有单词对之间的句法距离在特定向量空间中识别解析树Hewitt Manning2019Chen等人2021。这表明句法知识嵌入在向量表示中并且很受欢迎用于重建探针任务的依赖树。然而人们担心探针分类器是否在表示中学习语法或只是任务。一些人认为只有丰富的句法表示才能使简单分类器表现良好Lin等人2019。Kunz Kuhlmann2020推翻了这些说法证明其良好表现来自于编码局部邻近单词。研究表明依赖语义线索的分类器无法提取语法Maudslay Cotterell2021。相反其他研究表明像BERT这样的模型以多种方式编码相应信息Mohebbi等人2021Li等人2021a。因此探测句法信息的有效性仍需要进一步研究。由于句子级句法信息通常分布在每个单词中因此在没有依赖树检索的情况下使用探针分类器对它们的预测更简单。局部句法和语义通常一起研究因为它们调查相同的对象如神经元、层和上下文表示。差异主要是由于它们的训练目标和训练数据Tenney等人2019a。学习语义知识的能力通常在诸如指代消解、命名实体识别、关系分类、问题类型分类和支持事实等任务上进行检查Van Aken等人2019。一个突出的框架称为边缘探针Tenney等人2019b已经提出提供全面的句法和语义探针工具。不同的是它既采用预训练表示也采用整数跨度作为输入并将它们转换为固定长度的跨度表示这些表示被用来训练探针分类器。由于跨度表示的定义这种方法变得非常通用并且广泛应用于句法和语义探针任务。一些工作简单地通过测量代词的转换表示与固定长度内前面单词之间的相似度来探测指代关系并为更相似的分配更高的概率Sorodoc等人2020。涉及提示的探针工作通常面临零样本和少样本学习的挑战。这些模型的评估更加复杂因为提示质量也显著影响性能Zhang等人2022a。即使使用精心设计的数据集和提示设计结果仍需要进一步检查。对于注意力头的探针分类器其设计方式类似即在预训练模型之上训练一个浅层分类器来预测某些特征。除了将注意力头与句法和语义相关联外还研究了注意力头中的模式。代表性的工作是训练分类器使用在随机输入上采样的自注意力图来识别模式然后根据这一点修剪头以提高模型效率Kovaleva等人2019Clark等人2019。而不是进行预测一些工作将注意力视为语义信息指标并通过层向后追踪它累积它并将语义信息分发到输入标记上Wu等人2020a。但问题是追踪的注意力是否在不同的头中等价地表示语义信息。尽管高探针性能通常归因于表示的质量和可解释性Belinkov2022但这种假设仍然基本上未被证明且难以验证。在我们能够全面解决这些挑战之前增加约束如选择性Hewitt Liang2019这衡量探针与不相关控制任务相比有选择性地针对感兴趣的语言属性的程度可能有助于在过渡期间减少潜在的探针偏见。无参数探针还有另一分支的数据中心探针技术不需要探针分类器。相反它们设计针对特定语言属性如语法量身定制的数据集Marvin Linzen2018。编码模型的性能说明了其捕获这些属性的能力。对于语言模型测量是基于正面例子的概率是否高于负面例子。也可以使用数据驱动的提示搜索执行探针任务通过语言模型的文本生成或完成能力来检查某些知识Petroni等人2019Apidianaki Soler2021Li等人2022。例如Ravichander等人2020证明了BERT通过零样本设置中完成填空任务即填充不完整句子中的空白编码了超类信息。结果表明BERT在所有样本的前5名中提供正确答案表现良好。然而正如Zhong等人2021所争论的训练数据集包括提示方法可以利用的规律来进行预测。语言模型捕获的真实事实知识变得模糊。 3.2.2 神经元激活解释与检查整个向量空间不同神经元分析着眼于对模型性能至关重要或与特定语言属性相关的表示中的个体维度即神经元。一种简单的研究线遵循两个主要步骤首先以无监督的方式识别重要神经元。其次在监督任务中学习语言属性与个体神经元之间的关系。基于学习类似属性的不同模型通常共享相似的神经元这一假设这些共享的神经元根据相关性度量和学习到的权重等各种指标进行排名Bau等人2018Dalvi等人2019。或者也可以采用传统的监督分类来找到给定模型中的重要神经元Dalvi等人2019。通过消融实验等方法定量验证排名神经元的重要性例如掩蔽、擦除、可视化等。其他探针技术如贪婪高斯探针也出现了用于识别重要神经元Torroba Hennigen等人2020。然而现有方法难以平衡准确性和选择性Antverg Belinkov2022。直观地说为了进行解释应该检查所有神经元。然而由于计算成本高昂以及只有一小部分神经元对决策很重要的说法Bau等人2018Antverg Belinkov2022现有方法总是与排名算法结合使用。随着LLMs的泛化能力不断提高为个体神经元提供解释变得可行。OpenAI最近的一项研究展示了使用GPT-4为GPT-2 XL中的个体神经元激活生成自然语言解释OpenAI2023a。它使用GPT-4总结触发给定GPT-2 XL神经元高激活值的文本模式。例如GPT-4可以将一个神经元的模式总结为对电影、角色和娱乐的引用。每个神经元解释的质量通过测试GPT-4在新文本示例上模拟真实神经元行为的能力来评估。解释根据GPT-4模拟激活与真实激活之间的相关性进行评分见图5。高相关性表明了一个准确的解释捕捉了神经元编码的本质。超过1000个GPT-2 XL神经元被发现具有GPT-4生成的高分解释这解释了它们的大部分行为。这种自动生成的自然语言为GPT-2 XL中出现的内部计算和特征表示提供了直观的洞察。解释LLMs个体组成部分的一个常见限制是缺乏针对个体组成部分的真值解释注释。没有这些注释组件级解释的评估仍然具有挑战性。另一项最近的研究提出了Summarize and Score (SASC)解释流水线用于生成自然语言解释以解释大型语言模型中的模块Singh等人2023。首先SASC使用预训练的语言模型生成候选解释以找到从模块f中引起最积极反应的n-gram。然后SASC通过根据解释生成合成数据并测试f对这些数据的反应来评估每个候选解释。作者将SASC应用于解释BERTbert-base-uncased中的模块然后与人工标注的解释进行比较。比较表明SASC解释有时与人类解释相似。 3.2.3 基于概念的解释基于概念的可解释性算法将输入映射到一组概念上并测量每个预定义概念对模型预测的重要性得分。通过引入抽象概念模型可以以人类可理解的方式进行解释而不是基于低级特征。潜在空间中的信息也可以转化为可理解的解释。一个代表性的框架名为TCAVKim等人2018它使用方向导数来量化定义概念对模型预测的贡献。它首先用一组示例表示概念然后学习一个线性分类器作为“概念激活向量”CAV以检测感兴趣的概念。学习到的向量被用作输入在概念方向上的变化以测量预测对概念的敏感性即概念的重要性得分。TCAV最初是为计算机视觉提出的但也已经被调整用于使用IMDB敏感性数据集Captum进行情感分类的NLP模型。具体来说探索了两个概念积极形容词和中性。积极形容词概念指的是表达积极感情的一组形容词。中性概念涵盖了更广泛的领域与积极形容词不同。对于带有消极情绪的句子TCAV得分表明与中性相比积极形容词得分相对较低这与人类理解一致。然而TCAV需要额外的数据来描述概念概念分类器的性能很难保证。选择概念的另一种方式是通过使用带注释的数据集进行探针任务来识别神经元学习的概念Mu Andreas2021。研究表明神经元产生的解释不仅基于单个概念还基于逻辑形式的组合。可解释的神经元越多模型就越准确。基于概念的解释的一个常见陷阱是如何定义有用的概念。此外它总是受到可用描述性数据集的限制。 3.2.4 机制性可解释性机制性可解释性通过调查单个神经元及其在电路方面的连接来理解语言模型Anthropic2023Bricken等人2023。由于将神经模型的部分视为功能组件的动力我们单独讨论这一研究线。电路最初是为了解释直观易懂的视觉模型而提出的其中复杂对象的检测器可以由线检测器、曲线检测器等简单构建块构建。一种研究流研究神经网络的隐藏表示。这些表示可以用特征可视化。他们相信复杂的特征检测器可以从早期和更容易的特征检测器中实现。此外不同的特征也可以分散在许多多义性神经元上也称为叠加Olah等人2020a。另一种研究流研究连接神经元的权重旨在找到实现简单逻辑的有意义的算法。他们用电路方法处理网络的子图表示特征的线性组合以及逻辑运算这对于建立预测的因果关系至关重要。在电路层面的神经元解释基础上还探索了更大规模的功能组件。已经确定了三个现象1分支专业化2权重带3等变性。分支专业化描述了分支之间的特征组织观察到给定类型的特征被分组到一个分支中。这种现象存在于不同层次的层中相同的分支专业化可能在不同的架构和任务中都很稳健Voss等人2021。权重带通常出现在具有全局平均池化的最终层中的视觉模型中Petrov等人2021。等变性捕捉了神经网络中的对称性其中许多神经元从基本版本Olah等人2020b转换而来。当涉及到变换器时由于它们的架构电路通常以不同的方式工作和解释。最近对单层和双层仅注意力模型进行了研究。对于单层仅注意力模型可以从权重中获取二元组和跳过的三元组表。然而双层仅注意力变换器通过组合来自不同层的注意力头来展示“归纳头”Elhage等人2021。归纳头由两个注意力头组成。第一个注意力头负责将信息从上一个标记复制到下一个标记而第二个用于根据第一个注意力头的信息推断下一个标记。这种机制被认为是上下文学习in-context learning的来源已经通过多个不太确定的证据进行了演示。例如在上下文学习和归纳头的共现阶段观察到的相位变化以及在扰乱或敲除归纳头后相应的上下文学习转变。然而由于最新语言模型的复杂组件如多层和多层感知器这些模型中的“归纳头”理论是否仍然成立还有待观察Olsson等人2022。或者一些工作集中在包含大部分信息的前馈层上。在变换器中每个键被视为训练示例中文本模式的记忆。值基于键引起输出分布Geva等人2020。通过追踪GPT中隐藏状态激活的因果效应并改变在模型预测中决定性的模型权重一系列中间层被确定为与事实相关Meng等人2022。另一项研究将前馈层转换为子更新向量这被解释为一小组人类可解释的概念Geva等人2022。然而与每个部分都具有确定性功能的数字电路不同大型神经网络在组合上更具弹性和多功能性例如可以安全地移除整个层Veit等人2016McGrath等人2023。此外大多数现有的假设尚未在大型语言模型上进行测试。最近Lieberum等人2023探索了在70B Chinchilla模型中电路分析的可扩展性。结果表明激活修补Meng等人2022、注意力模式可视化Elhage等人2021和对数归因可以很好地适应而不是正确的字母头将信息从正确的内容标记移动到最终标记Lieberum等人2023。因此基于电路的解释仍然需要在LLMs上进行进一步研究。 3.3 利用解释在前面的小节中我们介绍了为LLMs生成解释的方法。在这个小节中我们将讨论如何将可解释性用作调试和改进模型的工具。 3.3.1 调试模型事后解释方法可以用来分析模型特征重要性的模式以识别其行为中的偏见或局限性Du等人2023。例如如果模型始终关注输入序列中的某些标记而不考虑上下文这可能表明模型依赖于启发式或偏见而不是真正理解输入序列的含义。最近的研究使用集成梯度来调试在自然语言理解任务中训练的语言模型发现它们在预测时使用捷径而不是复杂推理Du等人2021。具体来说这些模型倾向于在长尾分布的头部选择特征在训练初期就抓住这些捷径线索。这种捷径学习损害了模型的鲁棒性和对分布外样本的泛化能力。集成梯度解释也被用来检查语言模型对对抗性样本的鲁棒性Chen Ji2022。解释揭示了对抗性样本鲁棒的模型依赖于类似的特性而非鲁棒模型依赖于不同的关键特征。这些见解激发了开发更鲁棒的对抗性训练方法。 3.3.2 改进模型正则化技术可以用来提高模型解释的性能和可靠性。具体来说解释正则化ER方法旨在通过使模型的机制推理它关注的标记与人类推理对齐来提高LLM的泛化能力Joshi等人2022。例如提出了一个名为AMPLIFY的框架它使用事后解释方法生成自动化推理Ma等人2023。这些自动化推理被作为提示的一部分输入LLM进行预测。实验表明AMPLIFY通过10-25%的准确率提高了LLMs在各种任务上的表现即使在缺乏人类推理的情况下也是如此。另一项研究提出了ER-TESTJoshi等人2022这是一个框架它从三个维度评估ER模型的分布外OOD泛化未见过的数据集测试、对比集测试和功能测试。这比仅仅在分布内性能上提供了更全面的评估。他们考虑了三种类型的可解释性方法包括Input*Gradient、基于注意力的推理Stacey等人2022和学习推理Chan等人2022a。在情感分析和自然语言推理任务/数据集上ER-TEST显示ER对分布内性能影响很小但在OOD上获得了巨大的收益。提出了一个名为XMD的端到端框架用于基于解释的调试和改进Lee等人2022。XMD允许用户通过直观的界面对任务或实例级解释提供灵活的反馈。然后它通过正则化更新模型使其与用户反馈对齐的解释。使用XMD已被证明可以提高模型在文本分类上的OOD性能高达18%。 4 解释提示范式随着语言模型的扩展基于提示的模型展现出需要新视角来阐明其底层机制的新兴能力。然而模型规模的急剧增加使得传统解释方法不再适用。将针对传统微调范式的某些可解释性技术应用于提示范式时所面临的挑战可以从多个方面总结。例如基于提示的模型依赖于推理能力Wei等人2023b这使得局部化或特定于示例的解释意义大减。此外在数百亿甚至更多参数的规模上计算要求高的技术很快变得不可行。进一步来说基于提示的模型复杂的内部工作和推理过程过于复杂无法被简化的替代模型有效捕获。鉴于这些挑战针对这种提示范式的新解释技术正在出现。例如思维链CoT解释可能为理解和解释基于提示的大型语言模型的行为提供了一种更合适的方法。此外专注于识别对预测有贡献的影响性示例的方法正在变得越来越重要。识别这些关键数据点可能显著增强我们对数据集组成的理解。传统微调范式的全局解释技术也被广泛用于基于提示的LLMs。特别是这些能够提供高层次解释的技术如基于概念的解释和基于模块的解释。在本节中我们首先介绍用于解释属于提示范式的模型的技术包括1解释基础模型如LLaMA-2第4.1节2解释助手模型如LLaMA-2-Chat第4.2节以及3如何利用LLMs的推理和解释能力来提高语言模型的预测性能并实现有益的应用第4.3节。 4.1 基础模型解释随着语言模型规模的增加它们展现出新的能力如少样本学习即仅通过几个示例就能学习概念的能力。它们还展示了思维链CoT提示范式这允许将一系列提示输入模型以引导其朝特定方向生成并解释其推理Wei等人2022。鉴于这些新出现的属性可解释性研究有三个主要目标1理解这些大型语言模型如何能够快速从有限示例中掌握新任务这有助于最终用户解释模型的推理2解释CoT提示3以及表示工程。 4.1.1 解释上下文学习可解释人工智能技术已被用来阐明LLMs中提示的工作方式。具体来说我们讨论了揭示上下文学习ICL如何影响模型行为的技术。一项研究使用SST-2情感分析基准作为基线任务来解释上下文学习范式Li等人2023b。它通过分析对比性演示和显著性图来研究ICL在LLMs中的工作方式。作者通过翻转标签、扰乱输入文本和添加补充解释来构建对比性演示。对于情感分析任务他们发现翻转标签更有可能降低小型模型例如GPT-2的显著性而对大型模型例如InstructGPT产生相反的影响。不同演示类型的影响似乎根据模型规模和任务类型而有所不同。需要在一系列模型、任务和数据集上进行进一步分析。另一项研究调查了大型语言模型中的ICL是否由其预训练中的语义先验启用或者是否从提供的示例中学习输入标签映射Wei等人2023b。实验结果表明大型模型可以覆盖语义先验并学习矛盾的输入-标签映射而小型模型则更多地依赖于先验。在ICL示例中使用翻转标签的实验表明大型模型可以学会翻转预测而小型模型则不能。这些结果表明LLMs具有更大的能力来学习任意的输入-标签映射这是一种不受语义先验限制的象征性推理这挑战了ICL仅由利用先验驱动的观点。 4.1.2 解释CoT提示一项研究通过分析输入标记的显著性得分来调查思维链CoT提示如何影响LLMs的行为Wu等人2023a。显著性得分表明每个输入标记对模型输出的影响力。这些分数是使用基于梯度的特征归因方法计算的。目标是理解CoT提示是否与标准提示相比改变了显著性得分从而提供对CoT提高性能原因的见解。显著性得分的分析表明CoT提示使模型以更稳定的方式考虑问题标记。这种对输入的更稳定考虑可能比标准提示更能一致地生成准确答案。其他工作专注于在少样本提示中扰乱CoT演示例如通过添加错误以确定生成高性能解释的重要方面Madaan Yazdanbakhsh2022Wang等人2022a。提出了反事实提示来扰乱提示的关键组成部分符号、模式和文本Madaan Yazdanbakhsh2022。实验分析表明中间推理步骤更作为模型将符号复制到事实答案的信标而不是促进学习解决任务。 4.1.3 表示工程与前述从提示工程角度解释LLMs的两条研究线不同这一系列的研究从表示工程的角度解释LLMs。表示工程从自上而下的视角解释模型并将表示及其转换视为分析的主要元素。这种方法专注于结构和表示空间的特征以捕获新兴的表示和高级认知现象。Zou等人2023在两个部分实现了表示工程1表示阅读2表示控制。表示阅读在网络内识别高级概念和功能的表现。受到神经影像学方法的启发采用了线性人工断层扫描。为了更好地引出概念和功能分别设计了包括刺激或指令的提示模板。对于概念可以从最具代表性的标记的表现或最后一个标记中收集神经活动。对于功能可以从某个标记后的响应中收集神经活动。然后引入线性探针来预测概念和功能与神经活动。表示控制的目标是基于表示阅读的理解操纵概念和功能的内心表示以满足安全要求。直接添加阅读向量可以诱导模型输出诚实的模型输出减去阅读向量可以使模型撒谎这在改进模型方面展示了巨大的潜力。同样在高质量的真/假陈述数据集上研究表示结构也揭示了表示的线性结构。训练好的探针在其他数据集上泛化得很好。正如前述研究的结论可以识别出真实方向并用来诱导真或假的输出Marks Tegmark2023。通过分析六个空间或时间数据集的学到的表示证明了像LLaMA-13B这样的LLMs学习了空间和时间的线性表示。此外在不同大小的模型中也发现了类似的模式。随着模型规模的扩大表示也越来越准确。模型还有专门的神经元它们作为空间或时间的函数被激活这与LLMs中事实知识的建立相一致Gurnee Tegmark2023。总之表示工程可能是控制模型输出的有希望的技术但还需要进一步的消融研究来确定其优势和劣势。 4.2 助手模型解释由于大规模无监督预训练和有监督对齐微调属于这一范式的LLMs具有强大的推理能力。然而它们庞大的规模也使它们容易产生诸如幻觉之类的问题输出。可解释性研究旨在1阐明对齐微调的作用2分析幻觉的原因3不确定性量化。 4.2.1 解释微调的作用助手模型通常分为两个阶段进行训练。首先它们在大量原始文本上进行无监督预训练以学习通用的语言表示。这个预训练阶段允许模型获得通用的语言知识。其次模型通过有监督和强化学习进行对齐微调。这使模型与特定终端任务和用户偏好对齐。对这些模型的可解释性研究集中在确定它们的知识主要来自初始预训练阶段即它们获得通用语言能力的地方还是来自随后的对齐微调阶段即它们被定制为特定任务和偏好的地方。了解模型知识的来源为如何改进和解释它们的性能提供了见解。周等人2023最近的一项研究调查了预训练与指令微调对语言模型的相对重要性。在实验中作者只使用了1000个精心挑选的指令来微调LLaMA-65B模型没有使用强化学习并实现了与GPT-4相当的性能。研究人员假设对齐可能是一个更简单的过程模型学习交互风格和格式而LLMs的几乎所有知识都是在预训练期间获得的。实验结果展示了预训练的力量及其相对于大规模微调和强化学习方法的重要性。复杂的微调和强化学习技术可能没有以前认为的那么关键。另一方面这项研究还表明在指令微调中数据质量比数据量更重要。此外Wu等人2023c通过检查指令遵循和概念层面知识演变的角色研究了指令微调的作用。结果表明经过指令微调的模型可以更好地区分指令和上下文并很好地遵循用户的指令。此外与预训练模型相比它们可以更多地关注输入提示的中间和尾部。经过微调的模型明确地将概念调整为面向下游用户的任务但语言分布保持不变。与普遍认为更高层捕获更多语义知识的观点相反在经过微调的模型中捕获的语义知识的比例最初增长然后急剧下降。从自注意力头激活的角度来看发现指令微调通过使更多低层级的神经元编码词-词模式使预训练模型适应于识别指令动词Wu等人2023c。另一项最近的研究Gudibande等人2023表明模仿可以成功地改善语言模型的风格、个性和遵循指令的能力但并不能改善语言模型在事实性、编码和问题解决等更复杂维度上的表现。模仿是训练助手模型的另一种常用技术其中像GPT-2或LLaMA这样的基础模型在更高级系统如专有模型ChatGPT生成的输出上进行微调。此外LLaMA-2的技术报告Touvron等人2023b表明微调阶段主要有助于提高语言模型的有用性和安全性其中有用性描述了LLaMA-2-Chat响应满足用户请求并包含预期信息的程度安全性指避免不安全响应如有毒内容。综合这些研究强调了基础模型的重要作用突出了预训练的重要性。研究结果表明助手模型的知识主要是在预训练阶段捕获的。随后的指令微调然后帮助激活这些知识以产生对最终用户有用的输出。此外强化学习可以进一步使模型与人类价值观对齐。 4.2.2 解释幻觉 LLMs的快速发展引发了人们对其可信度的担忧因为它们有可能表现出不良行为例如生成幻觉这是一种模型以自然的方式生成不相关和无意义的输出的现象Zhang等人2023Huang等人2023。社区对于理解幻觉是如何产生的以及如何减少幻觉生成的兴趣日益增加。最近的分析研究表明幻觉现象源于数据集中的各种问题Dziri等人2022可以分为两类1缺乏相关数据2重复数据。例如长尾知识在训练数据中普遍存在LLMs很容易在学习这类知识时不足Kandpal等人2023。另一方面完全除去重复数据是一个挑战。训练数据集中的重复数据可能会显著损害模型的性能。Hernandez等人2022发现仅通过重复10%的训练数据800M参数模型的性能可能会降低到400M参数模型的水平。在检查模型在规模法则方面的性能时中间一定范围的重复频率可能会产生不利影响。这个范围被假设为导致模型记忆数据从而消耗其大部分容量。此外最近的研究发现幻觉也源于模型固有的某些限制。McKenna等人2023证明LLMs仍然依赖于句子级别的记忆和语料库级别的统计模式而不是稳健的推理。这通过他们对各种LLM家族在自然语言推理任务上的表现分析得到了证实。进一步地Wu等人2023b揭示了LLMs在记忆和关于本体知识方面的推理方面的不完美。Berglund等人2023指出由于逆转的诅咒LLMs通常在逻辑推理方面遭受困扰。LLMs倾向于对自己的输出过于自信并且难以准确识别实际知识边界Ren等人2023。此外LLM倾向于偏爱共现词而不是实际答案这种现象通常被称为捷径或虚假相关性Kang Choi2023。同样另一种不良行为——谄媚也存在于LLMs中这指的是模型可能会生成符合用户观点而非事实的答案。最糟糕的是模型的扩展和指令微调可能会增加这种行为Wei等人2023a。解决幻觉问题有几种方法。首先扩展总是一个好步骤。拥有5400亿参数的PaLM在各种任务上的性能急剧提高。即使它也遭受学习长尾知识的困扰但它的记忆能力被证明比小型模型更好Chowdhery等人2022。在文本摘要任务中Ladhak等人2023表明使用更多的提取式微调数据集和适配器微调通常会产生更少的幻觉但不会改变幻觉的分布。因此可以通过数据端如改进微调数据集和添加合成数据干预Wei等人2023a或模型端如不同的优化方法来实施缓解措施。 4.2.3 不确定性量化研究界对量化LLM预测的不确定性也越来越感兴趣以更好地理解这些强大模型的可靠性和局限性。大多数现有的关于不确定性量化的文献都集中在对数似然上然而这对于LLMs来说不太适合特别是对于封闭源的模型。这就要求采用非对数似然的方法来引出LLMs的不确定性称为置信度引出Xiong等人2023。有几种代表性的方法用于LLMs的不确定性估计。首先基于一致性的不确定性估计涉及对一个问题生成多个响应并使用这些响应之间的一致性来估计模型的置信度Xiong等人2023。具体来说它在答案生成过程中引入随机性自我一致性或在提示中添加误导性的提示诱导一致性以产生不同的响应。多个响应越一致对答案的估计置信度就越高。其次LLMs可以通过口头提供置信度通过提供直接和具体的响应来表示对其预测的高度置信并给出间接、模糊或不明确的响应来传达较低的置信度。LLMs可以明确地说明一个百分比来量化它们的置信水平。例如“我对这个答案只有20%的把握”清楚地传达了低置信度Xiong等人2023。第三不确定性可以从标记级别的不确定性Duan等人2023中聚合而来。LLMs通过预测每个标记来生成文本这可以被构建为一个分类任务。标记级别的不确定性方法根据其概率分布为每个预测的标记计算置信度分数。然后可以根据标记级别不确定性的聚合来估计整体不确定性。 4.3 利用解释在这一部分我们讨论利用基于提示的LLMs的解释能力来提高语言模型的预测性能并实现有益应用的技术。 4.3.1 改进LLMs 这项研究调查了LLMs在从有限示例中学习新任务时是否能够从解释中受益。具体来说它调查了为少数镜头任务的答案提供解释是否能够提高模型在这些任务上的表现Lampinen等人2022。提供了两种形式的解释答案前的解释和答案后的解释。Wei等人2022提出了一种称为思维链提示的方法它在提示中的答案前提供中间推理步骤作为解释。这帮助语言模型在算术、符号和常识推理任务中取得了最先进的结果。另一项最近的研究在提示中的答案后提供解释Lampinen等人2022。实验分析表明提供解释可以提高大型语言模型在少数镜头学习性能但好处取决于模型规模和解释质量。此外使用验证集专门为任务定制解释可以进一步增加它们的好处Lampinen等人2022。另一项最近的研究提出了解释调整这是一种使用更高级模型的详细逐步解释作为监督来训练较小语言模型的方法Mukherjee等人2023。第4.2.1节表明模仿调整主要允许较小的模型学习较大模型的风格而不是推理过程。为了解决这个限制这项工作提出了利用超越仅输入-输出对的更丰富信号来教导较小的模型模仿像GPT-4这样的大型基础模型的推理过程。具体来说作者收集了由GPT-4组成的提示和详细解释性响应的训练数据。为了让GPT-4生成解释使用了系统指令例如“你是一个乐于助人的助手总是提供解释。想象你在回答一个五岁孩子的问题。”实验结果表明使用解释调整训练的模型在BigBench Hard等复杂的零镜头推理基准测试中优于使用传统指令调整训练的模型。从解释中捕获的见解也可以用来压缩指令Yin等人2023。作者使用消融分析来研究任务定义中不同类别内容的贡献。然后可以从消融分析中获得的见解用来压缩任务指令。以分类任务为例分析表明任务指令中最重要的组成部分是与标签相关的信息。去除其他内容只会略微影响分类性能作者发现只有在去除输出标签信息时模型性能才会大幅下降。此外他们提出了一种算法通过去除不必要的标记自动压缩定义发现在保持或提高T5-XL模型在保留数据集上的性能的同时可以移除60%。此外一些研究还深入研究了由LLMs生成的解释在增强少数镜头上下文学习中的有效性。对于涉及代码执行和算术运算的多步符号推理任务Nye等人2021发现纳入中间计算步骤可以显著提高模型的能力。另一方面当涉及到包括问答和自然语言推理在内的文本推理任务时只有text-davinci-002观察到准确性的提高。其他四个模型包括OPT、GPT-3(davinci)、InstructGPT(text-davinci-001)和text-davinci-002没有显示出明显的改进甚至表现得更差。LLMs生成的解释从两个维度进行评估事实性和一致性。结果显示LLMs可以生成不切实际的解释但仍然与预测一致这反过来会导致错误的预测Ye Durrett2022。在发现的基础上提出了一个解释优化框架来选择导致高性能的解释Ye Durrett2023。因此提高模型预测的准确性需要LLMs生成可靠的解释这仍然是目前的一个巨大挑战。 4.3.2 下游应用可解释性也可以应用于教育、金融和医疗等现实世界问题。例如可解释的零镜头医学诊断是一个有趣的用例。一项最近的研究提出了一个框架用于使用像CLIP这样的视觉-语言模型以及像ChatGPT这样的LLMs进行可解释的零镜头医学图像分类Liu等人2023a。关键思想是利用ChatGPT自动生成疾病症状和视觉特征的详细文本描述而不仅仅是疾病名称。这些额外的文本信息有助于从CLIPRadford等人2021提供更准确和可解释的诊断。为了处理ChatGPT在医学主题上的潜在不准确性作者设计了提示以获得每个疾病类别的视觉可识别症状的高质量文本描述。在多个医学图像数据集上的广泛实验证明了这种无需训练的诊断流程的有效性和可解释性。 5 解释评估在前面的部分中我们介绍了不同的解释技术及其用途但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两个家族传统微调范式的局部解释评估第5.1节和提示范式的自然语言CoT解释评估第5.2节。评估的两个关键维度是对人类的合理性和捕捉LLMs内部逻辑的忠实度。从技术上讲评估解释涉及人类或自动化模型方法。人类评估通过模型理由与人类理由的相似性或主观判断来评估合理性。然而这些方法通常忽略了忠实度。主观判断可能也与模型推理不一致使这种评估不可靠。正如Jacovi和Goldberg2020所争论的忠实评估应该有明确的目标并避免人类参与。自动化评估通过扰乱模型理由来测试重要性避免人类偏见。因此开发严格的自动化指标对于公平的忠实度评估至关重要这将在忠实度评估维度下涵盖。 5.1 传统微调范式的解释评估我们从两个方面介绍局部解释的评估合理性和忠实度。两部分将主要涵盖可以应用于比较各种解释方法的通用属性和指标。我们专注于定量评估属性和指标这些指标通常比定性评估更可靠。评估合理性局部解释的合理性通常在输入文本或标记级别进行测量。合理性评估可以分为五个维度语法、语义、知识、推理和计算Shen等人2022。这些维度描述了被掩盖输入与人工注释理由之间的关系。不同的评估维度需要不同类型的数据集。例如句子“The country [MASK] was established on July 4, 1776.”具有人工注释的理由“established on July 4, 1776”掩蔽处的答案应该是“the United States”来源于事实/知识。尽管理由可能在不同的粒度级别如标记或片段和维度评估程序除了多样化的指标外都是相同的。人工注释的理由通常来自基准数据集这些数据集应该满足几个标准1充分性意味着理由足够让人们做出正确的预测2紧凑性要求如果理由中的任何部分被移除预测将会改变Mathew等人2021。然后解释模型负责预测重要标记并使用这些标记生成理由。上述两种理由将用各种指标进行测量。流行的指标可以根据其测量范围分为两类。测量两个标记级别理由的指标包括交集-并集IOU、精确度和召回率。测量整体合理性的指标包括离散情况的F1分数和连续或软标记选择情况下的精确度召回率曲线下面积AUPRCDeYoung等人2020。评估忠实度评估原则和指标提供了一种统一的方式来定量测量忠实度。由于它们通常针对特定的解释技术定义我们将只涵盖一些通用但普遍的原则和从数据角度的指标。为了保持忠实度解释方法应该遵循几个模型层面的原则包括实现不变性、输入不变性、输入敏感性、完整性、极性一致性、预测一致性和充分性。实现不变性也称为模型敏感性意味着无论模型架构有何不同只要网络功能相等归因分数就应该保持不变Sundararajan等人2017。即使是基于梯度的方法通常也能很好地满足这个指标假设可能没有根据。输入不变性要求归因方法反映预测模型对有效输入变化的敏感性。例如归因分数在输入恒定偏移上应该保持不变Kindermans等人2017。输入敏感性定义了归因分数对于仅能解释预测差异的特征应该非零Sundararajan等人2017。完整性结合了敏感性和实现不变性并与微积分中的路径积分相结合Sundararajan等人2017这只适用于可微方法。极性一致性指出一些排名靠前的特征可能对最终预测施加抑制效应这会对解释产生负面影响并应避免但大多数情况下并非如此Liu等人2022。预测一致性规定具有相同解释的实例应该有相同的预测。并且充分性要求即使具有不同的解释具有相同归因的数据应该有相同的相关标签Dasgupta等人2022。在这类药物中研究人员旨在通过为解释方法制定公理和属性来防止某些类型的矛盾解释。然而每个指标只能解决忠实度问题的特定方面。在单个框架内提供全面的解决方案极其困难。此外这些方法仅通过为解释方法设计属性来关注避免解释模型的不一致行为。模型的总体性能以下指标进行测量。一个突出的模型无关的工作通过定量验证预测与模型理由之间的关系来衡量忠实度。在测试集上计算的一些常见指标如下完整性COMP在移除排名靠前的重要标记前后原始预测类别的概率变化这意味着理由的影响力。它被制定为完整性 m(xi)j - m(xi\ri)j。更高的分数表明理由/标记的重要性DeYoung等人2020。充分性SUFF在提取的理由部分可以让模型进行预测的程度被定义为充分性 m(xi)j - m(ri)jDeYoung等人2020。决策翻转 - 标记分数DFFOT触发决策翻转移除的标记平均分数Chrysostomou Aletras2021。决策翻转 - 最有信息量的标记DFMIT通过移除最有影响力的标记引起的决策翻转率Chrysostomou Aletras2021。在ERASERDeYoung等人2020中相关标记被分类成按重要性分数排名的组以便可以按排名顺序掩蔽标记并逐渐观察输出变化。输出变化与掩蔽标记的重要性之间的相关性表示模型正确归因特征重要性的能力。正如TaScChrysostomou Aletras2021所声称的更高的DFMIT和更低的DFFOT是首选的因为重要标记被准确识别模型更忠实。相反一些工作通过解释的弱点如捷径学习和特征重要性的极性来衡量忠实度。Bastings等人2022通过模型识别学习的捷径的程度来量化忠实度。在这种情况下像precisionk前k个标记中的捷径百分比和平均排名在显著性排名中搜索的平均深度这样的指标表明前特征如何很好地代表所有真实世界的捷径。同样更高的precisionk和更低的平均排名表明模型的忠实度良好。Liu等人2022通过执行违规测试来检查忠实度以确保模型正确反映特征重要性和特征极性。在评估解释模型时无论使用的具体指标如何始终存在两个关键问题1模型量化重要特征的程度如何2模型能否有效地并正确地从排名靠前的特征中提取尽可能多的影响特征然而现有的评估指标通常与同一解释模型不一致。例如DFFOT排名最佳的解释在SUFF上可能是最差的Chan等人2022b。TaSc证明基于注意力的重要性指标比非注意力的更稳健尽管将注意力作为解释仍然存在争议Jain Wallace2019。此外这些评估指标不能直接应用于自然语言解释因为这类解释很少与输入有直接的关系。Atanasova等人2023为自然语言解释模型提出了两个忠实度测试。一个测试是反事实测试通过在原始示例中插入改变预测的标记来构建反事实示例。如果解释中没有插入标记中的单词则认为解释方法是不忠实的。另一个测试是输入重建测试它探索解释是否足以做出与原始示例相同的预测。每个示例的解释被转换为一个新的输入考虑到原始输入和解释本身。不幸的是因为这两个测试都可以引入新的语言变体当生成新的短语时它们在公平评估忠实度方面存在困难。或者RevChen等人2023b从信息的角度提供评估指标检查自然语言解释是否支持模型预测以及解释中的新信息是否证明模型预测的合理性。 5.2 提示范式中的解释评估最近像GPT-3和GPT-4这样的大型语言模型LLMs展现出了生成自然语言解释以说明其预测的令人印象深刻的能力。然而这些解释是否真的帮助人类理解模型的推理过程以及它们能否推广到新的输入仍然不清楚。注意评估这类解释例如思维链理由的目标和视角与评估第5.1节中介绍的传统解释不同Golovneva等人2022Prasad等人2023。已经开发了合理性、忠实度和稳定性也称为多样性等指标来评估解释。与传统解释一样我们专注于评估合理性和忠实度。评估合理性最近的一项研究探讨了解释是否满足人类的期望并提出评估自然语言解释的反事实模拟性Chen等人2023d。也就是说一个解释是否帮助人类推断AI模型在多样化的反事实输入上的行为。他们实施了两个指标模拟泛化性解释帮助模拟的反事实的多样性和模拟精确度人类猜测与模型输出匹配的模拟反事实的比例。他们发现像GPT-3.5和GPT-4这样的LLMs产生的解释精确度低表明它们误导人类形成错误的心智模型。该论文揭示了当前方法的局限性以及优化人类偏好如合理性可能不足以提高反事实模拟性。评估忠实度这一研究线研究了解释的忠实度即检查解释在多大程度上反映了模型预测背后的实际原因。例如最近一项研究的实验分析表明思维链解释可能会系统地不忠实Turpin等人2023。作者通过在少数镜头提示中重新排列多项选择选项使答案总是(A)从而在模型输入中引入偏差。然而像GPT-3.5和Claude 1.0这样的语言模型未能在其解释中承认这些有偏见的特征的影响。模型生成的解释没有忠实地表示真正的决策过程。另一项工作也表明LLMs陈述的思维链推理在某些任务上可能不忠实与更大、更能干的模型相比较小的模型倾向于生成更忠实的解释Lanham等人2023。这些研究凸显了对来自LLMs的解释忠实度的担忧即使它们看起来是合理的。为了提高思维链上的推理忠实度一项初步研究提出通过将问题分解为子问题并分别回答它们来生成模型推理Radhakrishnan等人2023。分析表明分解方法可以在几个指标上提高忠实度同时接近思维链的性能。需要更多的未来研究来开发方法使模型解释更好地反映预测背后的原因。 6 研究挑战在本节中我们探讨了需要来自自然语言处理NLP和可解释人工智能社区进一步研究的关键研究挑战。 6.1 缺乏真值解释对于大型语言模型LLMs通常无法获得真值解释。例如目前没有基准数据集来评估LLMs捕获的各个组件的全局解释。这带来了两个主要挑战。首先设计准确反映LLMs决策过程的解释算法是困难的。其次缺乏真值使得评估解释的忠实度和保真度变得复杂。在缺乏真值指导的情况下选择合适的解释方法也是一个挑战。潜在的解决方案包括涉及人类评估和创建合成解释数据集。 6.2 新兴能力的来源随着模型规模和训练数据的增加LLMs表现出令人惊讶的新能力即使没有明确训练执行这些任务。阐明这些新兴能力来源仍然是一个开放的研究挑战尤其是对于像ChatGPT和Claude这样的专有模型它们的架构和训练数据是未公开的。即使是开源的LLMs如LLaMA目前对其新兴技能的解释性也有限。这可以从模型和数据两个角度进行研究。模型视角进一步研究基于Transformer的模型对于揭示LLMs的内部工作至关重要。关键的未解决问题包括1哪些特定的模型架构赋予了LLMs令人印象深刻的新兴能力2在多样化的语言任务中实现强性能所需的最小模型复杂性和规模是什么继续严格分析和实验基础模型是必要的因为LLMs的规模在迅速增加。在这些领域推进知识将使LLMs更加可控和可靠。这可以提供线索说明是否会在不久的将来出现新的新兴能力。数据视角除了模型架构外训练数据是理解LLMs新兴能力的另一个重要视角。一些代表性的研究问题包括1哪些特定的大量训练数据子集负责特定的模型预测是否可能找到这些示例2新兴能力是模型训练的结果还是数据污染问题的产物Blevins等人20233对于有效的预训练和微调LLMs训练数据的质量或数量哪个更重要理解训练数据特征与模型产生的结果行为之间的相互作用将为大型语言模型中新兴能力来源提供关键见解。 6.3 两种范式的比较对于给定任务如自然语言推理NLI下游微调范式和提示范式在分布内和分布外OOD性能上有显著差异。这表明两种方法依赖于不同的推理进行预测。然而微调和提示范式之间的解释全面比较仍然缺乏。需要进一步研究以更好地阐明这些范式之间的解释差异。一些有趣的未解决问题包括1在分布内示例上经过微调的模型和经过提示的模型在用于预测的理由上有何不同2微调和提示在OOD鲁棒性上的分歧是什么导致的我们可以将其追溯到推理的差异吗推进这一理解将有助于为特定用例选择合适的范式并提高跨范式的鲁棒性。 6.4 LLMs的捷径学习最近的可解释性研究表明语言模型在进行预测时经常走捷径。对于下游微调范式研究表明语言模型利用各种数据集的人工制品和偏见进行自然语言推理任务如词汇偏见、重叠偏见、位置偏见和风格偏见Du等人2023。这显著影响了分布外泛化性能。对于提示范式一项最近的分析了语言模型如何使用更长的上下文Liu等人2023b。结果表明当相关信息位于上下文的开头或结尾时性能最高当模型需要在长上下文的中间访问相关信息时性能会下降。这些分析表明两种范式在某些场景中都倾向于利用捷径突显了需要进一步研究以解决这个问题并提高泛化能力。 6.5 注意力冗余最近的研究使用可解释性技术调查了大型语言模型中的传统微调和提示范式中的注意力冗余Bian等人2021Bansal等人2022。例如Bian等人使用BERT-base分析了不同预训练和微调阶段的注意力冗余Bian等人2021。实验分析表明存在注意力冗余发现许多注意力头是冗余的可以修剪它们而对下游任务性能影响很小。同样Bansal等人使用OPT-66B在上下文学习场景中调查了注意力冗余Bansal等人2022。他们发现注意力头和前馈网络都存在冗余。他们的发现表明许多注意力头和其他组件是冗余的。这为开发模型压缩技术提供了机会可以在保持下游任务性能的同时修剪冗余模块。 6.6 从快照可解释性转向时间分析还有一种观点认为当前的可解释性研究忽视了训练动态。现有的研究主要是对完全训练后的模型进行事后解释。缺乏对训练过程中发展性的调查可能会产生有偏见的解释因为它未能针对模型能力出现或遗留部分所依赖的相变。此外对某些特征进行干预未能反映特征之间的相互作用Saphra2022。因此出现了一种趋势即从静态的快照可解释性分析转向动态的时间分析。通过检查训练过程中的几个检查点Chen等人2023a确定了一个突然的预训练窗口在此期间模型获得了句法注意结构SAS这发生在一个专门的注意头专注于一个词的句法邻居时与此同时训练损失急剧下降。他们还表明SAS对学习过程中获得语法能力至关重要。受到这种视角的启发发展分析可以揭示训练过程中更多因果关系和训练模式这有助于理解和提高模型性能。 6.7 安全和伦理 LLMs的可解释性缺失在它们变得更加强大时带来了重大的伦理风险。没有可解释性分析或限制错误信息、偏见和社会操纵等问题的潜在危害就变得具有挑战性。可解释的人工智能技术对于审计这些强大的模型并确保其与人类价值观一致至关重要。例如追踪训练数据归因或可视化注意模式的工具可以揭示内嵌的偏见如性别刻板印象Li等人2023a。此外探针分类器可以识别模型学习到的表示中是否编码了有问题的关联。部署LLMs的研究人员、公司和政府有伦理责任优先考虑可解释的人工智能。如严格的模型审计、外部监督委员会和透明度法规等倡议可以帮助降低风险因为LLMs变得更加普遍。例如随着对齐系统的规模不断扩大人类反馈在管理它们方面变得越来越无力为这些系统的安全性带来了巨大挑战。正如Martin2023所声称的将可解释性工具作为审计过程的一部分来补充人类反馈可能是一种富有成效的方法。在扩大模型规模和性能的同时推进可解释性技术的发展必须保持优先以确保越来越强大的LLMs的安全和伦理发展。 7 结论在本文中我们提供了对LLMs可解释性技术的全面概述。我们总结了基于模型训练范式的局部和全局解释方法。我们还讨论了使用解释来改进模型、评估和关键挑战。主要的未来发展方向包括为不同的LLMs开发定制的解释方法、评估解释的忠实度和提高人类的可解释性。随着LLMs的不断发展可解释性将成为确保这些模型透明、公平和有益的关键。我们希望这项调查为这一新兴研究领域提供了有用的组织同时突出了未来工作所面临的开放问题。

查看全文

http://www.w-s-a.com/news/277216/