做软件界面的网站,微网站搭建,重庆电子工程,网页设计师英语文章目录 检测大型语言模型的预训练数据摘要1 引言2 预训练数据检测问题2.1 问题定义和挑战2.2 WIKIMIA#xff1a;动态评估基准 3 MIN-K% PROB#xff1a;简单的无参考预训练数据检测方法4 实验4.1 数据集和指标4.2 基线检测方法4.3 实现和结果4.4 分析 5 案例研究#xff… 文章目录 检测大型语言模型的预训练数据摘要1 引言2 预训练数据检测问题2.1 问题定义和挑战2.2 WIKIMIA动态评估基准 3 MIN-K% PROB简单的无参考预训练数据检测方法4 实验4.1 数据集和指标4.2 基线检测方法4.3 实现和结果4.4 分析 5 案例研究检测预训练数据中的版权书籍5.1 实验设置5.2 结果 6 案例研究检测下游数据集污染6.1 实验6.2 结果与分析 7 相关工作8 结论7 相关工作8 结论 ICLR 2024 DETECTING PRETRAINING DATA FROM LARGE LANGUAGE MODELS 检测大型语言模型的预训练数据
翻译来源https://kimi.moonshot.cn/chat/csh0tvhhmfr80ap97bdg
摘要
尽管大型语言模型LLMs被广泛部署用于训练它们的数据很少被公开。考虑到这些数据的惊人规模高达数万亿个标记几乎可以肯定它包含了潜在问题文本如版权材料、个人身份信息以及广泛报道的参考基准的测试数据。然而我们目前没有办法知道哪些这类数据被包含在内或者它们的比例是多少。在本文中我们研究了预训练数据检测问题给定一段文本和对一个LLM的黑盒访问而不知道预训练数据我们能否确定模型是否在提供的文本上进行了训练为了促进这项研究我们引入了一个动态基准WIKIMIA它使用模型训练前后创建的数据来支持真实性检测。我们还引入了一种新的检测方法MIN-K% PROB基于一个简单的假设未见过的样本可能包含一些在LLM下概率很低的异常词而见过的样本不太可能有这样的低概率词。MIN-K% PROB可以在没有任何关于预训练语料库的知识或任何额外训练的情况下应用这与之前需要在与预训练数据相似的数据上训练参考模型的检测方法不同。此外我们的实验表明MIN-K% PROB在WIKIMIA上比这些先前的方法提高了7.4%。我们将MIN-K% PROB应用于三个现实世界场景版权书籍检测、污染的下游示例检测和机器学习的隐私审计发现它是一个始终有效的解决方案。
1 引言
随着语言模型LM训练语料库规模的增长模型开发者例如GPT4Brown等人2020年和LLaMA 2Touvron等人2023b变得不愿意公开他们的数据的全部组成或来源。这种缺乏透明度对科学模型评估和道德部署提出了关键挑战。在预训练期间可能会暴露关键的私人信息先前的研究表明LLMs生成了版权书籍Chang等人2023年和个人电子邮件Mozes等人2023年的摘录可能侵犯了原始内容创作者的法律权利并侵犯了他们的隐私。此外Sainz等人2023年Magar Schwartz2022年Narayanan2023年表明预训练语料库可能无意中包含了基准评估数据这使得评估这些模型的有效性变得困难。
在本文中我们研究了预训练数据检测问题给定一段文本和对一个LLM的黑盒访问而不知道其预训练数据我们能否确定模型是否在文本上进行了预训练我们提出了一个基准WIKIMIA和一个方法MIN-K% PROB用于预训练数据检测。这个问题是成员推断攻击MIAs的一个实例最初由Shokri等人2016年提出。最近的研究已经将微调数据检测Song Shmatikov2019年Shejwalkar等人2021年Mahloujifar等人2021年作为MIAs问题进行了研究。然而将这些方法应用于检测当代大型LLMs的相关数据面临着两个独特的技术挑战首先与通常运行多个周期的微调不同预训练使用了一个更大的数据集但只暴露每个实例一次显著降低了成功MIAs所需的潜在记忆Leino Fredrikson2020年Kandpal等人2022年。此外先前的方法通常依赖于一个或多个参考模型Carlini等人2022年Watson等人2022年这些模型以与目标模型相同的方式进行训练例如在从相同的底层预训练数据分布中采样的影子数据上以实现精确检测。这对于大型语言模型来说是不可能的因为训练分布通常不可用而且训练成本过高。 图1MIN-K% PROB概述。为了确定文本X是否在LLM如GPT的预训练数据中MIN-K% PROB首先获取X中每个标记的概率选择k%概率最小的标记并计算它们的平均对数似然。如果平均对数似然高文本很可能在预训练数据中。
我们解决这些挑战的第一步是建立一个可靠的基准。我们引入了WIKIMIA这是一个动态基准旨在定期且自动地评估任何新发布的预训练LLMs上的检测方法。通过利用维基百科数据的时间戳和模型发布日期我们选择旧的维基百科事件数据作为我们的成员数据即在预训练期间看到的数据和近期的维基百科事件数据例如2023年之后的作为我们的非成员数据未看到。我们的数据集因此展现出三个理想的属性1准确在LLM预训练后发生的事件保证不会出现在预训练数据中。事件的时间性质确保非成员数据确实是未看到的并且在预训练数据中没有提及。2通用我们的基准不局限于任何特定模型可以应用于使用维基百科预训练的各种模型例如OPT、LLaMA、GPT-Neo因为维基百科是常用的预训练数据来源。3动态我们将通过从维基百科收集更新的非成员数据即更近期的事件不断更新我们的基准因为我们的数据构建流程是完全自动化的。
微调的MIA方法Carlini等人2022年Watson等人2022年通常使用在类似数据分布上训练的影子参考模型来校准目标模型的概率。然而这些方法由于预训练数据的黑盒特性和高计算成本对于预训练数据检测是不切实际的。因此我们提出了一种无需参考的MIA方法MIN-K% PROB。我们的方法基于一个简单的假设未见过的示例倾向于包含一些概率低的异常词而见过的示例不太可能包含这样低概率的词。MIN-K% PROB计算异常标记的平均概率。MIN-K% PROB可以在没有任何关于预训练语料库的知识或任何额外训练的情况下应用这与依赖影子参考模型的现有MIA方法不同Mattern等人2023年Carlini等人2021年。我们的实验表明MIN-K% PROB在WIKIMIA上的AUC得分比现有最强基线提高了7.4%。进一步分析表明检测性能与模型大小和检测文本长度呈正相关。
为了验证我们提出的方法在现实世界设置中的适用性我们进行了三个案例研究版权书籍检测§5、LLMs的隐私审计§??和数据集污染检测§6。我们发现MIN-K% PROB在两种场景中都显著优于基线方法。从我们对版权书籍检测的实验中我们看到了强有力的证据表明GPT-3 1是在Books3数据集Gao等人2020年Min等人2023年中的版权书籍上预训练的。从我们对机器学习的隐私审计实验中我们使用MIN-K% PROB审计一个被训练忘记版权书籍的未学习LLM使用机器学习方法Eldan Russinovich2023年并发现这样的模型仍然可以输出相关的版权内容。此外我们对数据集污染检测的对照研究揭示了预训练设计选择对检测难度的影响我们发现当训练数据大小增加检测示例的出现频率和学习率降低时检测变得更加困难。
2 预训练数据检测问题
我们研究预训练数据检测问题即检测一段文本是否是训练数据的一部分。首先我们正式定义了这个问题并描述了它在先前的微调数据检测研究中不存在的独特挑战§2.1。然后我们策划了WIKIMIA这是第一个评估预训练数据检测方法的基准§2.2。
2.1 问题定义和挑战
我们遵循Shokri等人2016年和Mattern等人2023年对成员推断攻击MIA的标准定义。给定一个语言模型( f_{\theta} )及其相关的预训练数据( D {z_i}{i \in [n]} )这些数据是从底层分布( D )中采样的任务目标是学习一个检测器( h )它可以推断任意数据点( x )的成员资格( h(x, f{\theta}) \rightarrow {0, 1} )。我们遵循MIA的标准设置假设检测器只能将LM作为黑盒访问并且可以为任何数据点( x )计算标记概率。
挑战1预训练数据分布的不可用性。现有的微调数据检测的最先进的MIA方法Long等人2018年Watson等人2022年Miresghallah等人2022年通常使用参考模型( g_{\gamma} )来计算数据点的背景难度并校准目标语言模型的输出概率( h(x, f_{\theta}, g_{\gamma}) \rightarrow {0, 1} )。这些参考模型通常与( f_{\theta} )共享相同的模型架构并在影子数据( D_{\text{shadow}} \subset D )上训练Carlini等人2022年Watson等人2022年这些数据是从相同的底层分布( D )中采样的。这些方法假设检测器可以访问1目标模型的训练数据分布以及2足够数量的来自( D )的样本来训练校准模型。然而这种访问预训练训练数据分布的假设是不现实的因为这些信息并不总是可用的例如模型开发者没有发布Touvron等人2023bOpenAI2023年。即使可以访问鉴于预训练数据的惊人规模在其上预训练一个参考模型的计算成本将极其昂贵。总之预训练数据检测问题符合MIA定义但包括一个假设即检测器无法访问预训练数据分布( D )。
挑战2检测难度。预训练和微调在数据和计算使用量以及优化设置如训练周期和学习率计划上有很大差异。这些因素显著影响检测难度。人们可能会直观地推断当数据集大小增加训练周期和学习率降低时检测变得更加困难。我们在下面简要描述了一些理论证据这些证据支持这些直觉并在§6中展示了支持这些假设的经验结果。
例如给定一个来自( D )的示例( z )我们表示模型输出为( f_{\theta}(z) )。现在再取另一个从( D \setminus D )中采样的示例( y )不是预训练数据的一部分。如果输出( f_{\theta}(z) )和( f_{\theta}(y) )相似确定一个示例( x )是否是训练集的一部分就变得具有挑战性。可以使用总变异距离来量化( f_{\theta}(z) )和( f_{\theta}(y) )之间的相似度。根据先前的研究Hardt等人2016年Bassily等人2020年( f_{\theta}(z) )和( f_{\theta}(y) )之间的总变异距离的界限与示例( x )的出现频率、学习率和数据集大小的倒数成正比这意味着检测难度也与这些因素相关。
2.2 WIKIMIA动态评估基准
我们通过使用在特定日期后添加到维基百科的事件来构建我们的基准将它们视为非成员数据因为它们保证不会出现在预训练数据中这是我们基准的核心思想。
数据构建。我们从维基百科收集近期事件页面。步骤1我们将2023年1月1日设为截止日期将2023年后发生的事件视为近期事件非成员数据。我们使用维基百科API自动检索文章并应用两个过滤标准1文章必须属于事件类别以及2页面必须在2023年后创建。步骤2对于成员数据我们收集了2017年之前创建的文章因为许多预训练模型例如LLaMA、GPT-NeoX和OPT都是在2017年后发布的并且将维基百科转储纳入它们的预训练数据中。步骤3此外我们过滤掉了缺乏有意义文本的维基百科页面例如标题为“…的时间线”或“…的列表”的页面。鉴于2023年后的事件数量有限我们最终收集了394个近期事件作为我们的非成员数据并从2016年前的维基百科页面中随机选取了394个事件作为我们的成员数据。数据构建流程是自动化的允许为未来的截止日期策划新的非成员数据。
基准设置。在实践中LM用户可能还需要检测被改写和编辑的文本。先前使用MIA的研究专门关注检测在预训练期间使用的确切匹配数据的示例。MIA方法是否可以用来识别传达与原始示例相同含义的改写示例这仍然是一个未解决的问题。除了逐字设置原始之外我们因此引入了一个改写设置我们利用ChatGPT2来改写示例然后评估MIA指标是否能够有效识别语义等价的示例。
此外先前的MIA评估通常在评估中混合不同长度的数据并报告单一的性能指标。然而我们的结果揭示了数据长度显著影响检测难度。直观地说较短的句子更难检测。因此不同的数据长度桶可能会导致MIA方法的不同排名。为了进一步调查这一点我们提出了一个不同长度的设置我们将维基百科事件数据截断为不同的长度—32、64、128、256—并分别为每个长度段报告MIA方法的性能。我们在附录B中描述了理想的属性。
3 MIN-K% PROB简单的无参考预训练数据检测方法
我们介绍了一种预训练数据检测方法MIN-K% PROB它利用文本的最小标记概率进行检测。MIN-K% PROB基于这样的假设非成员示例更有可能包含一些具有高负对数似然或低概率的异常词而成员示例不太可能包含具有高负对数似然的词。考虑一个句子中的标记序列表示为( x x_1, x_2, …, x_N )给定其前面的标记标记( x_i )的对数似然计算为( \log p(x_i | x_1, …, x_{i-1}) )。然后我们选择( x )中k%的标记形成具有最小标记概率的集合Min-K%(x)并计算这个集合中标记的平均对数似然 其中E是Min-K%(x)集合的大小。我们可以通过对这个MIN-K% PROB结果进行阈值处理来检测一段文本是否包含在预训练数据中。我们在附录B的算法1中总结了我们的方法。
4 实验
我们在WIKIMIA上评估了MIN-K% PROB和基线检测方法对LLaMATouvron等人2023a、GPT-NeoBlack等人2022和PythiaBiderman等人2023等语言模型的性能。
4.1 数据集和指标
我们的实验使用了不同长度32、64、128、256的WIKIMIA以及原始和改写设置。遵循Carlini等人2022Miresghallah等人2022a我们使用真正例率TPR及其假正例率FPR来评估检测方法的有效性。我们绘制ROC曲线来衡量TPR和FPR之间的权衡并报告AUC得分ROC曲线下的面积和低FPR下的TPRTPR5%FPR作为我们的指标。
4.2 基线检测方法
我们采用现有的基于参考和无参考的MIA方法作为我们的基线方法并在WIKIMIA上评估它们的性能。这些方法只考虑句子级概率。具体来说我们使用了LOSS攻击方法Yeom等人2018a该方法基于目标模型在输入示例时的损失来预测示例的成员资格。在LMs的背景下这个损失对应于示例的困惑度PPL。我们还考虑了利用概率曲率来检测成员资格的邻域攻击Mattern等人2023这种方法与最近提出的用于分类机器生成与人类编写文本的DetectGPTMitchell等人2023方法相同。最后我们比较了Carlini等人2021中提出的成员推断方法包括将示例困惑度与zlib压缩熵Zlib进行比较与小写示例困惑度Lowercase进行比较以及与在同一数据上预训练的较小模型的示例困惑度Smaller Ref进行比较。对于较小的参考模型设置我们使用LLaMA-7B作为LLaMA-65B和LLaMA-30B的较小模型GPT-Neo-125M作为GPT-NeoX-20B的较小模型OPT-350M作为OPT-66B的较小模型Pythia-70M作为Pythia-2.8B的较小模型。
4.3 实现和结果
实现细节。MIN-K% PROB的关键超参数是我们选择形成top-k%集合的最高负对数似然的标记百分比。我们在LLAMA-60B模型上使用留出的验证集对10、20、30、40、50进行了小范围的扫描发现k20效果最好。我们在所有实验中使用这个值无需进一步调整。由于我们报告AUC得分作为我们的指标我们不需要确定阈值ϵ。
主要结果。我们在表1中比较了MIN-K% PROB和基线方法。我们的实验表明MIN-K% PROB在原始和改写设置中一致地优于所有基线方法无论是针对不同的目标语言模型。MIN-K% PROB平均实现了0.72的AUC得分比最佳基线方法即PPL提高了7.4%。在基线中简单的LOSS攻击PPL表现优于其他方法。这证明了MIN-K% PROB在检测各种LMs的预训练数据方面的有效性和通用性。附录A中的进一步结果如TPR5%FPR显示了与表5类似的趋势。
4.4 分析
我们进一步深入研究影响检测难度的因素重点关注两个方面1目标模型的大小以及2文本的长度。
模型大小。我们在不同大小的LLaMA模型7、13、30、65B上评估无参考方法检测预训练128长度文本的性能。图2a展示了一个明显的趋势随着模型大小的增加方法的AUC得分上升。这可能是因为更大的模型有更多的参数因此更有可能记住预训练数据。 (a) AUC得分与模型大小的关系 (b) AUC得分与文本长度的关系 图2随着模型大小或文本长度的增加检测变得更容易。
文本长度。在另一个实验中我们在原始设置中评估了不同长度示例的检测方法性能。如图2b所示不同方法的AUC得分随着文本长度的增加而增加这可能是因为更长的文本包含更多被目标模型记住的信息使它们更容易与未见文本区分开来。
表1在WIKIMIA上检测给定模型的预训练示例的AUC得分MIN-K% PROB和基线比较。Ori.和Para.分别表示原始和改写设置。粗体显示了每列中最好的AUC。
在接下来的两个部分中我们将MIN-K% PROB应用于现实世界场景以检测LLMs中的版权书籍和污染的下游任务。
5 案例研究检测预训练数据中的版权书籍
MIN-K% PROB还可以检测训练数据中潜在的版权侵犯我们在本节中展示这一点。具体来说我们使用MIN-K% PROB来检测Pile数据集的Books3子集中可能包含在GPT-3训练数据中的版权书籍摘录Gao等人2020。
5.1 实验设置
验证数据以确定检测阈值。我们使用已知被ChatGPT记忆的50本书构建验证集这可能表明它们存在于其训练数据中Chang等人2023作为正例。对于负例我们收集了50本2023年首次出版的新书这些书不可能在训练数据中。从每本书中我们随机提取100个512字的片段创建了一个平衡的验证集包含10,000个示例。我们通过在这个集合上最大化检测精度来确定MIN-K% PROB的最佳分类阈值。
测试数据和指标。我们从已知包含版权内容的Books3语料库中随机选取100本书Min等人2023。从每本书中我们提取100个随机的512字片段创建了一个包含10,000个摘录的测试集。我们应用阈值来决定这些书籍摘录是否与GPT-3一起训练。然后我们报告这些摘录中有多少百分比即污染率被识别为预训练数据的一部分。
5.2 结果
图3显示MIN-K% PROB在检测版权书籍方面达到了0.88的AUC超过了基线。我们将MIN-K% PROB的最佳阈值应用于来自Books3的100本书的10,000个摘录的测试集。表2代表了预测污染率最高的前20本书。图4揭示了近90%的书籍的污染率超过50%这是一个令人担忧的数字。 图3在GPT-3上检测版权书籍验证集的AUC得分。 图4100本版权书籍检测到的污染率分布。
表2GPT-3预训练数据中前20本版权书籍。列出的污染率代表从每本书中识别出的文本摘录在预训练数据中的百分比。
6 案例研究检测下游数据集污染
评估下游任务数据泄露到预训练语料库是一个重要问题但由于缺乏对预训练数据集的访问这个问题难以解决。在本节中我们探讨使用MIN-K% PROB来检测信息泄露的可能性并进行消融研究以了解各种训练因素如何影响检测难度。具体来说我们持续预训练7B参数的LLaMA模型Touvron等人2023a在故意被下游任务示例污染的预训练数据上进行训练。
6.1 实验
实验设置。为了模拟现实世界设置中可能发生的下游任务污染我们通过将下游任务的示例插入到预训练语料库中来创建污染的预训练数据。具体来说我们从RedPajama语料库TogetherCompute2023中采样文本并将下游数据集BoolQClark等人2019、IMDBMaas等人2011、Truthful QALin等人2021和Commonsense QATalmor等人2019的格式化示例以连续段落的形式随机插入到未污染的文本中。我们在预训练数据中从这些数据集中各插入200个正面示例同时从每个数据集中分离出200个负面示例这些示例已知不在污染语料库中。这创建了一个包含2700万个标记的污染预训练数据集其中0.1%来自下游数据集。
我们通过在污染的预训练数据上微调一个周期的LLaMA 7B模型以恒定的学习率1e-4来评估MIN-K% PROB检测泄露基准示例的有效性通过计算这400个示例上的AUC得分。
主要结果。我们在表3中展示了主要的攻击结果。我们发现MIN-K% PROB优于所有基线。我们在附录A的表6中报告TPR5%FPR其中MIN-K% PROB比最佳基线提高了12.2%。
表3检测污染下游示例的AUC得分。粗体显示了每列中最好的AUC得分。
6.2 结果与分析
使用污染数据集的模拟使我们能够进行消融研究以实证分析数据集大小、数据出现频率和学习率对检测难度的影响如第2.1节中的理论分析。实证结果大体上与理论框架一致并验证了该框架。总之我们发现随着数据出现频率和学习率的降低检测变得更加困难数据集大小对检测难度的影响取决于污染物是否相对于预训练数据的分布是异常值。
预训练数据集大小。我们通过将固定的下游示例每个下游任务200个示例与不同量的RedPajama数据混合构建了包含0.17M、0.27M、2.6M和26M个标记的污染数据集模拟现实世界的预训练。尽管理论表明更多的预训练数据会带来更大的难度但图5a显示AUC得分与直觉相反地随着预训练数据集大小的增加而增加。这与发现LMs更好地记忆尾部异常值Feldman2020Zhang等人2021一致。在构建的数据集中有更多的RedPajama标记下游示例变得更加显著的异常值。我们假设它们增强的记忆可能使得基于困惑度的度量更容易检测。
为了验证我们的假设我们构建了控制数据其中污染物不是异常值。我们采样了2023年8月实时数据新闻4包含不在LLaMA预训练中的2023年后的新闻。我们通过连接这个语料库中的1000、5000和10000个示例创建了三个合成语料库分别创建了大小为0.77M、3.9M和7.6M标记的语料库。在每种设置中我们认为这100个示例是污染正面示例并从2023年8月新闻中留出另一组100个示例负面。图5b显示随着数据集大小的增加AUC得分降低。
检测像下游示例这样的异常污染物随着数据大小的增加变得更容易因为模型有效地记忆长尾样本。然而从预训练数据分布中检测一般的分布样本随着数据量的增加变得更加困难符合理论预期。
数据出现频率。为了研究检测难度与数据出现频率之间的关系我们通过将每个下游数据点的多个副本插入预训练语料库构建了一个污染的预训练语料库其中每个示例的出现频率遵循泊松分布。我们测量预训练语料库中示例的频率与其AUC得分之间的关系。图5c显示AUC得分与示例的出现频率呈正相关。 (a) 异常污染物例如下游示例随着数据集大小的增加变得更容易检测。
(b) 分布内的污染物例如新闻文章随着数据集大小的增加变得更难以检测。
© 在数据集中出现频率更高的污染物更容易被检测到。
图5我们展示了污染率以预训练标记总数的百分比表示和出现频率对使用MIN-K% PROB检测数据污染物的难易程度的影响。
表4使用两种不同的学习率检测下游污染示例的AUC得分。在训练期间使用更高的学习率会使检测变得更容易。粗体显示了每列中最好的AUC得分。
7 相关工作
自然语言处理中的成员推断攻击。成员推断攻击MIAs旨在确定任意样本是否是给定模型训练数据的一部分Shokri等人2017Yeom等人2018b。这些攻击对个人隐私构成重大风险通常作为更严重攻击如数据重建Carlini等人2021Gupta等人2022Cummings等人2023的基础。由于其与隐私风险的基本关联MIA最近在量化机器学习模型中的隐私漏洞和验证隐私保护机制的准确实施方面找到了应用Jayaraman Evans2019Jagielski等人2020Zanella-Béguelin等人2020Nasr等人2021Huang等人2022Nasr等人2023Steinke等人2023。最初应用于表格和计算机视觉数据MIA的概念最近扩展到了语言任务领域。然而这种扩展主要围绕微调数据检测Song Shmatikov2019Shejwalkar等人2021Mahloujifar等人2021Jagannatha等人2021Miresghallah等人2022b。我们的工作集中在将MIA应用于预训练数据检测这是以前研究工作中受到有限关注的一个领域。
8 结论
我们提出了一个预训练数据检测数据集WIKIMIA和一种新方法MIN-K% PROB。我们的方法利用了训练数据相对于其他基线而言往往包含较少具有非常低概率的异常标记的直觉。此外我们在现实世界环境中验证了我们方法的有效性进行了两个案例研究检测数据集污染和已发布书籍检测。对于数据集污染我们观察到的经验结果与理论预测一致即检测难度如何随着数据集大小、示例频率和学习率的变化而变化。最引人注目的是我们的书籍检测实验为GPT-3模型可能在版权书籍上进行训练提供了强有力的证据。
**学习率。**我们还研究了在预训练期间使用不同学习率对污染物统计的影响见表4。我们发现将学习率从(10{-5})提高到(10{-4})在所有下游任务中显著提高了AUC得分这意味着更高的学习率导致模型更强烈地记忆它们的预训练数据。附录A中的表7的更深入分析表明更高的学习率导致对这些下游任务的记忆而不是泛化。
7 相关工作
自然语言处理中的成员推断攻击。成员推断攻击MIAs旨在确定任意样本是否是给定模型训练数据的一部分Shokri等人2017Yeom等人2018b。这些攻击对个人隐私构成重大风险通常作为更严重攻击如数据重建Carlini等人2021Gupta等人2022Cummings等人2023的基础。由于其与隐私风险的基本关联MIA最近在量化机器学习模型中的隐私漏洞和验证隐私保护机制的准确实施方面找到了应用Jayaraman Evans2019Jagielski等人2020Zanella-Béguelin等人2020Nasr等人2021Huang等人2022Nasr等人2023Steinke等人2023。最初应用于表格和计算机视觉数据MIA的概念最近扩展到了语言任务领域。然而这种扩展主要围绕微调数据检测Song Shmatikov2019Shejwalkar等人2021Mahloujifar等人2021Jagannatha等人2021Miresghallah等人2022b。我们的工作集中在将MIA应用于预训练数据检测这是以前研究工作中受到有限关注的一个领域。
8 结论
我们提出了一个预训练数据检测数据集WIKIMIA和一种新方法MIN-K% PROB。我们的方法利用了训练数据相对于其他基线而言往往包含较少具有非常低概率的异常标记的直觉。此外我们在现实世界环境中验证了我们方法的有效性进行了两个案例研究检测数据集污染和已发布书籍检测。对于数据集污染我们观察到的经验结果与理论预测一致即检测难度如何随着数据集大小、示例频率和学习率的变化而变化。最引人注目的是我们的书籍检测实验为GPT-3模型可能在版权书籍上进行训练提供了强有力的证据。学习率。我们还研究了在预训练期间使用不同学习率对污染物统计的影响见表4。我们发现将学习率从(10{-5})提高到(10{-4})在所有下游任务中显著提高了AUC得分这意味着更高的学习率导致模型更强烈地记忆它们的预训练数据。附录A中的表7的更深入分析表明更高的学习率导致对这些下游任务的记忆而不是泛化。