有了域名自己电脑怎么做网站,湖南网站备案注销,手机网站建设解决方案,一些做义工的旅游网站前言#xff1a;与传统的AI攻防#xff08;后门攻击、对抗样本、投毒攻击等#xff09;不同#xff0c;如今的大模型攻防涉及以下多个方面的内容#xff1a; 目录 一、大模型的可信问题1.1 虚假内容生成1.2 隐私泄露 二、大模型的安全问题2.1 模型窃取攻击2.2 数据窃取攻击… 前言与传统的AI攻防后门攻击、对抗样本、投毒攻击等不同如今的大模型攻防涉及以下多个方面的内容 目录 一、大模型的可信问题1.1 虚假内容生成1.2 隐私泄露 二、大模型的安全问题2.1 模型窃取攻击2.2 数据窃取攻击2.3 Prompt提示词攻击2.4 对抗样本攻击2.5 后门攻击2.6 数据投毒 三、基于大模型的隐蔽通信四、大模型的产权问题五、 大模型的伦理问题5.1 意识形态5.2 偏见歧视5.3 政治斗争5.4 就业公平5.5 信息茧房 一、大模型的可信问题
1.1 虚假内容生成
大模型可能会进行虚假内容的生成和传播这种现象称为语言模型的幻觉问题它是指模型产生内容与真实世界不符或者是毫无意义的情况。这种情况主要是由于语言模型缺乏真实世界的知识和语言的含义导致模型难以理解和表达现实世界的概念和信息。这种情况在现代自然语言处理中普遍存在尤其是在开放式生成领域的问题中。其危害是诱导和操控用户的观点和行为。
语言模型的幻觉问题可以分为两类内在幻觉和外在幻觉intrinsic hallucination and extrinsic hallucination。内在幻觉指的是输出内容和源输入内容不符例如输出了错误的年份信息、人名信息等外在幻觉指的是通过源信息无法判别是否正确的信息既没有办法支持也没有办法否认。但外部幻觉有时候是有益的因为它基于外部的正确知识能够丰富生成结果的信息量。但大多数情况下仍需谨慎对待外部幻觉因为从事实安全的角度来说增加了信息的不确定性。
产生原因1训练数据的不规整2暴露偏差问题训练与推理过程的解码差异即训练时解码器基于事实来进行训练但推理时解码器只能从自己的推理历史中来进一步生成因此随着生成序列变长幻觉更严重。
解决措施 1 选取高质量数据集进行训练清理数据集中的噪声。 2 通过改进编码器结构优化特征提取结果减轻幻觉。 3 对大模型进行可信输出度量。类似于一般模型的置信度大模型可在训练过程中添加对输出内容的可行性评估将置信度同时提供给用户作为参考。 4 使用可控文本生成方法控制幻觉程度以满足不同现实应用的需求。在对话和抽象摘要任务中幻觉问题不一定全都是负面问题。 5 减少生成长句的自相矛盾问题等。
值得一提的是如今在视觉-语言跨模态生成Vision-Language Generation领域对幻觉问题的研究还处于非常早期的阶段目前主要针对图像描述场景开展相关研究如下图中生成文本中的物体并未在输入图像中出现。 首先在视觉叙事、视觉常识推理、视频字幕等许多任务中关于幻觉现象的产生缺乏经验和理论分析。其次需要更有效的评估指标。虽然CHAIR可以自动评估图像字幕中对象幻觉的程度但它需要一个预定义的对象类别列表不能很好地泛化。此外对于开放式视觉问答等其他任务中的幻觉问题目前没有自动度量方法。最后如何基于现有内容完成文本受控生成是减轻视觉-语言幻觉的一个重要研究方向。
参考文献 Survey of Hallucination in Natural Language Generation (ACM Computing Surveys, 2023) Object Hallucination in Image Captioning (EMNLP, 2018) UC Berkeley Boston University 代码https://github.com/LisaAnne/Hallucination On Hallucination and Predictive Uncertainty in Conditional Language Generation EACL, 2021) University of California, Santa Barbara Let there be a clock on the beach:Reducing Object Hallucination in Image Captioning (WACV, 2022) Computer Vision Center, UAB, Spain 代码https://github.com/furkanbiten/object-bias/tree/main Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training (EACL, 2023) The Hong Kong University of Science and Technology 代码https://github.com/wenliangdai/VLP-Object-Hallucination Deconfounded Image Captioning: A Causal Retrospect (TPAMI, 2021)
1.2 隐私泄露
攻击大模型导致的隐私泄露分为两种
1显式隐私泄露大模型将用户的指令作为训练数据不经意间会将训练数据转换为生成内容而这些训练数据可能包含用户敏感信息。大模型会将对话框的内容存储包括而不限于用户个人信息如姓名电子邮箱账户等。
2隐式隐私泄露通过对对话框内容的收集大模型能够推断出潜在的敏感信息如用户的偏好、兴趣、行为等基于此进行精准的广告推荐。
防御对输入输出数据进行隐私保护 二、大模型的安全问题
ChatGPT等生成式大模型本质上是基于深度学习的一个大型模型也面临着人工智能安全方面的诸多威胁包括模型窃取以及各种传统攻击对抗样本攻击后门攻击prompt攻击数据投毒等来引起输出的错误。
2.1 模型窃取攻击
攻击模型窃取指的是攻击者依靠有限次数的模型询问从而得到一个和目标模型 的功能和效果一致的本地模型。攻击者尝试通过分析模型的输入输出和内部结构来还原模型的设计和参数。这可能导致模型的知识产权泄露带来安全风险。
防御为防止模型窃取可采取如下技术保护模型参数 1 模型加密对模型的参数进行加密。 2 模型水印对大模型进行溯源和验证以确保其来源和合法性。 3 模型集成通过将多个模型集成在一起可以提高模型的鲁棒性和安全性。集成学习技术可以通过组合多个模型的预测结果来提高模型的性能和安全性。 4 模型蒸馏降低模型规模小模型对于噪音和扰动的容忍能力更强。 5 访问控制确保大模型在部署和使用过程中的安全性包括访问控制、身份认证、权限管理和数据保护等方面。这有助于防止未经授权的访问和滥用。
2.2 数据窃取攻击
攻击大模型通常需要处理大量的敏感数据攻击者可能试图通过访问模型或截获模型的输入输出来获取训练过程中使用过的数据的分布从而获取敏感信息[1]。 防御1设立相应机制判断用户是否在进行以窃取为目的的查询。2对用户敏感信息进行加密上传。
2.3 Prompt提示词攻击
Prompt的构建使得预训练大模型能够输出更加符合人类语言和理解的结果但是不同的prompt的模板依旧有可能会导致一些安全问题和隐私问题的出现。提示词作为人和大语言模型交互的媒介被不断提起。提示词攻击是一种新型的攻击方式包括提示词注入、提示词泄露和提示词越狱。这些攻击方式可能会导致模型生成不适当的内容泄露敏感信息等。
提示词注入将恶意或非预期内容添加到提示中以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集提示词泄露从LLM的响应中提取敏感或保密信息提示词越狱绕过安全和审查功能。
「Prompt提示词攻击」相关介绍详见博客大模型攻防Prompt 提示词攻击__Meilinger_的博客-CSDN博客
2.4 对抗样本攻击
攻击者通过对输入样本进行微小的修改使其能够欺骗模型导致错误的预测结果。这可能会对模型的可靠性和安全性产生负面影响。
2.5 后门攻击
攻击者在模型中插入后门使其在特定条件下产生错误的输出结果或泄露敏感信息。这可能导致模型被滥用或被攻击者控制。
2.6 数据投毒
……
三、基于大模型的隐蔽通信
由于训练数据的规模庞大大语言模型在隐蔽通信中具有天然优势——其能够更加合理地模拟真实数据分布一定程度上提升生成载密文本的统计不可感知性。攻击者通过使用大模型生成流畅的载密文本在公共信道中进行传输。目前跨模态隐写逐渐引起研究人员关注结合大模型完成跨模态隐写值得尝试。
文本隐写的发展脉络如下 经调研目前并没有针对大模型文本隐写的相关研究工作 此外针对生成式大模型隐写的隐写分析算法也有待提出。
参考资料
论文研读生成式文本隐写发展综述论文研读生成式跨模态隐写发展综述 四、大模型的产权问题
问题大模型生成作品的版权归属如今尚不明朗。
措施 1在大模型的训练过程中除原始输入本身还需要将数据来源以及产权信息作为训练数据。这将使得在使用大模型进行创作任务时能够准确查询是否涉及到某些产权而需要引用和付费等。这一功能的实现将能够极大提升数据价值避免产权纠纷也能够让ChatGPT更好地辅助科研和创作。 2使用区块链技术对数据源版权进行记录保护区块链技术的使用也方便于之后产权纠纷处理中的溯源分析。 3使用电子水印技术保护数据源的版权和实用模型的版权。 五、 大模型的伦理问题
5.1 意识形态
5.2 偏见歧视
5.3 政治斗争
5.4 就业公平
5.5 信息茧房
针对大模型存在的伦理问题需要建立各类信息的检测机制设立实时监管系统对大模型的违规行为进行记录。 后记以上是大模型攻防的一些常见内容个人感觉大模型攻防与传统AI攻防的主要区别在于程度的差异——大模型由于其广泛被用于各个场景对人类社会的影响自然要大于普通模型也正因此大模型的攻防研究颇为关键亟待开展。 参考资料
2023生成式大模型安全与隐私白皮书, 之江实验室, 2023.