定制开发电商网站建设哪家好,wordpress主题添加菜单,中国造价工程建设监理协会网站,为什么装修公司建议半包LLM 05-大模型法律 5.1 简介
在这个教程中#xff0c;我们将探讨法律对大型语言模型的开发和部署有何规定。我们将会按照以下的步骤进行讨论#xff1a; 新技术与现有法律的关系 与我们之前的讲座一样#xff0c;比如关于社会偏见的讲座#xff0c;我们将要讨论的很多内容… LLM 05-大模型法律
5.1 简介
在这个教程中我们将探讨法律对大型语言模型的开发和部署有何规定。我们将会按照以下的步骤进行讨论 新技术与现有法律的关系 与我们之前的讲座一样比如关于社会偏见的讲座我们将要讨论的很多内容并不一定特指大型语言模型并没有特别的大型语言模型法律条例。然而每当有新的强大的技术出现它都会引发很多关于现有法律是否仍然适用或有意义的问题。例如随着互联网的重要性日益提高互联网法律或称为网络法应运而生。它从现有的领域中汲取知识如知识产权法隐私法和合同法等。 互联网的独特挑战 法律通常有明确的管辖范围例如州联邦但互联网并不受地理限制。在互联网上可以保持匿名任何人都可以发布一段内容理论上可以被任何人查看。 法律与道德的区别 法律可以由政府强制执行而道德无法强制执行可以由任何组织创立。例如医师的希波克拉底誓言、ACM的道德与职业行为准则、NeurIPS的行为准则和斯坦福的荣誉准则等。 法律的管辖权问题 根据你所在的地方哪个国家哪个州等适用的法律会有所不同。例如欧盟的数据隐私法GDPR比美国的法律更全面。法律可以在联邦、州或地方级别存在。 法律的类型 常见的法律类型包括普通法司法、成文法立法和监管法行政。 大型语言模型 我们将会把注意力转向大型语言模型。回忆一下大型语言模型的生命周期收集训练数据训练大型语言模型将其适应到下游任务向用户部署语言模型。 在大型语言模型的生命周期中有两个主要领域与法律交叉数据和应用。 数据 所有的机器学习都依赖于数据。语言模型依赖于大量的数据尤其是为其他目的制作的他人的数据这些数据往往在未经许可的情况下被抓取。知识产权法保护数据的创作者那么在这些数据上训练语言模型是否构成侵犯版权隐私法保护个人隐私权那么在公开或私密数据上训练语言模型是否可能侵犯隐私对于私密数据何时可以收集和汇总这些数据 应用 语言模型可以被用于广泛的下游任务例如问答聊天机器人。技术可能被有意用于伤害例如垃圾邮件网络钓鱼攻击骚扰假新闻。现有的互联网欺诈和滥用法律可能覆盖其中的一部分。他们可以被部署在各种高风险的环境例如医疗贷款教育。现有的在相关领域的规定例如医疗可能覆盖其中的一部分。 大型语言模型的扩展能力例如真实文本生成聊天机器人将带来新的挑战。
5.2 版权法
大型语言模型或任何机器学习模型都是基于数据进行训练的而这些数据是人类劳动的结果例如作者程序员摄影师等。除了创作者外其他人可以对这些创作例如书籍代码照片等进行何种使用属于知识产权法的范畴。
5.2.1 知识产权法
其动机是鼓励创建各种类型的知识产品。如果任何人都可以利用你的辛勤劳动并从中获利人们就会对创造或分享失去动力。知识产权包括版权专利商标商业秘密。
在美国决定版权的关键法规是1976年的《版权法》。版权保护适用于“已经以某种可以感知、复制或以其他方式直接或通过机器或设备传达的有形媒介中固定下来的原创性作者作品”。1976年版权法扩大了版权保护范围从“已发布”1909年扩大到“已固定”。虽然不需要登记就可以获得版权保护但在起诉他人侵犯版权之前创作者必须注册版权。版权保护期限为75年然后版权到期作品成为公有领域的一部分如莎士比亚、贝多芬的作品等。
使用版权作品有两种方式获取许可或依赖公平使用条款。
5.2.2 许可
许可来自合同法是由许可人授予许可使用者的。实际上“许可就是承诺不起诉”。创作共享许可允许免费分发版权作品。例如维基百科、开放课程、可汗学院、免费音乐档案、来自Flickr的307百万图像、来自MusicBrainz的39百万图像、来自YouTube的1000万视频等。
5.2.3 公平使用第107条
自1840年代以来公平使用一直是普通法。决定是否适用公平使用的四个因素是
使用的目的和性质教育用途优于商业用途转型用途优于复制版权作品的性质虚构作品优于事实作品创新性的程度使用的原作部分的数量和实质性使用对原作市场或潜在市场的影响。
服务条款可能会增加额外的限制。例如YouTube的服务条款禁止下载视频即使视频在创作共享下许可。
注意事实和想法不受版权保护。如果策划/安排被视为表达事实数据库可以受版权保护。复制数据训练的第一步就已经是侵权即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元版权法第504条。
5.3 案例研究
接下来我们将回顾一些已经裁定公平使用或反对公平使用的案件。
5.3.1 作家协会诉Google
Google Book Search扫描了印刷书籍并使其在线可搜索显示片段始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年地区法院判定Google公平使用。
5.3.2 Google诉Oracle
Google在Android操作系统中复制了Oracle原Sun Microsystems所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月最高法院裁定Google的使用Java API属于公平使用。
5.3.3 Fox News诉TVEyes
TVEyes记录电视节目创建了一项服务使人们可以搜索通过文本并观看10秒片段。Fox News起诉TVEyes。2018年第二区裁定赞成Fox News不是公平使用。
5.3.4 Kelly诉Arriba
Arriba创建了一个显示缩略图的搜索引擎。Kelly个人起诉Arriba。2003年第九巡回法庭裁定赞成Arriba认为其属于公平使用。
5.3.5 Sega诉Accolade
1989年Sega Genesis游戏主机发布。Accolade想要在Genesis上发布游戏但Sega收取额外费用希望成为独家发行商。Accolade反向工程Sega的代码制作新版本绕过安全锁。Sega在1991年起诉Accolade。1992年第九巡回法庭裁定赞成Accolade认为其属于公平使用。
5.4 公平学习与机器学习
公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的它不会改变作品但会改变目的。机器学习系统对想法感兴趣而不是具体的表达。
对于将机器学习视为公平使用的论据训练数据的广泛访问会为社会创造更好的系统。如果不允许使用那么大部分作品无法用来产生新的价值。使用版权数据可能更公平。
反对将机器学习视为公平使用的论据认为机器学习系统不会产生创意的“最终产品”而只是赚钱。生成模型例如语言模型可以与创意专业人士竞争。机器学习系统的问题传播假信息实现监控等因此不应该给予机器学习系统利益的怀疑。
在版权法下很难分离可保护的例如表达和不可保护的例如想法。虽然构建机器学习系统可能有很多原因不妥但版权是阻止它的正确工具吗对于训练大型语言模型是否属于公平使用的问题正在迅速发展。
5.5 阶段性结论
查看信息技术的历史我们可以看到三个阶段
第一阶段文本数据挖掘搜索引擎基于简单的模式匹配。第二阶段分类例如分类停止标志或情感分析推荐系统。第三阶段学习模仿表达的生成模型。
上次我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特那么这对公平使用来说是有问题的。然而即使语言模型不直接生成以前的作品版权仍然相关因为以前的受版权保护的作品被用来训练语言模型。
事实上语言模型可以与作家竞争。例如作家写了3本书语言模型在这3本书上进行训练并自动生成第4本。
因此面对大型语言模型版权和机器学习的未来还未知。
5.6 隐私法律教程
在本教程中我们将简要讨论一些隐私法律的例子包括Clearview AI、加利福尼亚消费者隐私法案2018、加利福尼亚隐私权法案2020以及欧盟的一般数据保护条例GDPR。
5.6.1 Clearview AI
Clearview AI是一家成立于2017年的公司。2019年纽约时报曝光了它。到2021年10月该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构例如FBI和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私该公司已被起诉。
5.6.2 伊利诺伊州生物识别信息隐私法2008
这项法律通过私人实体对生物识别标识符进行监管不包括政府实体。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构DPA认为该行为违法。
5.6.3 加利福尼亚消费者隐私法案2018
这项法案赋予加利福尼亚居民以下权利
了解收集他们的哪些个人数据。了解他们的个人数据是否被出售或公开以及给了谁。拒绝个人数据的销售。访问他们的个人数据。请求业务删除从消费者处收集的任何个人信息。不因行使他们的隐私权利而被歧视。
个人数据包括真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。
该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同这项法律不允许用户更正数据。
5.6.4 加利福尼亚隐私权法案2020
这项法案创立了加利福尼亚隐私保护机构将于2023年1月1日生效适用于2022年1月1日之后收集的数据。
5.6.4.1 意图
了解谁在收集他们及其孩子的个人信息如何使用以及向谁公开。控制他们个人信息的使用包括限制他们敏感个人信息的使用。访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。通过易于获取的自助工具行使他们的隐私权利。行使他们的隐私权利而不受罚款。将未采取合理信息安全预防措施的企业追究责任。从企业使用他们的个人信息中受益。作为员工和独立承包商也能保护他们的隐私利益。
5.7 GDPR欧盟一般数据保护条例
该规定是欧盟法律关于数据隐私的一部分于2016年通过2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意Google被罚款5700万美元。
5.8 其他法律
5.8.1 加利福尼亚的机器人披露法案
如果使用机器人与人进行通信而不披露它是一个机器人这是违法的。限制只适用于激励销售或影响选举投票的情况。限制只适用于每月在美国有1000万访问者的公开网站。
5.9 总结
在我们训练大型语言模型时我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质你必须诉诸公平使用从每个人那里获得许可证将非常困难。模型的生成性可能会对争论公平使用提出挑战可以与人类竞争。在什么水平上进行调控语言模型还是下游应用是有意义的这个领域正在迅速发展需要深入的法律和人工智能专业知识才能做出明智的决定