河南住房和城乡建设局网站,网站制作视频教程下载百度云,太原王建设,用自己电脑建网站【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容#xff0c;大致上分成了 3 个大类#xff1a; 1. 人工智能的开放、风险与挑战#xff08;4 篇#xff09; 2. 人工智能的治理#xff08;总共 12 篇#xff09;#xff0c;其中分成了几个子类… 【深入探讨人工智能】网络研讨系列总共有 17 个视频。我们按照视频内容大致上分成了 3 个大类 1. 人工智能的开放、风险与挑战4 篇 2. 人工智能的治理总共 12 篇其中分成了几个子类 a. 人工智能的治理框架3 篇 b. 人工智能的数据治理4 篇 c. 人工智能的许可证4 篇 d. 人工智能的法案1 篇 3. 炉边对谈-谁在构建开源人工智能? 今天发布的是第二个大类别 “人工智能的治理” 里的第一个子类别 “人工智能的治理框架” 的第三个视频开源人工智能中赋能、透明性和可重复性三者之间的关系。 我们期盼如此分类对读者的易读性有帮助也欢迎读者们的反馈和指正。 --- 开源社.国际接轨组 --- Stefano Maffulli 欢迎来到由开源促进会主办的深入探讨人工智能网络研讨会系列。我是 Stefano Maffulli开源促进会执行董事今天我们将听到 Ivo Emanuilov 和 Jutta Suksi关于开源人工智能以及它如何实现透明度和快速可重复性希望你喜欢。最后我们会回答大家的问题。 Ivo Emanuilov: 大家好欢迎来到这个会议在开源促进会的深入探讨开源人工智能的网络研讨会系列中我很高兴今天能和我的同事来自 VTT 的 Jutta Suksi 一起来到这里。我们两人将分享我们对如何塑造开源人工智能的看法和见解。我的名字是 Ivo Emanuilov我是比利时鲁汶大学的知识产权律师和研究员。在过去的十年里我一直专注于知识产权法和技术法。除了作为律师的工作我还就如何采购、部署和管理机器学习项目向公司提供咨询包括使用开源技术。Jutta介绍一下妳自己吧 Jutta Suksi 大家好。我叫 Jutta Suksi我在芬兰技术研究中心 VTT 工作。我所在的团队名为“数据密集型经济”Data Intensive Economy。我对数据有两个观点。首先我关注与数据相关的法律问题我有技术律师的背景除此之外我还会关注与数据相关的设计方面和沟通方面因为我也有设计和新媒体的学位。很高兴见到大家。 Ivo Emanuilov: 我们的议程上有很多内容。在接下来的幻灯片中你可以看到我们基本上打算涵盖的内容。 首先我们要从不同的角度来探讨人工智能如何构建这个技术过程中包含的组件。然后在以下三个系列的深入研究中我将讨论的话题是版权和训练数据是如何联系起来的。在人工智能的背景下人工智能到底是不是 IP如果是究竟是什么样的 IP ? 最后时间将进入我们关于开源人工智能应该是什么样的提议的细节或者至少涵盖开源社区已经提供的一些常用模块。 然后 Jutta 将会讨论并加入到这三次深入探讨的题目之间在不同的阶段和组成部分进行介绍。一旦我们提出了开源人工智能面貌的愿景以及如何在许可证环境和其他监管要求方面与之进行交易也发挥着重要作用。Jutta你可以开始了。 Jutta Suksi 好的。几周前我和我们的技术经理哈勒曼坐了下来。我们试图找出与人工智能相关的阶段和不同的组件这样我们就能真正理解在人工智能开发周期的哪个阶段应该开放这是我们得到的可视化结果。首先当然如果我们看看构建人工智能的各个阶段我们有训练数据还有未训练的模型需要训练。未训练的模型需要训练然后我们得到训练后的模型进一步的输入数据以获得输出所以这些都是在一个非常高的水平上生成人工智能的基本阶段。 但这并不能让我们走得更远让我们再深入一点。如果我们看一下训练数据的上半部分这也是我们获得训练数据之前的初步阶段。 首先我们需要访问数据。我们需要准备数据收集数据并进行预处理工作。在我们得到训练过的数据之前还有很多工作要做。然后在底部部分同样适用。我们需要建立未经训练的模型构建组件、构建结构、优化事物。除此之外我们还有一些问题。这些问题在数据方面或模型方面并不明显。我们有预定义的模型我们需要知识表征。我这些都是在我们的过程中所需的一些内容这只是其中一部分的命名。 好的然后进入下一个阶段看看我们从训练中得到了什么。除了训练模型之外还有几个组件要么是生成的要么是在这个过程中出现的。当然我们有训练好的模型。但除此之外我们有参数、权重、拓扑、激活函数和表示甚至是重新表示。然后继续看输出。 最后我们会得到一个问题的答案但这个答案可以是数据可以是代码也可以是图像。所以我们有很多要处理的内容我们能从中得到什么我们应该把重点放在哪里这就是我们心中所想的问题或者也许 Ivo 你可以带我们第一次深入探讨然后告诉我们应该在哪里集中精力 Ivo Emanuilov: 谢谢你Jutta。因此第一次深入探讨的目的是提出一个问题也就是我们应该对关于我们用来训练机器学习模型的数据集里可能存在的版权问题有多关注所以基本上第一步出于研究目的我们采用这个众所周知的。以 Copilot 为例这是微软提供的一项服务它从本质上合成了代码片段从自然语言提示中合成了完整的程序。 针对这项特定服务提出的问题是公开可用的 GitHub 开源代码库是否符合发布此代码时规定的许可证条件。基本上我们在互联网上有公共代码和文本它被抓取并在模型中使用然后模型生成代码。 用微软自己的话来说你的代码应该被视为私有代码。这种从代码到数据再到代码的转变基本上提出了如何处理这个问题。从一个阶段到另一个阶段的转变在法律上意味着什么? 正如你在下一张幻灯片的图中看到的基本上是这个问题的简单答案微软是否可以依靠法定豁免可能并不重要因为所有复制的部分都是特定的代码片段。 通常由于代码受版权保护需要程序作者的授权。但是如果法律本身对作者的这一专有权有例外限制那么作者说什么就不再重要了。因为立法者自己已经决定允许第三方在未经授权的情况下使用这个代码。 因此很明显至少到目前为止在准备和管理数据时需要某种形式的复制。这是一种需要权利人授权的行为除非存在这种豁免。至少在欧盟我们有这样的豁免也被称为数据挖掘豁免税以及2019年版权指令的第三条和第四条。所以即使我们能克服遵守许可证条件的要求如果出现例外情况这也无关紧要因为我们可以依靠相关法律。虽然问题仍然存在但是这为训练模型创造了一个足够稳定的合法基础。 正如你所看到的我在这里复制了该指令第四条规定的一部分它控制了异常限制和数据挖掘。你可以在第二段看到基本上是这样写的结果和抽象可能只保留必要的时间。现在我们必须非常仔细地思量是否考虑例如词嵌入。从法律赋予或不赋予这些词语的意义上来说作为复制品的摘取。实质上我们需要问的是在分词过程中是否以及何时进行了标记化在把符号转换成数字表示的过程中。因此受版权保护的材料是否被分解到无法再被重构或感知从而成为与原始受保护作品分离的独立元素。现在如果你的模型重新生成的代码与根据开源许可证发布的代码完全相同那么显然您处于不同的场景中。至少在宽松许可证的情况下你可能必须遵守通知和署名要求或者遵守互惠许可证的情况下的附加义务。 重要的是计算机程序的代码改编属于文本和数据挖掘的例外情况。因为这是新版权法中唯一一个试图协调改编权的领域。这意味着在实际操作中即使模型生成了一个计算机程序与现有的代码非常相似。例如存在于 GitHub 上的托管存储库中。然后这将被软件适应的协调机制所捕获它被例外所涵盖。所以本质上我们在问一个问题这属于机器学习过程的哪一层因此符合版权条件的主题就变成了别的东西不符合条件的东西毫无意义的数字仅凭此无法重建原作品。换句话说我们在问这个问题当代码变成数字数据时版权保护是否失效? Jutta Suksi 哪一边把我们带到了我们可以更详细地分析的阶段。我们可以在 AI 中找到什么样的属性层? Ivo 说的是幻灯片的左边。关于训练数据在整个过程中发生了什么如果我们看一下过程的上方我们可以清楚地看到数据但我们也可以看到与数据接近的问题和组件。比如参数或权重这些到底是不是数据? 在底部你会发现版权和软件这个词。 问题仍然存在特别是当我们谈论训练模型时。我们离软件换软件的世界还有多远? 在中间我们有很多其他类别的组件。我们有图像数据我们有答案我们有知识表示还有发生在机器和人类之间的事情。 所以从这个意义上说我们可以尝试识别不同的参与者看看发生了什么那么Ivo你怎么看待我们在这里看到的这些层次和知识产权的混合性质? Ivo Emanuilov: 跟你说的一样。我认为它是混合的因为人工智能至少以机器学习的形式不受单一政权的统治尤其是在知识产权方面。所以版权问题并不存在于我们在这里看到的每一层链的每一步。 这就提出了一个问题如果人工智能是一种混合知识产权我们如何处理这个问题? 我认为欧盟法院至少当涉及到你的时候给了我们一些提示。这对我们的一些听众来说可能有点奇怪。 那就是电子游戏这就是任天堂的例子。这是 2012 年的一个老案子这个案件是2014 年由法院判决的 但从本质上讲该案件涉及电子游戏的技术保护措施。在判决书的一个段落中法院给出了一个非常有趣的关于电子游戏的法律性质和知识产权性质的推理。所以正如你在这里看到的我将为你读一下法院表示电子游戏构成了复杂的主题。它不仅包括计算机程序还包括图形和声音元素虽然是用计算机语言加密的。 因此原则上对人类不可读的内容具有独特的创造价值。这不能简单地归结为加密的问题。现在法院继续说就电子游戏的部分而言图像和声音元素是其独创性的一部分它们和整个作品都受版权保护在这里引用的信息社会 (InfoSoc) 指令的背景下。那么这在实际中意味着什么呢 人们普遍认为这个决定基本上巩固了我们在欧洲版权法中的区别至少在封闭主体体系和开放主体体系之间的区别。正如你在这张图中看到的这个开放的知识产权体系基本上是一个系统我喜欢称之为“包罗万象”一个统一的方法 这仅仅取决于原创性的标准。所以我们对事物如何被客观化和以客观形式表达并不感兴趣而是它是否符合原创性的标准。 就欧盟而言这是关于知识创造的通告。所以理论是这样的正如你在右边看到的只要某样东西被认为是原创的在版权法保护的意义上它作为主题是什么并不重要这是自动的因为这是版权。那么这种方法和密切相关的主题处理方法基本上是研究每个单独的元素。只要每个元素都是原创的那么最终的电子游戏显然也是原创的。在开放主题方法中你可以看到事实上我们关注的是混合物体也就是电子游戏。然后因为基本上它的大部分元素都适用于版权以及媒体原创的门槛那么我们就可以作为一个整体。在电子游戏的多媒体作品中申请版权为什么会有不同呢? 首先对我来说在这两种情况下单个元素无论如何都会被评估得出混合对象是否为原物的结论。所以你至少需要有大多数符合这个标准的元素来为这个对象附加版权。然而在统一的方法中在开放的主题方法中我认为也有可能捕捉到未受保护的主题。所以把混合功能想象成一个强磁铁吸引题材。从实际角度来看这将会产生天壤之别。例如电子游戏中的交易模式是否会受到保护。 因为在第一种封闭系统中在主体系统的方法中你可以通过它的视频作品音频作品和文字作品看到这一点。你可以认为基于这些我们会认为电子游戏是原创的。因此这是一个具有版权的主题但却是一个奇怪的模式。它没有人类可读的源代码等等。这会被发现吗可能不会。 在第二种情况下人们可能会认为电子游戏的这种观点是一种混合知识产权允许某些人对这种模式提出保护。显然人工智能不同于电子游戏。但是如果我们采用法院建议的方法。事实上主题可能并不总是人类可读的。在这种情况下我们不需要剥夺它的原创性或是其加密需求。那么我认为欧洲版权法里的人工智能至少可以被合理地视为一种混合学科。当然我并不是说这是一个好的版权政策。 老实说我个人对版权是否适合捕捉 AI 的细微差别持怀疑态度。当然我们也必须谨慎地从一个案例中得出一般性结论。因为非常重要的是这不仅仅是一个关于电子游戏的原则上的案例而是一个更具体的关于技术保护措施的案例。在这种情况下法院必须处理的问题是电子游戏是否应该被深入探索分析以及《信息社会指令》的一般制度或《计算机程序指令》的特殊立法制度。 法院认为《信息社会指令》在处理混合媒体作品时适用而《计算机程序指令》只适用于纯软件。现在在讨论的背景下这提出了一个更有趣的问题即我们是否应该将人工智能 或者至少是过程中的一些元素如软件或一般版权合格的主题纳入版权问题的范畴 现在许多人认为机器学习模型与计算机程序完全不同。我同意这个观点。然而模型只是一个更长的技术过程中的中间输出通常会产生一个功能性应用程序然后通过 API 查询模型。所以在这种统一的方法下考虑版权并不是不可能的。在应用程序层上扩展还可以扩展并捕获底层模型。 当然除非我们认为模型仅仅是数学算法而它们确实是它们本质上是抽象的。如果我们谈论的是微调模型就不是这样的。例如微调模型当然是非常具体的任务。 最后我们面临两个问题。首先如果我们遵循统一的方法作为混合知识产权的人工智能是否应该作为一个整体获得许可? 例如假设的混合互惠许可如何在实践中发挥作用? 那么对于一个完整的对应源代码的概念来说它的数量是多少呢? 这些问题还不是很清楚。 第二个问题是如果遵循我们都太熟悉的典型的知识产权主题体系。如果有版权保护的话哪些元素可以并且应该受到版权保护如何处理那些不受版权保护的主题并且更重要的是如何进行交易。如何确保不同主题之间的许可证兼容性这是一个特别复杂的问题。 Jutta Suksi 这就引出了我们的下一部分也就是今天的核心问题如何为开源人工智能建立类似于开源软件的动力。对我来说这个问题的核心似乎是后期阶段是怎样的我们在过程中得到的组件是怎样反馈到系统的开始的人机交互问题里最关键的是准备数据和构建模型的周期。因为其中一些问题需要由人类来解释然后再返回到机器格式。所以问题是我们能否通过研究这三个问题来实现以下目标透明度、可实现性和可重复性。 另一个突然出现的问题是我们所拥有的限制的作用。这在我们目前在该领域的许可证中是可见的。所以 Ivo 将介绍关于透明度可实现性和可重复性的术语之后我会就我们目前的限制和许可说几句话。 Ivo Emanuilov: 如果我们接受人工智能不是一个知识产权混合物但它仅仅是计算产物的集合其中一些可能有版权保护。那么我们面临的问题是如何实现开源的效果而不仅是复制和支持开源软件的模式。所以这是为了达到效果而不是仅仅复制我们在开源软件中拥有的东西。正是因为它具有挑战性所以与代码不同代码受某种程度上国际协调的版权法管辖对于 AI 管道中的多个元素我们没有类似的东西不适合完全遵循版权框架的内容。 矛盾的是也许对你们中的一些人来说它就是国际版权法组织这帮助开源获得了动力。开源许可证的普遍存在本质上是基于一个潜在的假设即代码中存在版权。从本质上讲交易的正是这种版权。不管你是放弃你的权利把它奉献给公共领域 或者允许下游接收者有条件地或无条件地依赖于它。所有这些操作和活动本质上都是在行使您对代码的版权。现在由于我们还没有任何类似的人工智能技术我们建议考虑开源对人工智能的影响。在这个意义上在我们看来三个基本原则应该是任何开源定义的核心。 第一个是正如你提到的透明度我们把它理解为公开训练数据集组成的细节。例如有关数据结构、体系结构算法、访问神经网络权重等的详细信息。所以这是技术意义上的透明意味着这种程度的披露有利于项目周围的社区重建模型。如果它是这样希望的话这让我想到了第二个要素即可实现性。 现在赋能是一个类似于我们从专利法中了解到的原则。这可能会让你们中的一些人感到惊讶。披露的充分性或者说细节的不足可以让有相关技术的人重现。重要的是法律能够帮助实现所要求的发明重要的是法律促进发明。但重点是很明显顶级开源社区很少有像专利办公室这样的机构能力。因此以类似的方式实现这一点将是具有挑战性的而且不太实际。如果我们把可实现性理解为公开那么关于模型构建的足够的细节就被忽略了。至少理论上任何有计算资源人都可以重建该模型。 我会允许一个可预测的标准什么时候机器学习模型是开源的什么时候不是。很明显的赋能将依赖于环绕着项目并渴望开源原则的社区来开发技术标准。但从本质上讲这个想法归结为能够重建被称为开源的东西。因为从本质上讲这就是传统开源软件许可中对源代码的访问权限。任何人都可以拿到代码他们可以修改他们可以重建它。但是本质上你通过提供对源代码的访问来实现。当然我认为类似的方法也可以应用在这里。在 AI 的情况下实现需求会有很大的不同。所以我们可以用一些例子比如我们从 Hugging Face 中知道的卡片模型其他类型的披露合作政策等等。所以我想它将比我们所拥有的开源软件更广泛。 第三个要素是可重复性。一个赋能关系的陈述。如果没有验证这个陈述的合理性的方法就没有什么意义。所以我可能会发表一些东西并声称社区现在已经启用他们实际上可以重建它。但除非他们持续追踪否则是否能做到这一点没有人会知道。现在出于这个原因我们提出可重复性作为开源人工智能的第三个原则。我们在这里讨论的不是一般的可重复性而是更类似于我们所说的可复制构建。这是一组创建的软件开发实践一个从源代码到二进制代码的自变量路径。当然这一主张引起了对实际再训练的可行性的另一个关注。例如从头开始和更新基本模型这样的投入可能是巨大的。尤其是需要考虑到避免产生环境问题。是否有一种方法可以避免问题和促进可实现性同时仍然确定有一些可重复性保证以及在社区眼中应该算作可重复性的令人信服的证据。 现在无论如何如果开源人工智能要复制成功的开源软件然后下游用户应该能够依赖某种形式的社区保证。所以本质上在这个角色中社区围绕着开放项目宣称开源的人工智能将发挥极其重要的作用他们必须制定强有力的行为准则来处理这些问题。三个不同的要求以及它们应该被认为已经满足的时间。所以从本质上讲为了实现人工智能开源的效果我们必须利用强大的政策及指令。这是非常有益的我们知道最终会产生好的产品和好的软件。这是我们在过去几十年里在开源软件中看到的。 Jutta Suksi 谢谢你现在让我们来看看 AI 许可方案以及我们可以从中学到什么。所以从数据方面来说我想强调的第一件事是 2019 年的蒙特利尔数据许可证。有趣的是它关注的是数据它不关注开放性但它从数据方面给了我们一个视角我觉得这很有趣。然后再看 Big Science BLOOM Rail 许可证我们可以发现限制的重点。这个我们还没怎么讲。下一个开放权重宽松许可证 (Open weights permissive license)专注于权重给了我们正在进行的人机交互一个非常重要的面向。 最后我们有 OpenRAIL-DAMS 许可证它关注的是限制。除此之外它们还处理数据、可执行文件、模型和源代码的组合。如果我们要解释如何选择这些混合的大组合。如果我们试着把它映射到我们的通用线路图上我们可以看到最重要的部分是第一批许可证如 OpenRAIL 许可证它们就在那里并且已经证明了它们的力量。 从第一批许可证中学习以及因而发生的动态变化是这项工作的核心。但是我们也应该从数据方面进行研究并从蒙特利尔数据许可证中获取一些经验看看我们为什么要有这些限制以及我们为什么以及在哪里需要这些限制例如从 BLOOM Rail 许可证来看更详细地了解权重。最后看看所有这些东西的混合组合。尽管我认为我们可以从所有这些许可证中学习我们应该学习如何构建开源人工智能。如果我继续往下看一些关于我们现在所处位置的随机观察。例如关于许可证我想强调的是变化非常迅速。 因此从这句话中您可以看到 在几个月内 Open RAIL 许可证已经成为第二大使用类别在宽松的开源软件许可证之后这是一个非常迅速的变化。另一个观察来自监管方面。我们应该记住我们别忘记世界各地的监管要求。人工智能正在受到监管。这里我们可以找到斯坦福大学的一项研究他们研究了创建基础模型的提供者如何遵守欧盟人工智能法案草案。一个有趣的部分是目前没有人做到这样的合规但最接近的是 HuggingFace 的 BLOOM。 最后还有一个我特别感兴趣的问题或许也是 Ivo 所说的的核心所在就是在法律方面和商业方面之间架起理解的桥梁。这是我们在 Zooom 项目中研究了一年的东西我们即将公布初步结果并开始为开发人员和企业开发实用工具和工具箱。 在这里我们的重点确实是理解商业方面如何与法律方面协同工作。所以请浏览我们的网站看看我们的详细结果。在此感谢你们所有人现在是讨论和提问的时间了。 Ivo Emanuilov: 感谢大家收听我们在问答环节见。 Ivo EmanuilovIP lawyer / PhD researacher, KU Leuven Centre for IT IP Law Jutta SuksiSenior Specialist, Legal and Design in Data Economy VTT Technical Research Centre of Finland Ltd 作者丨Ivo Emanuilov、Jutta Suksi 翻译丨陈超群 审校丨刘天栋 视频丨陈玄 策划丨李思颖、罗蕊艳 编辑丨王梦玉 相关阅读 | Related Reading 【Deep Dive: AI Webinar】将SAFE-D原则应用于开源人工智能中 【Deep Dive: AI Webinar】基于LLM的推荐系统中的公平与责任确保人工智能技术的使用合乎道德 【Deep Dive: AI Webinar】在开放开发的开源项目中引入 AI 的挑战 【Deep Dive: AI Webinar】开放 ChatGPT - 人工智能开放性运作的案例研究 开源社简介 开源社英文名称为“KAIYUANSHE”成立于 2014 年是由志愿贡献于开源事业的个人志愿者依 “贡献、共识、共治” 原则所组成的开源社区。开源社始终维持 “厂商中立、公益、非营利” 的理念以 “立足中国、贡献全球推动开源成为新时代的生活方式” 为愿景以 “开源治理、国际接轨、社区发展、项目孵化” 为使命旨在共创健康可持续发展的开源生态体系。 开源社积极与支持开源的社区、高校、企业以及政府相关单位紧密合作同时也是全球开源协议认证组织 - OSI 在中国的首个成员。 自2016年起连续举办中国开源年会COSCon持续发布《中国开源年度报告》联合发起了“中国开源先锋榜”、“中国开源码力榜”等在海内外产生了广泛的影响力。