×

打开微信,扫一扫二维码
订阅我们的微信公众号

首页 锦天城概况 党建工作 专业领域 行业领域 专业人员 全球网络 新闻资讯 出版刊物 加入我们 联系我们 订阅下载 CN EN JP
首页 > 出版刊物 > 法律观察 > OECD发布《基于数据抓取训练的人工智能中的知识产权问题》

OECD发布《基于数据抓取训练的人工智能中的知识产权问题》

 2025-03-09337

2025年2月9日,经济合作与发展组织(OECD)发布《基于数据抓取训练的人工智能中的知识产权问题》(Intellectual Property Issues in Artificial Intelligence Trained on Scraped Data)报告。本报告概述了人工智能与部分知识产权交叉领域的关键问题,旨在增进对数据抓取(这是获取开发许多大语言模型所需的人工智能训练数据的主要方法)的理解。报告分析了数据抓取技术,确定了主要利益相关者,以及全球范围内的法律和监管应对措施。最后,报告提出了初步考虑和潜在政策方法,以帮助指导政策制定者应对这些问题,确保在保护知识产权和其他权利的同时,充分释放人工智能的创新潜力。

该报告由杜克大学法学与负责任技术杰出研究员李・蒂德里希(Lee Tiedrich)教授、卡琳・佩尔塞(Karine Perset)和萨拉・菲亚略・埃斯波西托(Sara Fialho Esposito)撰写,经 OECD 科学、技术和创新局副局长奥德丽・普隆克(Audrey Plonk)监督指导完成。在经济合作与发展组织(OECD)人工智能治理工作组(AIGO)2023 年 11 月和 2024 年 6 月的会议上进行了讨论。全球人工智能伙伴关系组织(GPAI)在 2024 年 11 月的全体会议上也对这项工作展开了探讨。报告于 2025 年 1 月 30 日经全球人工智能伙伴关系组织(GPAI)书面程序批准并解密,由 OECD 秘书处筹备出版。该报告还得益于 2024 年 1 月、3 月和 5 月由法国 GPAI 专家支持中心(法国国家信息与自动化研究所,Inria)资助的 GPAI 数据抓取与知识产权研讨会的讨论。

报告指出,人工智能的最新进展,尤其是生成式人工智能的出现,给知识产权领域带来了复杂的挑战。人工智能模型的开发、测试和验证在很大程度上依赖于对大型数据集的访问,这使得对训练数据的需求急剧增加。一种广泛用于收集此类数据的方法是 “数据抓取”,在本报告中,它指的是从第三方网站、数据库或社交媒体平台自动提取信息的行为。数据抓取直接影响受知识产权保护作品的创作者和所有者,尤其是在未获得权利持有人同意或未向其支付报酬的情况下进行抓取时。抓取活动可能涉及多种知识产权及类似权利,包括版权、数据库权、商标权、商业秘密、公开权和精神权利。

围绕知识产权数据抓取的法律环境复杂且变化迅速。现有的许多知识产权法律早于现代人工智能实践制定,不同司法管辖区的法律存在差异,这使得其在数据抓取场景中的适用变得复杂。数据抓取经常涉及受知识产权保护的内容,这引发了关于侵权、合理使用或文本与数据挖掘(TDM)条款等例外情况的适用性,以及是否遵守合同条款和条件等问题。抓取受版权保护的材料引发了关于所收集或使用的抓取数据是否构成版权侵权的疑问。全球范围内,这一领域的诉讼不断增加,美国、欧盟等地出现了多起具有重大影响的案件。此外,对人工智能生成内容的担忧,特别是那些未经授权模仿个人风格、声音或形象的内容,促使各国出台了各种法律措施,旨在保护相关权利并防止滥用。

数据抓取如今已十分普遍,但它涵盖多种方法,目前还没有一个被普遍接受的定义。“数据抓取” 这一术语常与 “数据挖掘” 混淆,后者指的是识别模式、趋势和相关性的计算过程,同时也容易与 “网络爬虫” 等技术混淆。本报告强调了这些定义的不一致性,并提出了一个宽泛的工作定义。数据抓取的组成部分包括数据收集、数据预处理和数据使用。报告分析了不同的抓取技术,并强调需要统一的术语,以及更明确地区分这些方法。

数据抓取生态系统中的不同参与者引发了各种法律问题。一些参与者利用数据抓取支持研究和其他活动,这表明需要针对不同的用例制定相应的政策工具。数据抓取生态系统涵盖研究机构、学术界、人工智能数据聚合商,以及科技公司和平台运营商。研究机构和学术界经常利用数据抓取收集数据,用于学术和科学研究。据报道,人工智能数据聚合商将抓取的数据提供给第三方,但往往没有明确的许可条款,也未清晰披露数据来源,这引发了知识产权和其他法律问题。科技公司和平台运营商既是数据抓取的来源,也是数据抓取的常客。

“数据抓取行为准则”、标准合同条款、标准技术工具以及提高认识的举措,有助于以国际协调的方式为数据抓取指明一条负责任的道路。如果在制定过程中能吸收包括权利持有人、研究人员、人工智能开发者、民间社会和政策制定者在内的广泛利益相关者的意见,这些措施将更为有效。

自愿性的 “数据抓取行为准则” 可以制定广泛适用的条款,同时为人工智能生态系统中的不同参与者提供具体指导。这些条款可以明确人工智能数据聚合商和抓取数据使用者的不同角色。为促进一致性,该准则可以纳入标准术语,确保利益相关者对数据抓取活动有共同的理解。此外,它还可以包括监督遵守情况的机制,如注册系统,并就透明度和文件记录实践提供建议。最后,该准则可以纳入标准合同条款。

标准技术工具可以帮助保护知识产权,使权利持有人能够更轻松地管理对其数据的访问。这些工具可以包括数据访问控制机制、自动合同监控和直接支付系统。这种标准化工具可以简化组织的合规工作,同时便于在多个平台上保护权利持有人的权益。

标准合同条款可以解决与数据抓取相关的法律和运营问题。这些条款可以作为可选的起点,同时允许组织协商具体条件。这些条款的制定若能得到多个利益相关者的合作将更有益处,并且可以根据不同的用例进行调整,从非营利性研究到商业应用均适用。

提高对数据抓取及其法律影响的认识,可以使利益相关者了解如何保护和管理自己的权利。这包括帮助权利持有人了解他们所享有的保护,教育人工智能系统用户如何负责任地使用数据,并确保人工智能数据生态系统中的所有参与者了解自己的角色和责任。


Baidu
map