ChatGPT法律问题研究及合规指引—数据安全及知识产权篇
作者:全开明 袁苇 谢美山 2023-03-23【摘要】在关于人工智能(AI)发展的激烈争论中,最近谈论最多的当属ChatGPT。最近,ChatGPT中使用的技术突然迅速地成为日常生活的一部分—当然也包括商业、法律活动。而这场对于人工智能的争论已经从科学争论变成了对IT和技术领域有重大影响的具体问题的争论。在这篇文章中,将研究实际使用ChatGPT和类似系统时需要考虑的主要知识产权问题以及该如何合理规避使用ChatGPT所带来的风险。
【关键词】ChatGPT 人工智能 知识产权 数据安全 个人隐私 法律风险
一、ChatGPT背景
(一)概念 ChatGPT是一种基于自然语言处理技术的大型语言模型,它是由OpenAI开发的,基于GPT(Generative Pre-trained Transformer)算法,并在此基础上不断改进和升级。 GPT是一种无监督的预训练模型,它使用Transformer神经网络架构,可以从大规模的语料库中学习文本的潜在规律,进而生成自然语言的文本。通过在大规模文本语料库上预训练,GPT模型可以在各种自然语言处理任务上进行微调和迁移学习,包括机器翻译、文本摘要、对话生成等。 ChatGPT是在GPT模型的基础上针对对话生成任务进行微调得到的模型,它可以模拟人类的对话行为,根据用户输入的文本生成自然语言回复。在ChatGPT中,文本输入被转换为一种叫做“token”的数学表示,然后被输入到GPT模型中进行计算和处理,最终生成回复文本。ChatGPT还可以通过不断的迭代优化,提高生成文本的质量和流畅度,以更好地服务于人类的对话需求。[1] (二)应用 ChatGPT及其使用的技术具有巨大的潜力,可以成为商业中用来执行(或至少作为执行的主要辅助手段)过去只有人类能够完成的任务(并被认为是人类创造力的领域)的一种工具。2023年3月15日微软发布GPT-4 Office全家桶,不管是Word、PPT、Excel,还是Outlook、Teams、Microsoft Viva、Power Platform,所有这些办公软件,通通都会得到GPT-4的加持。[2]这是增强版的模型,其使用更大的数据量和更多的初始参数进行训练。这将意味着ChatGPT有更多的实际用途,越来越多的人将在工作中使用或通过基于GPT-3的商业工具(使用提供的API)间接使用ChatGPT。 基于此,人们自然会问,除了个人目的外,ChatGPT和基于ChatGPT的工具是否可以在商业、法律行为中使用,这是否安全和合法,以及这可能涉及什么样的风险。 下面本文将对解决上述问题的基本法律问题进行研究分析。
二、ChatGPT可能面临的法律风险
(一)数据 对于ChatGPT生成任何类型的内容,首先必须向它提出适当的问题。从这个角度来看,根据输入数据的类型,有两种情况可以使用该工具。 在第一种情况下,旨在生成全新内容的具体命令不包括受保护或受特殊法律约束的数据,例如,告诉系统生成一篇关于一般主题的简短文章的命令。 在第二种情况下,需要特定的数据、内容或文本输入,以修改、扩展或纠正数据和内容,或产生响应,而输入的数据可能包括受保护或受特别法律约束的数据,例如个人数据。根据所提供信息的范围,ChatGPT的两种使用方式对用户来说涉及不同的风险。 1.数据的输入 当用户向ChatGPT输入任何类型的数据时,他们提供的数据将被工具提供者——美国公司OpenAI L.L.C.[3]使用。 根据美国公司OpenAI L.L.C.服务条款[4]和使用条款[5],供应商被授权使用用户提供的数据,并将其用于维护、开发和升级其技术。这不仅适用于输入数据,即用户输入ChatGPT以获得摘要和删节版的内容,而且也适用于输出数据,即生成的内容。 诚然,OpenAI的服务条款规定,数据的处理并非完全没有限制,而且供应商使用户能够撤回对处理的同意(至少某些用户可以这样做)。然而,任何输入ChatGPT的数据都是提供给供应商使用和处理的,而供应商的总部在美国,处理的范围没有具体说明。此外,根据服务条款,ChatGPT供应商没有对用户作出任何不泄露输入数据的具体承诺。 由于上述原因,当用户向ChatGPT输入构成商业秘密或机密的数据时,供应商可能将这些数据透露给第三方,用于不确定的目的,明确允许他们以这种方式使用这些数据。此外,从公开发布的信息中可以看出,ChatGPT的提供者确实有技术能力为机器学习的目的获取经过处理的信息,无论是通过自动方式还是手动方式。 因此,如果用户向ChatGPT输入包括商业战略细节的数据,那么同时也存在这样的风险,即该文件会被提供者获得,且也可能会被提供给其他用户,或被用来制作可供竞争的战略。同样,如果一个企业输入了与客户或商业对手有关的机密信息,那么提供者一方和提供者的附属机构可能会有无限多的人查看。 这意味着,为商业目的使用ChatGPT分析输入的机密信息可能构成对受法律保护的数据(商业机密或根据特定法律以其他方式享有特权的信息,如医疗或银行机密)的破坏,从而违反合同义务或法律。 这意味着需要对ChatGPT在业务中的使用进行适当的监督,包括起草相关的法律和指导方针,说明用户是否可以使用该工具以及在何种程度上使用。 2. 个人数据泄漏 关于个人数据处理的法律问题是不同的。根据OpenAI产品和服务的隐私政策,当用户使用所提供的工具(包括ChatGPT)时,供应商会获得用户信息,即个人数据、通信信息、登录细节、有关使用的信息、分析和cookies。这些信息可用于多种用途,包括提供、维护、升级和分析所提供的产品和服务,进行测试,以及开发新产品和服务。此外,这些数据可以披露给各种类型的第三方,并转移到美国在美国进行处理。 (二)知识产权法律问题 人工智能领域一个最主要的法律问题——知识产权问题,也同样适用于ChatGPT。在这方面出现了三个主要的法律问题: 在系统“学习”时是否可能侵犯第三方知识产权? 生成内容的地位以及如何保护? 谁拥有使用生成内容的权利? 1.机器学习和著作权保护 机器学习问题是棘手的问题,具体的法律措施在该领域已被采取,特别是针对人工智能系统供应商的诉讼。训练有关系统需要系统地分析和处理大量的数据,包括构成著作权法保护的作品的数据。争论的焦点是“学习”系统的经营者是否有权利用公共领域的数据库。关于这类系统的运营商的主要反对意见是在于这些系统以自动方式非法获取和处理大量的可用数据,然后用来制作内容。提出索赔的各方认为这种行为侵犯了原作者或其他权利人的权利。 世界各国和欧盟的立法者已经意识到了这个问题,欧盟解决这个问题的监管框架的要素在主要规制在《DSM指令》中[6]。根据DSM指令,国家立法机构需要通过法律,使第三方能够为机器学习的目的复制版权法意义上的数据库或作品。这适用于学术和商业用途,而权利人可以拒绝商业用途。一些欧盟国家已经通过了相应的法律。 在中国法律中关于人工智能侵犯知识产权的条文主要包括以下几个方面,《中华人民共和国著作权法》第四十七条规定[7]:任何单位和个人不得侵犯他人的著作权。人工智能通过学习、模仿等方式产生的作品,其著作权归属于人工智能的开发者,但人工智能创作的作品仍需符合著作权法的规定、《中华人民共和国专利法》第六十二条规定[8]:制造、销售、使用侵犯专利权的产品或者提供侵犯专利权的方法,均属于侵犯专利权的行为。人工智能所产生的发明、实用新型或外观设计等,同样需要遵守专利法的规定、《中华人民共和国商标法》第九十八条规定[9]:未经授权,任何单位和个人不得使用他人已经注册的商标。人工智能不能作为商标申请人,但人工智能开发者可以申请商标注册,并享有商标权利、《中华人民共和国反不正当竞争法》[10]第八条规定:经营者不得实施与本法禁止的不正当竞争行为,损害其他经营者的商业信誉或者侵害其他经营者的合法权益。人工智能不能作为经营者,但人工智能开发者以及使用人都应该遵守反不正当竞争法的规定。在开发和应用的过程中,监管的措施和手段都是有力且不断进步的,比如《新一代人工智能伦理规范》[11]中规范了人工智能应当为人类带来福祉的基本要求;《关于规范和加强人工智能司法应用的意见》[12]也从司法层面提出了规范人工智能对审判的作用。 显然,从法律角度来看,考虑到使用ChatGPT和类似工具的实际情况,这个问题对作者和这类系统的提供者至关重要。以往的人工智能大多承接体力劳动或提供信息索引和单句对话服务,“应用算法、规则和模板的结果,不能体现创作者独特的个性”。[13] 2.人工智能生成物是否属于“作品” 另一个对ChatGPT和类似系统的用户有许多实际影响的问题是其生成内容的定位。这个问题的出发点是,这些内容是否构成受著作权保护的作品。正如前文所提,以往的机器学习并不能体现其“个性”, 因此,生成法定“作品”的可能性低。但是,ChatGPT具有信息编排和一定的自主创作能力,例如,依据某位武侠小说作家文风创作新小说,“使得程序算法和独立思考的界限进一步模糊”[14]。在大多数法律体系中,要被视为著作权意义上的著作权作品,其基本标准之一是它必须是人类创造的产物,受《著作权法》保护的一个基本前提是其保护人类创造的产品。 这导致即使ChatGPT生成的特定内容具有与人类作者创作的内容相同的特征,它也不构成著作权法意义上的作品,因为其作品没有达到人类创造性产出的法律要求。这种做法意味着著作权保护不适用,因此允许自由复制、改编和商业使用这类内容。 有关ChatGPT所创作的作品是否为受著作权法律保护的作品,也有另一种观点,认为ChatGPT和类似系统产生的内容可以被视为现行著作权法下的版权作品,因为最终创造者是人。而在这种观点下,作者被确定为特定系统的操作者(或构建和“培训”系统的一方),或者最终用户,因为最终用户定义了生成内容的标准,从而在内容的创造中发挥了基本的创造性作用。 关于ChatGPT和类似系统产生的内容的地位的众多法律问题还包括,如果这些内容被认为构成作品,那么如何界定这些内容与有关系统(如ChatGPT)的“学习”中使用的作品之间的关系。极端的观点是,使用人工智能生成的内容必须被认为是相关的作品,或者在该系统进行“学习”所依据的作品有相当的关系的该机构。根据这一概念,使用有关系统产生的内容将需要,例如,原作者的许可。在实践中,这意味着要履行必要的手续并向他们支付适当的费用。这也会给ChatGPT的终端用户带来严重的后果,因为在他们的商业活动中使用人工智能产生的内容可能会侵犯原作作者的权利,并引发直接责任,尽管系统供应商也有责任。 在本作者看来,这是一个有缺陷的观点,由于不了解ChatGPT和类似工具操作的“技术”性质以及围绕其使用的法律的高度不确定性。目前的著作权法框架是基于人工智能还不存在的时候制定的规则。所以有必要对像作品特征这样的基本法律要素进行进一步补充规定。为此,ChatGPT用户需要密切关注正在进行的争论,因为使用生成的内容在某一点上可能被证明是对第三方权利的侵犯。 3. 如果属于受著作权保护的作品其归属问题 如果ChatGPT生成的内容可能是版权法意义上的版权作品(只要它符合法律规定的其他标准),那么问题是谁拥有该作品的权利。 现行法律并没有提供一个明确的答案。在法律允许的范围内,根据OpenAI的服务条款,OpenAI将所提供的工具(包括ChatGPT)所产生的内容的所有权利转移给用户。OpenAI向用户转让其对输出的所有权利和利益。同时,用户规定OpenAI可以在必要时使用内容以提供和维护服务,遵守适用法律,并执行其政策。此外,用户有责任确保生成的内容不违反法律或OpenAI的服务条款。这些规则还明确指出,生成的内容不一定具有唯一性,多个用户可能获得相同或非常相似的内容。此外,服务条款没有明确对生成内容的使用目的(如商业用途)做出任何限制。 当ChatGPT被问及这个问题时,它回答说,所有生成内容的权利都属于供应商(OpenAI),而且这些内容不得用于商业目的。然而ChatGPT中使用的数据只到2021年(在某些特殊情况下到2022年),因此,起点必须是目前适用的使用条件。 然而,在我们看来,以这种方式为OpenAI的服务条款大大减少了最终用户将内容用于商业目的所产生的风险,因为提供者给予用户使用内容的广泛许可。 从商业角度来看,这是一个完全可以理解的方法。提供者表示,其首要目标是将开发的技术商业化,而不是从使用生成的作品中获得经济利益。显然,为了实现这一目标,必须尽可能地允许最终用户从使用ChatGPT和其他工具生成的内容中获益。 如果发现生成的作品侵犯了第三方权利(例如用于“训练”该系统的作品的作者),即使与ChatGPT供应商签订的协议中规定的有利规则也无法提供足够的保护。因此,在使用这些内容时,尤其是在未经修改的情况下发布的内容,建议始终保持谨慎。 (三)人工智能也会犯错 最后,ChatGPT生成的内容不会总是正确和真实的,OpenAI在其通信和服务条款中特别说明了这一点,从而也说明其责任被尽可能地排除。 简而言之,ChatGPT生成的内容可能包含缺陷,并损害用户的利益。终端用户使用该系统的风险由他们自己承担,并对自己负责,不可能向供应商提出任何索赔。
三、安全使用ChatGPT的合规建议
显然,目前关于人工智能系统的法律方面的争论,问题多于答案。一方面,是这类工具产生的内容是否受法律保护,以及基于什么理由。另一方面,该如何妥善应对ChatGPT所带来的法律风险。 (一)国家应加强监管、完善基本立法 加强监管力度。随着人工智能产品不断升级迭代,对其监管应该贯穿整个生命周期。以类似ChatGPT的人工智能产品为例,监管范围应涵盖从建立模型、标注语料库、进行模型训练,到市场投放和系统退出使用的整个过程。每个环节都需要接受严格的监管。关于数据包括的监管可能包括个人数据、构成商业秘密的数据或机密、特权通信的内容以及任何不得向第三方披露的数据的监管,该类数据都不应该被输入类ChatGPT工具。 完善类ChatGPT相关立法,应规定何时可以使用ChatGPT和类工具,以及使用生成的内容的后果(例如对第三方权利侵犯的保护)。应引入有关使用这类工具的适当通知义务。进一步完善2022年出台的《互联网信息服务算法推荐管理规定》、2023年1月10日起施行的《互联网信息服务深度合成管理规定》。尽快完善立法规定将有助于降低监管成本,规避风险。 (二)企业应遵守法律、强化内部治理 在使用ChatGPT等类似人工智能工具时,企业必须遵守相关的法律法规,特别是保护商业秘密和著作权的法律规定。企业应该谨慎选择输入的信息,并对可能涉及商业秘密的内容进行谨慎处理,以确保上述应用行为遵守法律法规。由于ChatGPT输出的内容是由其训练的语料库和用户提问方式综合确定的,因此企业应该采取可行的措施,如避免限制聊天请求、排除特定对象等措施,以避免或限制获取来自特定作品的趋于精确、狭义的输出内容,从而避免侵犯著作权法律风险。企业还应当向员工公开传达保密义务,并通过公告等方式定期提醒公司员工的保密义务。明确应保密的具体对象,以避免商业秘密泄露风险。 此外,企业应及时更新管理制度,并对未能遵循管理制度的员工进行教育和惩戒,以完善公司的商业秘密保护体系。这些措施将有助于确保企业遵守法律法规,保护商业秘密和著作权。同时,企业应该制定使用人工智能工具的一般政策,并在组织内进行推广和培训。这些政策应考虑到与人员或供应商使用人工智能有关的所有问题,特别是在创造性工作是活动核心要素的组织中,例如创意或新技术部门的公司,或软件制造商。这些政策将有助于提高企业人员和用户的风险意识,并确保组织内处理的数据的安全性和保密性。 (三)个人应审慎使用、做好自我保护 对于一般的个人用户来说,提高识别信息真实性和合法性的能力非常重要。在注册账户时,务必仔细阅读平台使用协议,仔细甄别类ChatGPT人工智能系统输出的信息,保护好个人隐私防止信息泄露。如果个人用户发现信息处理者违反法律法规或协议约定,可以根据《个人信息保护法》第四十七条和第四十八条规定[15],要求信息处理者删除个人信息,并要求信息处理者对其个人信息使用规则进行解释说明。 希望通过一系列的法律规避措施,在未来使用ChatGPT会更加安全,届时人工智能很可能会像今天的互联网一样普遍存在。 本文撰写赵紫邑有重要贡献
注释: [1] ChatGPT官方 [2] 新智元 [3] OpenAI(开放人工智能)是美国一个人工智能研究实验室,由营利组织 OpenAI LP 与母公司非营利组织 OpenAI Inc 所组成,目的是促进和发展友好的人工智能,使人类整体受益。OpenAI成立于2015年底,总部位于加利福尼亚州旧金山,组织目标是通过与其他机构和研究者的“自由合作”,向公众开放专利和研究成果。创始人山姆·柯曼以及伊隆·马斯克的动机是出于对强人工智能潜在风险的担忧。Tech giants pledge $1bn for ‘altruistic AI’ venture, OpenAI. BBC News,访问于2023年3月17日。 [4] https://openai.com/api/policies/service-terms/ [5] https://openai.com/terms/ [6] Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (OJ L. of 2019, 130, p. 92). [7] 《中华人民共和国著作权法》 [8] 《中华人民共和国专利法》 [9] 《中华人民共和国商标法》 [10] 《中华人民共和国反不正当竞争法》 [11] 中国国家新一代人工智能治理专业委员会于2021年9月25日发布《新一代人工智能伦理规范》,旨在将伦理道德融入人工智能全生命周期,为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。同时,增强全社会的人工智能伦理意识与行为自觉,积极引导负责任的人工智能研发与应用活动,促进人工智能健康发展。 [12] 最高人民法院,法发〔2022〕33号。 [13] 王迁:《论人工智能生成的内容在著作权法中的定性》,《法律科学》,2017年第5期。 [14] 熊琦:《人工智能生成内容的著作权认定》,《知识产权》,2017年第3期。 [15] 《个人信息保护法》第四十七条规定:有下列情形之一的,个人信息处理者应当主动删除个人信息;个人信息处理者未删除的,个人有权请求删除:(一)处理目的已实现、无法实现或者为实现处理目的不再必要;(二)个人信息处理者停止提供产品或者服务,或者保存期限已届满;(三)个人撤回同意;(四)个人信息处理者违反法律、行政法规或者违反约定处理个人信息;(五)法律、行政法规规定的其他情形。法律、行政法规规定的保存期限未届满,或者删除个人信息从技术上难以实现的,个人信息处理者应当停止除存储和采取必要的安全保护措施之外的处理。第四十八条规定个人有权要求个人信息处理者对其个人信息处理规则进行解释说明。