通义千问开源大模型许可协议合规探析
作者:丁华 黄威 陈岱源 2024-10-11一、通义千问开源大模型简介
通义千问是由阿里巴巴集团旗下的云计算服务公司阿里云开发的大语言模型。2023年8月3日,阿里云宣布其自研的大模型通义千问正式开源,并在AI模型社区魔搭ModelScope上架了两款开源模型——Qwen-7B和Qwen-7B-Chat,随后在2023年相继发布了Qwen-1_8B、Qwen-72B 和 Qwen-Audio。Qwen-7B、Qwen-72B和Qwen-7B-Chat采用《Tongyi Qianwen LICENSE AGREEMENT》,Qwen-1_8B采用《Tongyi Qianwen RESEARCH LICENSE AGREEMENT》[1]。
2024年4月28日,阿里云发布了Qwen-1.5系列大模型。2024年6月,阿里云发布了Qwen-2系列大模型,包含Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B共五个版本。其中Qwen2-72B曾在2024年6月登顶HuggingFace排行榜,力压Meta的Llama-3-70B开源模型。同时,在上海人工智能实验室联合魔搭社区推出的中国大语言模型评测竞技场Compass Arena测评中,Qwen2-72B也超过了一众闭源商业模型,仅次于GPT-4o[2]。在Qwen-2系列的五个版本中,仅有Qwen2-72B采用《Tongyi Qianwen LICENSE AGREEMENT》[3],另外四个版本均采用采用Apache2.0许可证。
2024年9月19日,在云栖大会上,阿里云发布了新一代的开源模型Qwen2.5系列,包含0.5B, 1.5B, 3B, 7B, 14B, 32B和72B共7种版本。Qwen系列开源大模型的仓库位于Github、Hugging Face、魔搭社区以及阿里云自身的阿里云百炼大模型平台。Qwen2.5系列中,Qwen2.5-72B[4]采用《Qwen LICENSE AGREEMENT》,Qwen2.5-3B[5]采用《Qwen RESEARCH LICENSE AGREEMENT》,这两个许可证均发布于2024年9月19日,除3B和72B之外,Qwen2.5系列模型均采用Apache2.0许可证。
除了上述开源版本外,阿里云还另有商业版产品线“通义千问”,用户日常在网页端访问的“通义千问”时,即是闭源模型在提供服务。
二、通义千问开源大模型许可协议和研究许可协议简介
(一)通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)
通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)在2023年8月3日发布,许可证内容包括9个条款,主要内容如下:
首先在序言部分明确,通过点击同意或使用或分发通义千问材料的任何部分或元素,将被视为已认可并接受通义千问许可协议的内容,通义千问许可协议会立即生效。
在第1条定义部分,对通义千问许可协议涉及的重要概念进行了定义,例如:“材料”总体而言,指依据本协议提供的阿里云专有的通义千问及其文档(和其任何部分)。“通义千问”指大型语言模型(包括Qwen模型和Qwen-Chat模型),和软件和算法,包括经训练的模型权重、参数(包括优化器状态)、机器学习模型代码、推理实现代码、训练实现代码、微调实现代码和其他我们分发的前述内容的元素。“源代码”形式指进行修改的首选形式,包括但不限于模型源代码、文档源码和配置文件。“目标代码”形式指任何从源代码形式经机器转换或翻译而导出的形式,包括但不限于经编译的目标代码、生成的文档以及转换成其他媒体类型。
第2条授予权利,基于阿里云的知识产权或阿里云拥有的在材料中体现的其他权利,授予被许可人对材料非独占的、全球性、不可转让且免版税的有限许可,以使用、再制造、分发、复制、创建衍生作品及对材料进行修改。
第3条再分发,许可协议第3条规定,被许可人可以任何媒介再制造和分发材料或其衍生作品的副本,无论是否进行了修改,并可以源码或目标码形式提供,前提是满足以下条件:
(1)应向材料或其衍生作品的任何其他接收者提供通义千问许可协议的副本;(2)应确保任何被修改的文件带有显著的通知声明被许可人更改了该文件;(3) 在分发的所有材料副本中,应在作为该副本一部分的“通知”文本文件中保留如下归属通知:“通义千问根据通义千问许可协议授予许可,版权所有 © 阿里云。所有权利保留。”并且;(4)可以为被许可人的修改添加被许可人的版权声明,并可为使用、再制造或分发被许可人的修改或任何此类衍生作品整体提供额外或不同的许可条款和条件,前提是被许可人使用、再制造和分发该作品须符合通义千问许可协议的条款和条件。
第4条限制 通义千问许可协议第4条规定,如果被许可人商业性地使用材料,并且被许可人的产品或服务拥有超过1亿的月活跃用户,则应当向阿里云申请许可证。未经阿里云的明确授权,不得行使通义千问许可协议下的权利。
第5条使用规则 通义千问许可协议第5条规定,材料可能受到中国、美国或其他国家和地区出口管制或限制的影响。被许可人在使用材料时应遵守适用的法律和法规。不得使用材料或其任何输出来改进任何其他大型语言模型(不包括通义千问或其衍生作品)。
第6条知识产权 通义千问许可协议第6条规定,阿里云保留对材料及阿里云制作或委托制作的所有衍生作品的所有知识产权的所有权。在遵守本协议的条款和条件的条件下,对于被许可人做出的对材料的修改和任何衍生作品改,被许可人将是这些修改和衍生作品的所有者。
除通义千问许可协议要求的履行通知要求或为描述和再分发材料而合理和通常使用外,未授予使用我们的商号、商标、服务标志或产品名称的商标许可。
如果被许可人提起诉讼或采取其他程序(包括在诉讼中的交叉请求或反请求)针对阿里云或任何实体,声称材料或其任何输出,或前述任何部分侵犯了被许可人拥有或可许可的任何知识产权或其他权利,则本协议授予被许可人的全部许可将在开始或提起此类诉讼或其他程序之日终止。
通义千问许可协议第7条规定了无担保和责任限制声明,通义千问许可协议第8条规定了存续和终止,协议的期限自被许可人接受本协议或访问材料之日起开始,并将持续有效直至根据协议的条款和条件终止,如果被许可人违反本协议的任何条款或条件,阿里云可以终止协议。协议终止时,被许可人必须删除并停止使用材料。第7条无担保和责任限制和第9条适用法律和司法管辖权条款在本协议终止后仍然有效。
通义千问许可协议第9条规定了适用法律和司法管辖权,协议及由此产生或与之相关的任何争议将受中国法律管辖,不考虑冲突法原则,并且《联合国国际货物销售合同公约》不适用于协议。对于协议引起的任何争议,位于杭州市的人民法院具有排他的司法管辖权。
(二)通义千问研究许可协议(Tongyi Qianwen RESEARCH LICENSE AGREEMENT)
通义千问研究许可协议(Tongyi Qianwen RESEARCH LICENSE AGREEMENT)在2023年11月30日发布,许可证内容包括9个条款。通义千问研究许可协议(Tongyi Qianwen RESEARCH LICENSE AGREEMENT)和通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)主要条款和条件基本相同,主要的区别在于通义千问研究许可协议(Tongyi Qianwen RESEARCH LICENSE AGREEMENT)规定,授予被许可人权利的用途仅为研究或评估目的,即非商业用途。如果被许可人要将模型用于商业使用,应另行申请许可。
(三)千问许可协议(Qwen LICENSE AGREEMENT)
千问许可协议(Qwen LICENSE AGREEMENT)在2024年9月19日发布。千问许可协议(Qwen LICENSE AGREEMENT)在之前通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)基础上进行了微调。除简单的字词调整外,重点变化在第三条“再分发”和第五条“使用规则”。
对第三条“再分发”的修订主要为:通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)规定,再制造和分发材料或其衍生作品的副本,无论是否进行了修改,以源码或目标码形式,需要满足第三条第二款规定abcd四个条件; 千问许可协议(Qwen LICENSE AGREEMENT)则调整为,复制和分发材料或其衍生作品的副本,或使其作为包含于任何媒介的产品或服务的一部分可获得,无论是否进行修改,以源码或目标码形式,需要满足第三条第二款规定abcd四个条件。
对第五条“使用规则”的修订主要为:通义千问许可协议(Tongyi Qianwen LICENSE AGREEMENT)规定,不得使用材料或其任何输出来改进任何其他大型语言模型(不包括通义千问或其衍生作品); 千问许可协议(Qwen LICENSE AGREEMENT)则调整为,用户可以使用“材料”或任何输出或结果来创建、训练、微调或改进已发布或可用的AI模型,但需要在相关产品文档中应当突出显示“使用Qwen构建”或“使用Qwen改进”的内容。
(四)千问研究许可协议(Qwen RESEARCH LICENSE AGREEMENT)
千问研究许可协议(Qwen RESEARCH LICENSE AGREEMENT)在2024年9月19日和千问许可协议(Qwen LICENSE AGREEMENT)一起发布,许可证内容包括9个条款。千问研究许可协议(Qwen RESEARCH LICENSE AGREEMENT)和千问许可协议(Qwen LICENSE AGREEMENT)主要条款和条件基本相同,主要的区别在于千问研究许可协议(Qwen RESEARCH LICENSE AGREEMENT)规定,授予被许可人权利的用途仅为研究或评估目的,即非商业用途。如果被许可人要将模型用于商业使用,应另行申请许可。
三、复制分发利用通义千问开源大模型需要关注的合规问题
根据前文对通义千问开源大模型许可协议内容的简要介绍,商业公司在合规复制、分发和利用通义千问开源大模型时应当关注如下问题。
(一)通义千问开源大模型许可协议授予被许可人对材料(即模型、代码和文档)的复制、分发和修改的许可
通义千问开源大模型系列许可协议发布于2023年8月之后,和之前2023年3月发布的AIPubs Open RAIL-M许可证比较,通义千问开源大模型系列许可协议没有提及用于训练、评估的数据,其授予许可的材料主要包括模型、代码和文档。而AIPubs Open RAIL-M许可证明确规定适用于模型,用于训练、评估的数据和补充材料(主要为程序代码)则未根据AIPubs Open RAIL-M许可证进行许可。
因此商业公司在部署利用、复制和分发通义千问人工智能开源大模型时,应清楚通义千问开源大模型系列许可协议的许可的知识产权(主要为版权和专利)的范围为材料(即模型、代码和文档)。
(二)阿里云根据通义千问开源大模型系列许可协议对被许可人的授权范围是不包括商标和商号权的其他知识产权。
通义千问开源大模型系列许可协议第2条规定,基于阿里云的知识产权或阿里云拥有的在材料中体现的其他权利,授予被许可人对材料非独占的、全球性、不可转让且免版税的有限许可,使用、再制造、分发、复制、创建衍生作品及对材料进行修改。
通义千问开源大模型系列许可协议相关条款规定,除许可协议要求的履行通知要求或为描述和再分发材料而合理和通常使用外,未授予使用阿里云的商号、商标、服务标志或产品名称的商标许可。
(三)特别关注通义千问开源大模型系列许可协议对模型商业使用的限制条件
商业公司在合规使用和分发发通义千问人工智能开源大模型时应当特别关注通义千问许可协议和千问许可协议第4条规定“如果被许可人商业性地使用材料,并且被许可人的产品或服务拥有超过1亿的月活跃用户,则应当向阿里云申请许可证。未经阿里云的明确授权,不得行使通义千问许可协议/千问许可协议项下的权利”的商业使用限制,如果非商业使用则没有被许可人的产品或服务拥有不超过1亿的月活跃用户的限制。
在2023年7月和2024年4月发布的Llama 2 和 Llama 3 社区许可证(LLAMA 2 Community License& LLAMA 3 Community License Agreement)规定,如果在 Llama 2 版本发布之日,被许可方或被许可方的关联公司提供的产品或服务的每月活跃用户数在上一个日历月中超过 7 亿,则必须向Meta申请单独的商业许可证。
比较二者,可见通义千问/千问许可协议和Llama 2 和 Llama 3 社区许可证都根据被许可人产品和服务月活跃用户数采取了限制,但通义千问/千问许可协议在计算活跃用户时没有涉及被许可人的关联方,仅对商业性使用进行限制,数量限制为1亿低于Llama 2 和 Llama 3 社区许可证规定的7亿。
对于适用通义千问/千问研究许可协议的通义千问开源大模型,被授权的用途仅为研究或评估目的,即非商业用途。如果要将模型用于商业用途的复制分发和利用,则应另行申请许可。
(四)被许可人可对通义千问开源大模型修改形成派生作品,且无强制开源义务
通义千问许可/研究许可协议第3条规定,被许可人可以以任何媒介再制造和分发材料或其衍生作品的副本,无论是否进行了修改,以源码或目标码形式,其应当遵守的条件并不要求被许可人(即后续的模型使用分发者)对基于开源人工智能大模型进行修改得到的派生作品继续进行开源/开放;千问许可/研究许可协议第3条也规定,被许可人复制和分发材料或其衍生作品的副本,或使其作为包含于任何媒介的产品或服务的一部分可获得,无论是否进行修改,以源码或目标码形式,其应当遵守的条件并不要求被许可人(即后续的模型使用分发者)对基于开源人工智能大模型进行修改得到的派生作品继续进行开源/开放。因此被许可人对修改通义千问人工智能开源大模型获得的派生作品,有权决定是否继续开源/开放其修改后的模型派生作品。
(五)复制、分发和利用通义千问开源大模型,其系列许可协议对于使用用途的限制少于适用RAIL许可证大模型的使用用途限制
和AI Open RAIL许可证的专门用附件A规定三方面的用途限制(违法、伤害和歧视、不符合透明度)不同,通义千问许可/研究许可协议仅规定了两点使用规则:(1)材料(模型、代码和文档)可能受到中国、美国或其他国家和地区出口管制或限制的影响。被许可人在使用材料时应遵守适用的法律和法规。(2)不得使用材料或其任何输出来改进任何其他大型语言模型(不包括通义千问或其衍生作品)。在千问许可/研究许可协议的使用规则中进一步开放了用通义千问大模型继续训练其他大模型的许可,只需标注通义千问的贡献即可。由此可见通义千问系列许可协议对于使用用途的限制少于适用RAIL许可证大模型的使用用途限制。
(五)复制、分发、利用通义千问开源大模型产生的争议适用中国法律,杭州法院具司法管辖权
一般的AI Open RAIL许可证没有适用法律和争议管辖法院的条款,在通义千问系列许可协议和Llama 2 和 Llama 3 社区许可证类似都规定了法律和争议管辖法院的条款。
Llama 2 和 Llama 3 社区许可证规定,许可协议将受加利福尼亚州法律管辖和解释,但不包括选择法律的规则,并且《联合国国际货物销售合同公约》不适用于许可协议。加利福尼亚法院对因许可协议引起的任何争议拥有独占的管辖权。
通义千问系列许可协议规定了适用法律和司法管辖权,协议及由此产生或与之相关的任何争议将受中国法律管辖,不考虑冲突法原则,并且《联合国国际货物销售合同公约》不适用于协议。对于协议引起的任何争议,位于杭州市的人民法院具有排他的司法管辖权。
注释
[1] https://huggingface.co/Qwen/Qwen-1_8B/blob/main/LICENSE
[2] https://tech.caijing.com.cn/20240628/5021311.shtml
[3] https://huggingface.co/Qwen/Qwen2-72B/blob/main/LICENSE
[4] https://huggingface.co/Qwen/Qwen2.5-72B/blob/main/LICENSE
[5] https://huggingface.co/Qwen/Qwen2.5-3B/blob/main/LICENSE