一、AIGC的定义及分类

  围绕人工智能生成内容,主要有三个版权相关的问题:

  1. 内容生成会侵犯他人版权吗?
  2. 生成内容自身具有版权吗?
  3. 如果有版权,归属于谁?

AIGC( Artificial Intelligence Generated Content)是指利用人工智能,来生成你所需要的内容。4 月 11 日,国家互联网信息办公室起草了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《办法》)。其中第二条规定,生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。结合 1 月 10 日施行的《互联网信息服务深度合成管理规定》(以下简称《规定》)

深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于:

(一)篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;

(二)文本转语音、语音转换、语音属性编辑等生成或者编辑语音内容的技术;

(三)音乐生成、场景声编辑等生成或者编辑非语音内容的技术;

(四)人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术;

(五)图像生成、图像增强、图像修复等生成或者编辑图像、视频内容中非生物特征的技术;

(六)三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术。

以上外延和内涵,囊括了市面上所有 AIGC 软件,以此作为 AIGC 的定义。

二、AIGC 运作原理中的版权侵权风险

AI 模型的形成阶段:将他人版权作品作为训练数据

1 月 23 日,美国漫画家们针对三家 AIGC 商业应用公司发起集体诉讼,指控其开发的 AIGC 软件构成版权侵权,理由是在训练 AI 模型前,将他们的作品从网络下载并存储副本,导致他们多年塑造的作品风格被 AI 效仿。另外的例子是,Open AI 公司未经授权大量使用路透社、纽约时报、卫报等国外主流媒体的文章训练 Chat GPT 模型,但从未支付任何费用。以上都涉嫌侵犯他人作品的复制权。

ChatGPT 对于数据库中数据来源的回答

使用他人版权作品的关键问题在于「同意」和「支付对价」。传统的作品授权模式是,版权人和被许可人签订《版权许可合同》,或者版权人委托版权组织来管理作品,第三人直接对接组织来获得许可。而 AIGC 的发展以海量数据供给为前提,无论是从许可数量还是许可费用来看,都显然不可能适用传统模式。目前 AIGC 模型多是商业性服务,与个人使用、科学研究、适当引用说明某一问题等合理使用情形(无须经过同意和支付对价)也相去甚远。

如果合法性问题不解决,为了避免侵权纠纷,AIGC 开发者会面临两种选择:一是放弃 AIGC 领域;二是坚守 AIGC 领域但使用免费数据训练。前者阻碍了人工智能技术和产业发展,后者则可能因训练数据不足,引发算法模型缺陷等后果。

《办法》第七条规定,AIGC 提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据,应满足「不含有侵犯知识产权的内容」的要求。但是我国知识产权法并没有随着 AIGC 的出现进行相应修订。如果把 AIGC 作为生产力工具的话,由于网络限制的原因,国外软件难以被国内创作者大量使用。对数据训练采取一种极为严格、脱离产业实际发展需求的合法性标准,可能让企业在大模型赛道上,丧失获得竞争优势的宝贵时机,也让国内创作者失去好的生产力工具。

因此,为了取得版权人与 AIGC 技术发展之间的利益平衡,应当对许可方式做出例外规定。2018 年日本《著作权法》修订中增加了「灵活的权利限制条款」,如果互联网公司对作品的使用「不侵害著作权所有者利益」或者「对所有权的损害程度轻微」,则可不经权利人许可而直接使用。欧盟则于 2019 年正式通过《单一数字市场版权指令》,创设文本与数据挖掘(TDM)的例外,支持数据科学和人工智能的发展。但如果权利人以适当的方式明确保留对作品或其他客体的使用,则不适用该例外。

Stability AI 公司近期表示将允许权利人从后续发布的 Stable Diffusion 3.0 的训练数据集中删除自己的作品。未来的模型不会再使用它们进行训练。

应当为版权人设立「同意和退出机制」。同意机制有两种,一种是明示同意,另一种是默示同意,只有明确表示反对的时候才视为不同意。我认为应采后者。AIGC 研发者在将他人版权作品纳入训练数据库前,要及时通过各类渠道发布信息,并提供便利的作品检索机制,以便版权人提出反对意见。若版权人未及时提出反对意见,则默许作品用于数据训练。作品发表时就已做出禁止使用声明的版权人,应当视为「提出反对意见」的主体。前期同意的版权人,后续也可再提出反对意见,删除数据库中的作品。

AI模型的输出阶段:生成和他人风格相似的作品

你能分辨出下面两张图片,哪张是原画作,哪张是 AIGC 作品吗?

左图是原画作,右图是艺术家 Erin Hanson 直接使用自己的作品,通过 AI 平台 Stable Diffusion 创建的图像。二者的颜色和模拟笔触极其相似。在内容输出阶段,需要先由用户输入描述文本(prompt)等信息,模型生成各种 「原先内容的其他潜在表现形式」,根据用户的筛选,最终得到新的内容。

再看整体意义上的 AIGC 模型,谷歌公司的研究人员 Kevin P. Murphy 指出:模型可以视为生成作品的概率模型。所以存在侵犯他人作品 「复制权」 或 「改编权」 的风险。对于海量数据来说,输出内容是否会实际侵权,由于有很大的随机性,没有人能够有准确的预期。虽然随着算法改进与训练数据的成倍增长,单个作品的特征会被 「冲淡」,生成内容的侵权概率可能进一步降低。

如果生成内容侵权,侵权人是使用者还是开发者?

我国将开发者列为主要责任主体。《办法》第五条中规定,利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任。

但以上责任界定有待商榷。如果将数据训练视为一种特殊的合理使用,开发者作为中立的技术提供者,对于使用者输入的信息实际上是没有控制权的,即便其记录了输入信息,在没有证据表明其知情的情况下(如版权人的有效通知等情况),应当推定其不知情,适用避风港原则(即只有在其知情或应当知情的情况下,才承担帮助侵权责任)。

而对于使用者而言,其在无法和数据库作品比对的情况下,如何判断其生成内容是否侵权呢?如果使用者还将内容许可给第三方用,侵权结果不但导致自身违约,第三方使用也构成侵权,产生恶性连锁反应。故最大的问题在使用者 「无法预见」 内容是否侵权。法律要有确定性,否则市场没有稳定的预期,基于侵权风险,交易行为会大幅减少。

这个问题的解答,我寄希望于 AIGC 技术本身的发展,能够将生成内容与数据库作品进行比对,判定是否侵权,侵权内容将会被直接销毁。但技术判断与司法判断可能存在不一致,因此技术给出的判断能够减少风险,但仍存在。

AIGC 作品是否具有版权

AIGC 分为 「人工智能生成」 和 「人工智能辅助」 两种,前者指在没有人类干预或微小干预的情况下由人工智能产出,后者需要大量人类干预或引导。

如何界定「人工智能辅助」中的人类投入

如果人类独创性投入不够,作品则可能会被认定为人工智能生成而非辅助。

有一种观点认为,应该以「使用者介入人工智能生成过程」的具体情况进行定性,比如设计师输入树的品种、树龄、树干比例、树枝弯曲度、线条粗细、树叶形状、色彩搭配及光线明暗等详细的数据,生成唯一或有限的几种「树」,此种情况下虽然也是运用算法、规则和模型进行绘画,但其受限于设计师的具体指令,相当于设计师手中的画笔,该作品实质是设计师情感或个性的表达,则设计师应是作者。如果设计师只向 AI 输入少量关键词,如树、线条粗细,则 AI 具有足够大的「设计空间」,可能会生成数百种「树」,则与设计师情感或个性的表达无关,设计师不再属于作者。

尝试过 AI 绘图软件的人知道,即便这些数据再详尽,AI 也能生成大量不同画面和质感的画作出来,而且稍微变化关键词就可能有完全不同的效果,所以最终的成像是无法对应最初的文本信息的,难以衡量人类投入的价值。因此界定标准不应当是使用者多大程度介入生成过程中,而是包含人工智能生成内容作品的其他部分是否具有独创性。

对于人工智能辅助而言,比如输入文本,AI 生成一小段视频素材,使用者拿来辅助视频创作,对于最终的视频作品而言,起主要创造作用的仍是人,构成作品主要部分的不是这小段视频素材。又比如输入信息生成草图,然后画师大量润色成为最终成品。以上两个例子并不需要讨论 AIGC 作品是否具有版权,因为其已作为版权作品不可分割的一部分受到保护。所以我们主要讨论「人工智能生成」作品。目前构成版权作品的条件有两个,创作主体是人,具有独创性的智力成果。人工智能辅助作品可以用传统的版权法去保护,因此我们讨论是否具有版权只剩下了「人工智能生成」作品。能够从作品中分割出来的内容,比如一个视频中的 AI 配乐,也纳入人工智能生成作品。

「人工智能生成」作品符合独创性标准吗

2019 年,北京菲林律所诉百度网讯案一审判决认定,原告利用法律数据分析软件生成的分析报告,通过筛选 「案由、标的额、文书类型等关键词」 生成报告,认可其内容的独创性,但由于不是自然人创作,不能认定为著作权法意义上的 「作品」。这是我国首例 AIGC 著作权案。

2018 年,腾讯在网站发表一篇由腾讯机器人 Dreamwriter 自动撰写的股市新闻,当天盈讯科技也在其运营的网站上发布了相同文章。法院认定,Dreamwriter 作为创作工具,涉案文章的创作过程体现了原告的创作意图,内容具有独创性,是原告主持创作的法人作品。这是全国首例认定人工智能生成文章构成作品的案件。以下是腾讯陈述的创作过程摘要:

Dreamwriter 软件由原告组织的编辑团队、产品团队和技术开发团队运行。编辑团队主要负责提出需求和提供根据其经验认为比较好的样例文章,参与文章模板升级迭代和设定触发条件,并进行内容复审;产品团队主要负责评估产品需求,设计产品方案,把编辑团队的智能写作需求转变为可实施的产品方案;技术开发团队则负责具体实施系统开发落地、迭代和维护。数据类型的输入与数据格式的处理、触发条件的设定、文章框架模板的选择和语料的设定、智能校验算法模型的训练等均由主创团队相关人员选择与安排。

填写关键词搜索是比较简单的劳动,而投喂合适的数据和训练模型是复杂的劳动,所以判断作品是否具有版权的关键问题仍是,人在作品中有无独创性。在 AIGC 软件的使用中,用户为了尽可能获得和预期相一致的文字或图像,确实可能会向 AIGC 输入一段经过构思设计的提示文本。但实际上,不论文本多具体,即便文本本身可能构成文字作品,也无法改变「自动生成」而非「辅助创作」的本质,因为用户本质上仍无法直接控制和准确预见输出的内容。

域外的相似案例是,Kris Kashtanova 使用了 AI 绘图软件生成内容,美国版权局认为,虽然漫画家是作品文字和视觉元素的选择、协调和安排者,可是作品中由 Midjourney 技术生成的图像不是人类的作品,不能作为作品来登记。漫画家反驳道,「与画笔及其他绘图软件无异,Midjourney 在漫画生成过程中,仅仅是用来完成内心希望呈现图像的工具。」对此美国版权局表示,用户无法预测和控制最终输出的图像形态,这一重要事实使得其与传统绘图工具存在本质区别。当使用画笔或一般绘图软件时,画家可以选择构图的起点,通过工具和材料的具体选择实现线条粗细、色彩明暗等的具体修改,并采取自身希望的步骤来形成最终的图像。而利用 Midjourney 输出图像更类似于一个「试错」的过程,可能需要提供成百上千次提示,经历数百次的图像迭代才获得结果。既可能超出用户预期,也可能让用户失望。

美国版权局于 3 月发布《版权登记指南:包含人工智能生成材料的作品》,重申 AI 作品的保护范围及注册要求。其中提到,作者提交版权注册申请时,有义务具体披露作品包含 AI 生成的内容,如果只是 AIGC 根据人类的提示生成内容,则不受版权保护。换言之,申请人需要论证自身在整体作品中的独创性。

人工智能生成作品具有独创性已经达成共识,而是否要将创作主体拓展到 AIGC,实际上绕不开版权的归属问题。因为版权的实质是禁用权,表现为对作品传播的控制权。所以问是否要赋予人工智能生成作品版权,实际上是在问谁能够控制、多大范围内控制这些作品的传播?

五、如果人工智能生成作品具有版权,版权归谁

目前责任的承担方式是,谁最终享有 AIGC 作品的权利,谁便需要承担可能引发的版权侵权责任(作为私权,即便其性质暂不明确,开发者和使用者也可以自由约定权利归属和使用范围)。如果约定由 AIGC 商业化应用平台享有生成内容的相关权利,平台需要承担直接的版权侵权责任;如果由用户享有生成内容的相关权利,用户则需要承担直接的版权侵权责任。从域外 AIGC 类软件的用户协议可以看出,其在将内容权益配置给用户的同时,也均会明确表示用户对输出的内容承担全部的法律责任。存在以下几种观点:

开发者

这类观点是「谁劳动,谁享有成果」,开发者采集、分析、筛选数据并训练模型,与开发者的劳动难度和程度相比,使用者对于提示信息的构思不值一提。且其作为开发者能够更好地承担侵权责任,侵权风险的存在使得其有动力去发展技术降低风险。

但由于开发者比使用者更无法控制最终生成内容,没有体现其思想、感情的独创性表达,我认为不应认定生成内容为开发者创作完成。而且开发者基于使用者的付费使用已经获得了对价。

使用者

对于开发者来说,其利益已经通过收取软件使用费用等方式获得,开发者对其缺乏传播动力。生成内容系使用者根据使用需求而产生的,使用者具有进一步使用以及传播的动力和预期。因此,从激励软件使用和内容传播角度,应当将权益赋予使用者。

社会公众

该观点的逻辑是,因为著作权法所称创作是指直接产生文学、艺术和科学作品的智力活动,而使用者并没有直接参与前述智力活动,则根据法律规定不应该享有该类作品版权,则生成作品应该属于无主作品,全体社会公众都有权无偿使用。近期依据 AI 绘图网站 Stable Diffusion 官方网站的声明,Stable Diffusion 生成的新内容会以「CC0 1.0 通用协议」的方式呈现于互联网环境中「完全开源」。

但使用者付出劳动构思文本和支付使用费用,如果使用者不享有任何权益,则会打击使用 AIGC 软件的积极性,最终可能此类作品数量减少,反而不利于社会大众的利益。因此这一观点会造成利益失衡。

AIGC 本身

归属于 AIGC 本身是没有意义的。因为目前它不会主动传播该生成内容,也不会因为是否有物质激励而去生成更多内容(版权的主要功能在于激励机制产生更多内容)。

人工智能生成作品只能通过版权去保护吗

人工智能生成作品必须得到保护,否则付出时间去编排、筛选内容的使用者的劳动成果被人不费吹灰之力搬运,会导致劳动的积极性下降。但只能通过版权去保护吗?这里要强调一个概念,作品没有版权≠作品得不到任何保护。

邻接权保护思路

以我国著作权法为例,除版权外还有邻接权(又称著作权相关权利)的概念,邻接权比版权享有更少的权利。比如歌曲有专门的录音师、混音师,他们的工作是非常专业的,为歌曲的最终成型付出了大量的心血。图书编辑做了大量的排版装帧,让书籍得以顺利阅读、销售。但不能因此赋予版权,因为这些工作不是内容的核心要素,而内容创作者享有版权。我国著作权法第三十七条,出版者有权许可或者禁止他人使用其出版的图书、期刊的版式设计。以及第四十四条,录音录像制作者对其制作的录音录像制品,享有许可他人复制、发行、出租、通过信息网络向公众传播并获得报酬的权利。

邻接权不要求权利人对生成的内容付出创作性贡献,而是强调在内容形成的过程中权利人是否有相关投入(包括劳动、金钱和时间等)。对于人工智能生成内容而言,使用者虽然没有创作性贡献,但无疑存在实质性的投入,比如花费大量时间构思输入提示文本和产品、服务使用费。

增设新权利或直接规定权利义务

如果新事物完全符合现有法律体系,那纳入法律体系没问题,但倘若与现有理论有诸多出入,那不妨重新规定一项权利,来重新划分权利义务。

由于 AIGC 软件的模型训练是以较低成本获取了大量社会资源,那么其控制传播的权利应当比传统版权弱,比如使用者只享有该作品的署名权、复制权、发行权和信息网络传播权,但不享有禁止别人改编的权利等。对其生成作品合理使用的范围应当比传统版权作品更宽松。

结语

以上分别论述了人工智能生成作品的版权侵权风险、自身可版权性、权利归属等问题,但实际上这些问题又相互关联,比如如果技术上暂时做不到降低侵权风险的话,贸然赋予其版权或其他权利,会引起相当多的侵权纠纷。因此需要特别强调的是,当前阶段需要对 AIGC 作品进行标注,无论是人工智能生成还是人工智能辅助,无论有无版权。利用技术手段,打上可识别的、不可磨灭的标注,和自然人创作的内容加以区分,以提示相关风险。除了《规定》中已经提到开发者的标注责任,5 月 9 日抖音发布关于人工智能生成内容的平台规范,要求创作者、主播、用户、商家、广告主作为发布者,在抖音应用生成式人工智能技术时,应对人工智能生成内容进行显著标识,帮助其他用户区分虚拟与现实,特别是易混淆场景;需对人工智能生成内容产生的相应后果负责,无论内容是如何生成的。

法律代表了一种利益分配规则,所以法律必须审慎,在市场竞争较为混乱的时候,法律不宜做过于具体的规定。立法的现实逻辑往往是,市场运作、交易慢慢清晰了权利归属,然后立法者认可这样的利益分配格局。而不是预先由立法者开上帝视角预测未来的发展立法,然后要求现实向法律妥协。法律是各方利益冲突、权衡和妥协的终局形态。

但无论如何,AIGC 的出现都为创作者带来了新的内容生产方式,以及辅助生产的便利,本雅明有本书叫《机械复制时代的艺术》,而人工智能生成内容的到来,我愿称之为数字拼贴时代的艺术。

参考文献

[1] 腾讯研究院微信公众号:你的AI侵犯了我的版权:浅谈AIGC背后的版权保护问题》

[2] 腾讯研究院微信公众号:《用ChatGPT生成的内容,版权是谁的?》

[3] 反垄断前沿微信公众号:《AIGC可版权性困境:机器不是人,其生成内容算智力成果吗》

[4] Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence

[5] Rachel Metz, CNN Business:These artists found out their work was used to train AI. Now they’re furious

[6] 世界知识产权组织:《经修订的关于知识产权政策和人工智能问题的议题文件》

[7] See KEVIN P. MURPHY, MACHINE LEARNING: A PROBABILISTIC PERSPECTIVE ,2007,at 22, 593.

[8] Stability AI公司网站的条款

[9] 美国版权局对漫画家 Kris Kashtanova 作品不予登记的回复

[10] 腾讯诉盈讯科技著作权侵权案(2019)粤 0305 民初 14010 号民事判决书

[11] 北京菲林律所诉百度网讯著作权侵权案一、二审判决书:(2018)京 0491 民初 239 号;(2019)京 73 民终 2030 号.

[12] 2023 年 1 月 10 日施行的国家互联网信息办公室《互联网信息服务深度合成管理规定》

[13] 网信中国:国家互联网信息办公室关于《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知

[14] 网络法实务圈:《抖音发布AI生成内容规范》