编者按:在人工智能领域,用于AI训练的内容素材的版权,始终是一个备受关注的议题,至今处于灰色地带。
国际范围内,已有多起因训练大型AI模型而引发的著作权纠纷案例。其中,OpenAI与《纽约时报》之间的诉讼案件尤为引人瞩目。2023年12月,OpenAI与《纽约时报》开始了旷日持久的诉讼战。诉讼期间,OpenAI还积极与数十家媒体公司展开合作,试图在版权问题上寻求新的解决方案。
这场科技巨头与出版商之间的博弈,究竟会对AI的发展产生哪些深远影响?AI领域的版权问题又将如何塑造未来互联网生态系统的面貌?
2024年8月30日,Elizabeth Lopatto在知名科技媒体The Verge上发表了题为《OpenAI searches for an answer to its copyright problems(OpenAI试图为版权问题寻找答案)》的文章,深入剖析了上述问题,我们对这篇文章进行了编译整理,供AI从业者参考与讨论。
ps. 以下为编译正文,为便于阅读,我们对原文进行了适当的精简和备注。
OpenAI的GPT模型之所以能取得巨大成功,关键因素之一在于其依托的海量网络内容,这其中,很多内容来自于包括Axel Springer*、康泰纳仕*和美联社等在内的重量级出版机构。
不过需要注意的是,GPT模型训练过程中涉及的数据抓取行为,并未获得相关授权。
有人可能会问,既然未经授权的这一疑似“侵权行为”已经发生,OpenAI为何仍要与这些大型出版公司签订合作协议?
乍一看,这似乎并不合逻辑——为什么OpenAI要为已获取的内容付费?与此同时,一些出版商明明对作品被盗用表示强烈不满,甚至考虑诉诸法律途径,为什么又会接受这些协议?
深入剖析这些协议,我们或许能够窥见未来网络发展的某种可能形态。
在搜索领域,行业巨头谷歌正逐步降低对外部网站的引流力度,威胁到了其他网站的生存。谷歌在出版商方面逐渐下滑的“声誉”和其长期被用户诟病的过时链接、数据更新慢等问题,让OpenAI敏锐地捕捉到了搜索引擎领域的“权力真空”。而这一空白,恰恰是OpenAI意图填补的。
(编者注:Axel Springer:欧洲最大的出版商之一;康泰纳仕:国际期刊集团,Vogue母公司)
让我们先梳理一下已知的事实。
2023年12月13日,OpenAI宣布与德国媒体巨擘Axel Springer建立全球合作伙伴关系,将新闻与人工智能技术“更深层次整合”。通过此次合作,OpenAI获得了访问Axel Springer旗下出版物的权限,能够使用Axel Springer的内容来训练其大语言模型。
合作协议中指出,“该协议通过引入最新且权威的各类话题内容,丰富用户在ChatGPT上的体验”,其中“最新内容”的部分至关重要——因为意味着ChatGPT无法获取特定日期之后的信息,而OpenAI对实时数据的获取越及时,其产品提供的结果就越接近实时更新。
来源:《纽约邮报》
由于保密协议的存在,我们对这些协议的具体条款仍然知之甚少。不过也可以理解,对出版商来说,对交易细节保密或许可以在与谷歌或Anthropic等其他公司谈判时占据更有利的位置,就好像不透露之前的薪资,能够让我们向新雇主要求更高的薪水一样。
根据科技媒体《The Information》的报道,OpenAI每年向出版商支付的费用预计介于100万至500万美元之间。此前,有关与Axel Springer、新闻集团*、康泰纳仕和美联社等出版商达成的协议已有相关报道,依据这些公开报道的数据,我初步估算,这些协议的费用上限大约是每家出版公司每年1000万美元。
一方面,对OpenAI来说,这笔费用确实微不足道,甚至可以说是一笔略显“尴尬”的小额开支。(毕竟OpenAI前首席研究员Ilya Sutskever在2016年的收入就达到了190万美元)
但另一方面,尽管金额不大,不可否认的事实是,OpenAI已经抓取了所有这些出版物的数据,除非法院下达禁令,否则它完全可以继续这一行为。
那么OpenAI究竟为何要支付这笔费用呢?
或许是为了获取API访问权限,以便在训练GPT模型时实现更为便捷、及时的数据抓取。目前,ChatGPT尚无法针对实时查询作出回应,而获得API访问权限则有望改变这一现状。
这些付款同样可视为一种保障措施。OpenAI希望通过签署这些协议,确保出版商不会因其已抓取的数据对其提起诉讼。毕竟,已有一家主要出版商(《纽约时报》)向OpenAI发起了法律诉讼,而此类法律纠纷往往旷日持久,其潜在后果可能会让OpenAI面临更为沉重的经济负担。
(编者注:新闻集团:全球最大的媒体集团之一,隶属于世界报业大亨默多克。)
若OpenAI真的将整个基于文本的互联网数据尽收囊中,那么有几件事我们必须清楚。
首先,这表明GPT在短期内无法再次获取同等规模的数据,这可能会制约ChatGPT在实用性方面的进一步突破(OpenAI至今尚未发布GPT-5)。
其次,此举引发了许多不满,众多诉讼已经接踵而至,其中最关键的非《纽约时报》提起的诉讼莫属。
《纽约时报》在诉讼中指出,OpenAI在吸收其作品以训练大语言模型时,涉嫌侵犯版权,而OpenAI借此打造的产品——ChatGPT,正在与《纽约时报》展开竞争,并意在“夺走其读者群”。
《纽约时报》在其诉讼中表示,它曾试图与OpenAI进行谈判,以允许OpenAI使用其作品,然而谈判最终破裂了。
我们不妨大胆猜测,谈判失败的很大原因或许是OpenAI向《纽约时报》开出的价码实在是低得可怜。而OpenAI开出这一数目的“借口”很简单——合理使用,一项在特定条件下允许未经授权使用受版权保护材料的法律规定。
倘若《纽约时报》胜诉,它有望获得法定赔偿金,每件作品的起赔金额为750美元(这一具体数字皆由法律明文规定)。此外,《纽约时报》还要求获得实际损失的赔偿、恢复原状的救济以及律师费用。
据《纽约时报》所述,OpenAI抓取了高达1000万件作品——仅以此计算,法定赔偿金的最低总额便高达75亿美元(约533亿人民币)。无怪乎《纽约时报》不愿在区区几千万美元的合作协议上轻易妥协。
因此,当OpenAI与出版商敲定协议时,这些协议实质上为出版商提供了一种保障,确保他们不会像《纽约时报》那样对OpenAI提起诉讼。这些协议的结构还赋予了OpenAI维持其先前使用出版商作品为合理使用的立场——毕竟,OpenAI将在多起法庭案件中,特别是在与《纽约时报》的对簿公堂中,为这一主张进行辩护。
“我确实有充分的理由相信,他们希望保留利用‘合理使用’来辩护的权利”,美国报业协会CEO Danielle Coffey接受采访时说道,“如果他们不打算在法庭上这么主张,他们是不会这么做的。”
看来OpenAI正在努力挽回些许声誉,毕竟当GPT-5真的推出时,OpenAI不会希望它有这么多不确定性。
不过事实是,即便这么做,OpenAI的辩护仍然存在不确定性:为了使其合理使用的辩护站得住脚,它不得不承认在训练GPT模型时,它确实未经许可抓取了《纽约时报》受版权保护的材料——这同时也暗示了,它很可能未经许可使用了大量其他受版权保护的材料,而OpenAI的论点无非是它有权这么做(合理使用的辩护)。
挑战谷歌
除了预防诉讼和管理声誉外,OpenAI签订协议还有更深层次的战略意图——进军搜索市场。
7月25日,OpenAI宣布正在测试新的AI搜索工具SearchGPT,该工具能够实时获取并分析互联网上的信息,旨在为用户提供更具时效性和更准确的信息。
尽管基于AI的网络搜索尚处于起步阶段,但其具备过滤AI生成的垃圾信息的能力,并偏好真实可靠的信息源,这些特性无疑是AI搜索的极大优势。
近年来,谷歌搜索的质量严重下降,而其推出的AI搜索功能也未能扭转这一趋势,不仅会产生误导性的信息,还会将包含真实信息的链接置于页面底部,难以发现。
在这样的背景之下,OpenAI迎来了入局的最佳时机。
1. 谷歌面临的挑战
近年来,谷歌的一系列行为成功激怒了出版商——不仅仅是因为它将出版商的所有数据用于训练大语言模型,还因其自身的转型策略。
曾经的互联网时代,谷歌搜索不仅是出版商的关键流量来源,也是引导公众访问原始资料的重要途径。然而,随着谷歌推出“摘要(snippets)”功能,用户无需点击链接即可获取所需信息,这一变化减少了人们对原始网站的访问,进而降低了出版商的广告展示频率。
多年来,谷歌对搜索功能的种种调整也意味着,传统出版商们,尤其是小型出版商,从谷歌获得的流量正在减少。
而谷歌推出的AI聊天机器人也进一步边缘化了出版商的地位。不过,OpenAI与出版商达成的合作协议为后者提供了更多的谈判筹码,这可能会最终促使谷歌重返谈判桌前。
谷歌历来倾向于避免为搜索结果支付费用,出版商以往主要依赖的是流量推荐。但在其聊天机器人领域,谷歌采取了不同的策略,并与Reddit*建立了合作关系。
谷歌同意每年支付高达6000万美元以获得Reddit内容的访问权限,此举有效地封锁了未达成类似协议的竞争对手。这笔钱明显多于OpenAI支付给出版商的金额,并为出版商提供了一个相较于OpenAI更具吸引力的替代方案。
对普通用户来说,这些年谷歌搜索的实用性一直在下降,而生成式AI的出现可能会让情况变得更糟。
尽管谷歌在处理其爬取的网站时并非一视同仁,但是如果其他竞争者能提供一个更高质量的信息搜索替代方案,谷歌搜索的主导地位,可能会面临严峻挑战。毕竟,谷歌正是凭借这种方式,逐步取代了如AltaVista*等先前的搜索引擎巨头。
2. OpenAI的选择
OpenAI又为何要进军搜索引擎领域?
OpenAI可以说是烧钱如流水。据此前未公开的内部财务数据和相关人士的分析,OpenAI今年的亏损可能高达50亿美元。
目前,OpenAI正准备进行一轮巨额融资,预计此轮投资将使其估值突破1000亿美元大关。为了证明这一估值的合理性,OpenAI亟需开辟一条盈利之路,而进军搜索市场或许就是其向投资者展示的解决方案。
OpenAI的SearchGPT尚处于初级阶段,对谷歌搜索并未造成重大威胁,这也意味着如果它犯了诸如告诉人们把胶水涂在披萨上的错误,会比谷歌AI搜索更易让人接受。(相关阅读:《AI让网友“吃石头”闹得沸沸扬扬,谷歌副总裁发博回应:不是幻觉》)
与出版商的合作协议也为SearchGPT提供了一定程度的声誉保障。相比之下,其竞争对手Perplexity在因抓取明确禁止其访问的网站而遭到抨击时,SearchGPT早已与出版商签订好了合作协议。
与OpenAI的合作模式不同,Perplexity提出了另一种解决方案——实施收入分享计划。
(编者注:在被指控抄袭一个多月后,Perplexity AI于7月30日在其官网发布了一项新的出版商收入共享计划,在未来几个月,当出版商的内容被人工智能生成的答案引用时,Perplexity 将与出版商分享一定比例的广告收入。《时代》、《明镜周刊》、《财富》、《企业家》、《德克萨斯论坛报》和 WordPress.com媒体和内容平台成为首批加入收入共享计划的公司。——TechCrunch)
收入分享计划使得Perplexity更容易主张其抓取行为属于合理使用的范畴。然而,Perplexity的情况与ChatGPT有所不同,后者推出的“Pages”产品不幸倾向于“复制”受版权保护的材料,导致福布斯和康泰纳仕向其发出了法律警告。
这就引出了一个问题:一旦法院作出最终裁决,情况将会如何?
这些合作协议的部分目的是为了降低法律诉讼的风险,但它们的存在本身反而可能削弱了“抓取受版权保护的材料用于训练AI”属于合理使用的论据。(如果确实是合理使用,为何还需要签订协议呢?)
(编者注:AltaVista:全球最知名的搜索引擎公司之一,2013年关停;Reddit:海外知名社交平台,拥有7300万日活跃用户,超10万个活跃社区。)
Copyright?Copywrong
出版商胜诉会是什么样的结果?
讽刺的是,如果《纽约时报》胜诉,反而可能会为谷歌、OpenAI以及支持OpenAI的微软这些行业巨头带来“一线曙光”,就如前谷歌CEO Eric Schmidt调侃的那样,企业家就应该“自由利用”受版权保护的作品,并“请一堆律师来收拾烂摊子”,但会对AI市场造成不利影响。
因为在版权法的复杂领域中,法院的裁决常常充满不确定性。《纽约时报》与OpenAI之间的法律较量,无论胜者是谁,可以预见的是,败者一定会提起上诉。
法庭案件耗时漫长,上诉过程更是如此,法院可能需要数年时间才能作出最终裁决。而对于OpenAI而言,这段时间或许就是一个宝贵的机遇,能够让其发展出主导市场的业务。
若OpenAI最终败诉,那么所有大语言模型的开发者都将面临付费使用的局面,这预示着只有财力雄厚的巨头才能在这场竞争中立足,而这一结果也将巩固现有各大巨头的市场地位,同时也可能导致许多开源的大语言模型难以为继。
如此一来,谷歌、微软、亚马逊和Meta等公司在AI市场中的地位将更加举足轻重——当然,还有OpenAI和Anthropic。
而谷歌,也正如其前CEO所言,在应对不利司法裁决方面有自己“独特的办法”。美国报业协会CEO Danielle Coffey向我特别强调,谷歌规模庞大,它能够迫使出版商接受其条款。似乎是为了佐证她的观点,就在我们采访结束几周后,谷歌在一个反垄断案件中被法律裁定为垄断企业。
(编者注:8月5日,美国哥伦比亚特区联邦地区法院的Amit P. Mehta法官裁定谷歌违反了反垄断法,表示谷歌花费了数十亿美元建立非法垄断地位,并成为全球默认的搜索引擎。——《纽约时报》)
谷歌“独特的办法”就是向出版商“施压”:2019年,欧盟赋予数字出版商一项权利,即当谷歌使用其作品片段时,出版商可以要求支付费用。这一法律最初在法国实施,但是谷歌却通知出版商,它将仅使用他们作品的标题而不使用完整作品,从而拒绝支付费用。
“谷歌向法国出版商发送了一系列邮件,声称如果他们希望自己的作品被搜索到,就必须放弃版权”,Coffey向我们解释道,“从这个意义上说,他们几乎凌驾于法律之上”,而这正是由谷歌搜索的主导地位所决定的。
目前,谷歌正利用其在搜索引擎领域的优势地位,采取类似策略向出版商施压。倘若出版商阻止谷歌的AI对其作品进行“摘要”,那么这将导致谷歌完全不予列出这些作品,因为谷歌需要通过抓取出版商的内容用于AI训练。这一做法与其对待法国出版商的方式如出一辙。
因此,就算《纽约时报》真的胜诉,谷歌和其他主要AI公司仍能与出版商达成对后者并无太多益处的交易——同时摧毁其他竞争者。
“我非常担心我们正在构建一个生态系统,在这个系统中,唯一能够负担得起训练数据费用的公司只有那些行业巨头”,Public Knowledge*的政策顾问Nicholas Garcia接受采访时说道。
不仅限于前述提及的《纽约时报》胜诉后大模型开发者需付费使用等问题,实际上,诉讼的存在本身或许就足以遏制某些开发者或企业利用公开可获取的数据来训练其模型。
人们可能会误以为他们不能基于公开可用的数据进行训练——这将导致竞争格局进一步收缩,甚至比计算资源和专家供应的限制更为严峻。
“这将是AI生态系统初期的一个真正的反竞争悲剧”,Garcia指出。
OpenAI也可能会因其与出版商签订的协议而败诉。这些协议为出版商的数据营造了一个市场(即数据是可以被“买卖”的),在版权法的框架下,若扰乱此类市场,则不能视为合理使用。
这一论点在最近一宗涉及安迪·沃霍尔画作的最高法院案件中被应用,法院认为安迪·沃霍尔的画作与用于创作该画作的原始照片之间存在“不公平竞争”。
来源:TFR
(编者注:2024年5月,美国最高法院裁定,安迪·沃霍尔绘制的歌手普林斯的画作侵犯了原摄影师作品的版权。2016年,《名利场》杂志发表了一篇纪念普林斯的文章,其中使用了沃霍尔的画作,但没有给予摄影师林恩·戈德史密斯任何署名或报酬。——BBC)
倘若OpenAI最后上诉也失败,需要支付数亿美元的和解金,那么它很有可能面临被微软收购的风险。若真如此,那么微软就将拥有OpenAI业已谈判的所有许可协议,其对比其他行业巨头的竞争优势显而易见。
当然,鉴于政府目前对反垄断事务的关注,微软或许会佯装对OpenAI的实际情况不甚了解,但倘若版权案件最终尘埃落定,这一态势可能会发生变化。
无论如何,行业巨头在与出版商的诉讼中占据有利地位,这是毋庸置疑的。
当然,法律问题并非唯一考量。
我一直在思考一些更基本的问题:人们是否需要搜索引擎,如果需要,它真的能赚到钱吗?
还有很重要的一点,哪怕AI搜索引擎真的进入市场,我们需要知道,AI的成本可是很高的。
也许OpenAI最终会失败,因为它根本无法实现盈利,而谷歌也可能因为前述垄断行为的调查而被监管机构拆分。
在竞争中,小型玩家的生存空间会被科技巨头挤压,而科技巨头的发展也仍不明朗。
在这种情况下,或许出版商终究是明智的:在还能拿到钱的时候,赶紧把钱拿了。
(编者注:Public Knowledge:美国非营利性公共利益团体,主要涉及知识产权法、数字市场竞争和选择等领域。)
参考链接:
https://www.theverge.com/2024/8/30/24230975/openai-publisher-deals-web-search;
https://techcrunch.com/2024/07/30/perplexitys-plan-to-share-ad-revenue-with-outlets-cited-by-its-ai-chatbot/;
https://www.nytimes.com/2024/08/05/technology/google-antitrust-ruling.html;
https://www.bbc.co.uk/news/world-us-canada-65641796;
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看 一起研究AI