作者 | 石濑
编辑 | 张洁
*今日头图:《The Social Dilemma》纪录片海报截图
从生产力工具到社交媒体,你的数据正在被无偿“投喂”给AI
“我们只用授权内容来训练AI”
“顺便说一句,由于你正在使用我们的服务,因此我们拥有你的内容授权。”
Adobe生成式AI模型“Firefly”于2023年3月发布测试版,声称其训练数据来源于Adobe图像库中的数亿张图像、一些公开许可的图像及版权保护已过期的公开图像。
其他的AI图像生成工具,如Stability AI的Stable Diffusion、OpenAI的Dall-E2、Midjourney的Midjourney,都曾因版权问题而备受争议。
Adobe在这一背景下采取了差异化的市场定位——成为AI军备竞赛中的“白衣骑士”,强调其模型训练数据的合法性,并承诺对使用Adobe Firefly生成的图片引发的版权纠纷支付索赔。
资深设计师阿杰戏称自己是“Adobe正版受害者”,认为Adobe利用其庞大的创意生态系统来训练AI,虽然是一个聪明的商业策略,但对用户来说,中间涉及的平台-创作者利益分配和用户知情权是缺失的,这让“老用户非常受伤”,也破坏平台与用户之间的信任。
与此同时,海外屡屡曝出与Adobe有关的版权纠纷,更让用户对Adobe是否真的尊重创作者版权打上了问号。
艺术家Brian Kesinger发现,在未经他同意的情况下,Adobe图像库中出现了打着他名义贩卖的与其作品风格相似的AI生成图像。
摄影师安塞尔·亚当斯的遗产管理方公开指责Adobe,称其涉嫌出售已故摄影师作品的生成式人工智能仿制品。
在舆论压力下,Adobe于6月19日修订了服务条款,明确表示不会使用用户存储在本地或云端的内容来训练AI模型。
但这一澄清并未完全平息创作者的担忧。海外AI圈知名博主“Bilawal Sidhu”指出,Adobe的修订版服务条款仍允许使用用户私有云数据训练非生成式AI工具的机器学习模型。
尽管用户可以选择退出“内容分析”,但复杂的取消操作常常让不少用户望而却步。Adobe提供的退出“内容分析”机制之繁琐,从一些创作者在Youtube上推出的相关教学视频,可见一斑。
此外,不同国家和地区对用户数据保护的法规存在差异,这影响了社交媒体平台在制定用户服务条款时的策略。
据国外科技媒体Mashable报道,在通用数据保护条例(GDPR)的框架下,英国和欧盟的用户享有“反对权”,他们可以明确选择不将其个人数据用于训练Meta公司的人工智能模型。
而美国用户未获得同等的知情权。根据Meta现有的数据共享政策,美国用户在Meta旗下社交媒体产品上发布的内容,可能在未经明确同意的情况下已经被用于训练AI。
AIGC时代,科技公司如何“获取”创作者数据?
数据被喻为AI时代的“新石油”。但资源的“开采”,目前仍有不少灰色地带。
月之暗面创始人杨植麟近期在北京智源大会上表示,模型的“大”依然是第一性原理,现在最大的问题是解决怎么取得原本稀缺或者不存在的数据,以及如何高效地形成规模效应。
数据短缺,正成为AI大模型竞赛中的一个关键问题。据早前《纽约时报》报道,OpenAI使用语音转录工具Whisper收集了超过100万小时的YouTube视频文本作为GPT-4的训练数据。
OpenAI对Scaling Law(规模定律)的极致应用被一些业内人士形象地称为“暴力美学”,在灰色地带抓取数据训练模型,以获取相对于谷歌、Meta等科技巨头的竞争优势。
Scaling Law拥护者相信,当视频模型足够“大”,就会产生智能涌现的能力。
不止OpenAI,如今很多需要“炼模型”的科技大厂、头部互联网平台对用户数据的采集也处在模糊地带。
在国内,随着《互联网信息服务深度综合管理规定》和《生成式人工智能服务管理暂行办法》相继出台,对AI生成内容的监管日益严格。
其中《生成式人工智能服务管理暂行办法》规定生成式人工智能服务提供者在使用用户数据进行训练时,必须遵守合法来源、知识产权保护、个人信息同意等原则。
然而,在实际操作中,用户往往在不知情的情况下同意平台使用其数据。例如,绘画博主“雪鱼”发现自己的作品在未经允许的情况下,被AI绘画应用“Trik”拿来进行模型训练,一怒之下,该博主选择了停更。
近期我们整理了海内外主流社交媒体平台的用户服务协议条款,发现多家平台的协议中都要求用户授权平台广泛的内容使用权,包括存储、使用、传播、复制以及“制作派生作品”等。这些也都存在一定的模糊地带。
马斯克掌管的X(前推特)直接在用户服务条款中明确写道:可能会使用收集的信息和公开可用的信息来帮助训练其机器学习或人工智能模型。
唯一不同的是微信视频号,明确表示用户使用视频号过程中上传、发布的全部内容,均不会因为上传、发布行为发生知识产权、肖像权等权利的转移。仅在出于宣传或介绍功能等目的时,以一定的方式在腾讯集团相关产品或外部渠道推广用户内容或素材。
澎湃研究所指出,用户服务条款中包含的“制作派生作品”这一提法,让平台轻易就获得了用户的提前授权,可以免费将用户上传和发布的内容用于训练AIGC模型。
这种做法虽然通过一套严密的“话术”获得大量用户数据,节约了模型训练成本,但同时也引发了用户个人信息权利的双重困境:数字版权归属和数据隐私问题,严重损害用户对平台的信任。
目前平台在确保生成式AI不侵犯创作者权益方面尚存在较大不足,也缺乏足够监管。
此外,科技公司获取用户数据的另一种途径是:注册使用AI产品时,用户同意的用户使用须知或用户服务条款。
例如,快手AI视频模型“可灵”在内测阶段的用户须知中明确表示,用户上传的素材(如有)、输入的指令以及模型生成的内容可能会继续用于大模型优化训练,以不断调整优化模型的效果。
如果用户不同意该条款,则无法使用相关产品和服务。尤其在生成式AI中的图生视频、图生图等使用场景中,输入即是输出内容的一部分。由于AIGC模型算法和运行过程依然存在“黑箱”特性,不仅开发者难以向用户充分解释数据处理的过程,也在监管和治理层面带来了挑战。
据君合律师事务所北京办公室合伙人董潇律师解读,《生成式人工智能服务管理暂行办法》第7条要求生成式人工智能研发利用者对预训练、优化训练数据来源的合法性负责,但对于生成式人工智能研发利用者对用于训练算法的数据来源的审核义务究竟应达到何种程度未作出明确规定。
如何平衡科技创新与用户隐私安全,保障创作者权益,仍待行业进一步发展和法律监管措施持续完善。
直播预告
明晚18点,来抖音号“头号AI玩家”直播间
一起玩转AI视频生成神器“Dream Machine”!
「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看 一起研究AI