手机版 广东益福空调设备回收信息网 联系电话18664666166
二手空调回收_中央空调收购_废旧制冷设备收购_广州二手空调回收网

广州二手空调回收公司:实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免

时间:2023-09-07 10:58
广州二手空调回收公司:实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免

为了训练大型语言模型,OpenAI、Meta、谷歌、微软等企业未经许可,从互联网上收割了数百万受版权保护的作品,在版权法的灰色地带中游弋。

目前,OpenAI 当下正面临大宗的官司,原告称该公司训练数据聚集的有不少书籍来自盗版来源和非授权网站。一旦被判侵权,企业有可能将面临巨额罚款或重构算法的局面。这也导致,如今 AI 企业越来越不愿意分享 AI 训练数据的详细报导。

但一些公开的盗版语料库曾经被盯上。

近日,有人展现一个叫 Book3的数据集,包含近20万本书籍,包含村上春树、史蒂芬·金等畅销书作家的著作,这个数据集被用在了训练 AI 模型上,最近遭到反盗版组织的反复攻击。

版权问题这把利刃,正悬在 AI 企业们的头上,有摇摇欲坠之势。

01

Books3,

AI 企业的秘密

一直以来,对于 AI 模型的训练数据并不完全透明。今年,多名美国作家针对 OpenAI 提起了集体诉讼,指控其使用盗版书籍来训练其语言模型,侵犯版权并违反了多项法律。

这些作家主张的证据很简单,因为些他们从未同意 OpenAI 使用他们的作品,然而 ChatGPT 却能提供他们作品的无误摘要,这让他们认为这些采访肯定是从某个地方获取的。

根据早期 GPT 版本的考虑论文,训练数据集有部分来自于「两个基于互联网的书籍语料库」,它们被简单地称为「Books1」和「Books2」,这些数据集具体网罗哪些作品比较含糊。Books1似乎是 bookcorpus,里面有数百本书明确标明「不得以商业或非商业目的复制和分发」。Book2则成为一个谜团,大多人猜想它们来自于「臭名昭著的影子图书馆网站」,如 Library Genesis、Z-Library、Sci-Hub 和 Bibliotik。

其中,Z-Library 创立于2008年,是互联网最大的盗版电子书库之一。2023年11月,美国政府起诉两名运营该网站的俄罗斯公民,这两人在阿根廷被逮捕。

至于 GPT-4的45TB 训练数据,其中网罗什么内容的新闻更加有限,OpenAI 多年来逐渐减少了其训练数据的披露。

虽然现时没有直行证据证明 OpenAI 使用盗版网站来培训 ChatGPT,但一些 AI 模型此前曾经明确在盗版书籍上进行了训练,包括使用「Books3」数据集的 AI 模型。

EleutherAI 的 Pythia 推敲论文中提到,Pythia 是使用 Pile 数据集进行训练的,而 Pile 数据集包括多个英语文本集,其中之一就是名为「Books3」的数据集。

Books3是用于训练 AI 的最著名的盗版书籍库之一,最初是由 AI 开发人员和知名开源 AI 支持者 Shawn Presser 于2023年上传。它网罗37GB 的文本,涵盖196640本纯文本格式的书籍,并在盗版网站 bibliotik 上托管

「借如你想训练一个天下级的 GPT 模型,就像 OpenAI 相通。怎么做?你没有数据。当今你可以做到,正在每个人都这样做。为你显露「books3」,又名「all of bibliotik」。」Shawn Presser 最早在社交平台上写道。

二手空调回收,空调设备收购,中央空调回收,溴化锂中央空调,电缆线回收,发电机回收,ups蓄电池回收,电脑回收,变压器回收,配电柜回收,倒闭工厂回收,倒闭酒店回收

开源 AI 支持者 Shawn Presser 于2023年上传「books3」| X

然而,反盗版组织也在采取行动,代表相关利益群体,试图限制未经授权的 AI 训练数据的使用。

这段时间,反盗版组织 Rights Alliance 向相关站点发送删除通知后,相关站点已将 Books3数据集下线,导致测验访问该数据集的用户会看到404错误。Rights Alliance 还联系了 AI 模型托管平台 Hugging Face(该站点托管了 Books3下载链接)以及 EleutherAI。然而,尽管一些链接被下架,该数据集的副本并未消失,照样在其他地方涌现。

遭到针对后,Shawn Presser 照旧公布新的下载链接,他称,除非反对者打算让 ChatGPT 下线,抑或经过诉讼将其告到灭亡,否则,他奢望每个人都也许制作自己的 ChatGPT,他还称自身「很乐意入狱10个月(海盗湾创始人服过的最高刑期),由于我推动了科学进步并赋予了你们复制 ChatGPT 的能力。」

复制ChatGPT这样的模型的唯一方法,是成立像 Books3这样的数据集。」Shawn Presser 称:「每个营利性企业都会秘密地这样做,不会将数据集发表给公众。」「没有 Books3,我们就生活在一个只有 OpenAI 和其他亿万美元公司才能访问这些书籍的地球中,这意味着你无从制作本身的 ChatGPT。没有人能。只有亿万美元的公司才有资源做到这一点。」

包括 Meta 在内的一些企业曾经使用过 Book3,另外,Meta、谷歌都使用过的 C4训练数据集也被诟病过,此刻这些企业对其语言模型中的内容更为保密。

Meta 的 Llama2注入了40% 的数据,但在其白皮书中,该公司对其最新的 大语言模型使用了什么数据更为犹豫,唯一提到的是「一个新的融合的公开可用在线数据」。随着 AI 和版权之间的摩擦升温,企业越来越不愿意分享 AI 训练数据的详细信息。

02

万名作家联名阻止

超一万名作家敦促 AI 企业阻止使用其作品。他们不奢望AI 参照其作品并学会写作,除非科技企业为此付费。

美国的作家协会已经向巨头们发了一封公开信,包括 OpenAI、谷歌、Meta、Stability AI、IBM 和微软公司的各大 CEO,要求他们拦阻未经许可使用他们的作品,或对使用作品进行补偿

其中囊括《达芬奇密码》作者丹·布朗、《饥饿游戏》作者苏珊·柯林斯、《使女的故事》作者玛格丽特·阿特伍德、《自由》作者乔纳森·弗兰岑等人都签署了这封公开信,签署的作家名单长达100多页。

二手空调回收,空调设备收购,中央空调回收,溴化锂中央空调,电缆线回收,发电机回收,ups蓄电池回收,电脑回收,变压器回收,配电柜回收,倒闭工厂回收,倒闭酒店回收

一万名作家签署公开信 |美国作家协会

而今,该作家协会正尝试先在不提起诉讼的情况下解决争端,由于「诉讼需要大批的资金,而且需要很长时间。」

但也有一些文学界人士愿意直接在法庭上与科技公司对抗,控诉 Meta 或 OpenAI 等使用盗版来训练他们的 AI。此外,文学经纪人们而今与出版商切磋,要更新出版合同条款,反对未经授权的 AI 训练用途,有很多出版商都愿意限制 AI 使用他们的出版物。

根据美国作家协会的侦查,90% 的作家认为,作家怎样获得对其作品用于训练生成式人工智能的补偿,65% 的作家支持建立一个集体授权制度,以补偿作者的作品被用于训练生成式 AI。

此外,69% 的作家认为他们的职业受到生成式 AI 的威胁,70% 的作家认为出版商将开始使用 AI 来完全或部分生成书籍,取代人类作者。

除了发公开信、打官司、完善合同,出版业还在逐渐寻求立法。

美国作家协会的人当今游说制定相关法律、规章和政策:在同意方面,要求在生成式人工智能中使用作家作品时获得许可;在补偿方面,为那些期许可以其作品用于生成式人工智能培训的作家供应补偿;在透明度方面,要求人工智能开发者透明披露他们用于培训其人工智能的作品

他们也盼望,生成式 AI 的输出使用到作家的作品时,要获得许可并建立相应的补偿机制,也许当在提示中使用作家的姓名、身份或作品标题时,也应获得许可。此外,他们要求作者、出版商、平台和集市讲明 AI 生成的作品,并在作品很大一部分(比如超过10-20%)由 AI 生成时进行标识。

「我们需要确保人类创作者得到补偿,这不仅是为了创作者自身,而是为了确保我们的书籍和艺术保持反应出我们的真实和想象的经验,开拓我们的思维方式,教导我们新的思维方式,并推动我们社会的发展,而不是重复旧观念。」该作家协会在官方说明中称。

03

NYT VS OpenAI

除了作家和艺术家,其他类型的内容创作者,也纷纷扩展起诉 AI 企业的行列,一些消息机构训斥科技企业未经授权或补偿就使用他们的内容。

例如,纽约时报目下探讨对 OpenAI 提起诉讼,称 OpenAI 的ChatGPT使用了该报的数据进行训练,而未经纽约时报许可。在以前的几个月里,OpenAI 和纽约时报一直在试图完成一项有关纽约时报内容的许可协议。但谈判还未有结果,存在破裂的或者。

在最近对其服务条款政策的更改中,纽约时报明确遏止将其巨大的媒体档案用于训练「任何软件程序,囊括但不限于训练机器学习或人工智能(AI)系统」的目的。该政策适用于纽约时报的文本内容、照片、视频和元数据,并明确不准网络爬虫访问这些数据来训练专有产品。

这里做一个假设,如若法院判断 OpenAI 等 AI 公司的训练行为属于侵权,OpenAI 或然会被迫窒碍使用受版权保护的数据,并在不使用受版权保护的数据的前提下,重新构建其算法,这会激发多大的麻烦?

科技企业也试图与信息媒体建立关系。谷歌曾试图争取像纽约时报、华盛顿邮报等音讯机构的支持,试图向他们推销 AI 工具。还有 AI 公司向消息非营利机构供给微薄的慈善捐款。

期间,也有信息机构不那么强硬。美联社今年就与OpenAI实现了一项为期两年的许可协议,同意将美联社的内容授权给 OpenAI 使用训练。算作回报,OpenAI 供给了美联社访问「OpenAI 的技术和产品专门知识」的权利。

04

悬在AI 企业头上的剑

AI 企业抓取大宗互联网数据,曾经导致法律问题的展示,起诉 AI 公司的人如今变得越来越多。

今年,美国一律所相继对 OpenAI、Meta 等巨头提起诉讼,指控他们未经同意、未经授权或未经补偿地占用成千上万名作家的作品,来训练他们的大语言模型。行业预计诉讼规模将很伟大,源于其他内容创作者也有能够受此启发采取法律行动。

其他生成 AI 企业,如 AI 图像生成工具 Stable Diffusion 背后的 Stability AI,也惹上版权官司。Stable Diffusion 是在 LAION-5B 数据集上进行训练的,数据集包含58.5亿个图像文本对,大多数都受版权保护。Getty Images 现在起诉 Stability AI,指控其未经授权在超过1200万张 Getty Images 上训练 AI 图像生成模型

许多艺术家和利益相关者也表态不满,对 Stability AI、DeviantArt 和 Midjourney 等公司提起诉讼,指控他们侵犯版权、侵犯肖像权、不正当竞争和不正当获利,寻求赔偿和禁令。

微软推出的编程工具 Copilot 也面临集体诉讼。Copilot 是 GitHub 与 OpenAI 合作开发的基于人工智能的自动编程产品,重要利用 GitHub 上的公共代码库,在数十亿行公开可用的代码上进行了训练,能通过简单提示替用户编写代码。开源程序员和律师指控他们从事开源软件盗版,被告包括 GitHub、微软及其人工智能技术互助伙伴 OpenAI。

如是要打官司,AI企业可能会援引所谓的「公平使用原则」来为其辩护,该原则可以在某些情况下无需许可即可使用作品,包含教学、呵叱、酌量和采访信息。问题是,AI 训练是否适用「公平使用原则」。

几年前,美国作家协会也曾起诉谷歌,理由是谷歌未购买其图书馆项目中收录的书籍,当时,联邦上诉法院决断认为,谷歌为其图书馆项目扫描了数百万本书的数字副本是合法的「公平使用」,而非侵犯版权。重要在于,谷歌的数字图书馆并没有为这些书创造出「重大商场替代品」,这意味着它与原作并无竞争关系

此刻,各国政府正努力将生成式 AI 纳入立法范畴。欧盟也在制定一项 AI 法案,该法案将迫使企业将训练模型资讯透明化。上半年,美国作家协会已两次访问国会山,讨论生成式 AI 和作家保护措施的问题,涉及的问题囊括集体授权和版权保护、反垄断豁免权以及 AI 标签和透明度要求。

「除非国会采取干预措施,以确保生成式人工智能技术的开发和使用受到监管,否则驱动原创表达并充实我们文化沟通的关键版权激励将变得毫无意义。」该作家协会在官方声明中称。

从现有舆论看,虽说一些人顾虑训练 AI 抑或会触发版权问题,但也有人认为,OpenAI 等 AI 公司不需要极度的许可协议来训练模型,版权担忧不利于 AI 发展进步;有人则认为,取得作者的同意是至关重大的,创作者怎样有拒绝的权利,或者,AI 公司至少如何购买训练数据的书籍。

技术而今做人类历史上从未发生过的事情,AI 训练数据方面的开源精神怎样有底线吗?未来的法律是掣肘照样保护?怎样平衡 AI 的发展与尊重人类创作权益,大概是和「通用人工智能何时到来」肖似首要的问题。

(举报)

AI正版系统源码推荐:小狐狸GPT-AI付费创作系统+对接国内各大接口

(责任编辑:admin)
栏目列表
二手空调回收_中央空调收购_废旧制冷设备收购_广州二手空调回收网
推荐内容
二手空调回收_中央空调收购_废旧制冷设备收购_广州二手空调回收网