Generatieve AI class-actions: VS en EU perspectieven

Author info

De kans is groot dat je al gebruikt hebt gemaakt van generatieve AI - door ChatGPT een gedicht te laten schrijven over de ondraaglijke lichtheid van een donderdagavond, of door met Dall-E beelden te genereren van "Pikachu die paardrijdt in Toscane, ukiyo-e stijl". Generatieve AI-systemen zoals ChatGPT, Dall-E, en vele anderen werken volgens hetzelfde principe. Ze worden getraind op bestaande creatieve werken (bv. afbeeldingen, video’s, tekst, softwarecode, etc.) en combineren die vervolgens om meer werken van dezelfde soort te creëren.

2022 was het jaar waarin generatieve AI brede bekendheid kreeg, niet alleen voor amusement maar ook voor haar potentiële professionele toepassingen. Niettemin is er nog veel rechtsonzekerheid over de input en output van AI en - in het bijzonder – in verhouding tot het auteursrecht. Dit artikel richt zich op twee zogenaamde class actions in de Verenigde Staten tegen twee verschillende soorten generatieve AI-systemen. Deze rechtszaken zijn bijzonder belangrijk omdat ze opheldering kunnen verschaffen over de toepasselijkheid van bestaande wettelijke voorschriften op generatieve AI.

De twee collectieve rechtszaken

Het Stable Diffusion proces

Op 13 januari 2023 werd in San Francisco, CA, een class action ingesteld tegen drie ondernemingen, Stability AI (Stable Diffusion), Midjourney, en DeviantArt, Inc. (DreamUp) namens kunstenaars wier werken werden gebruikt om AI-algoritmen te trainen.

Stable Diffusion maakt gebruik van een wiskundig proces, diffusie genaamd, om gecomprimeerde kopieën van trainingsbeelden op te slaan, die op hun beurt opnieuw worden gecombineerd om nieuwe beelden te genereren. De belangrijkste bewering van de klagers in deze zaak is dat Stable Diffusion ongeoorloofde kopieën bevat van miljoenen (en mogelijk miljarden) auteursrechtelijk beschermde beelden, gemaakt zonder medeweten of toestemming van de kunstenaars.

De klacht duikt diep in de details van hoe de technologie achter Stable Diffusion werkt. Het belicht bovendien hoe Stability AI, LAION ("Large-Scale Artificial Intelligence Open Network") betaalde om LAION-5B samen te stellen, zijnde een dataset van 5,85 miljard afbeeldingen. De datasets van LAION zijn gebaseerd op Common Crawl, een non-profit organisatie die maandelijks miljarden webpagina's schraapt en deze vervolgens openbaar maakt als enorme datasets. Enkele van de meest voorkomende websites die door Common Crawl worden geschraapt voor inhoud zijn Pinterest, Flickr, Tumblr, Wikimedia, DeviantArt en WordPress websites. (https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/).

De vorderingen in de Stable Diffusion class-action omvatten betichtingen van:

  1. Rechtstreekse inbreuken op het auteursrecht voor de volgende ongeoorloofde handelingen: de reproductie en gebruik van niet-gelicentieerde beelden om ML-systemen te trainen; de creatie van afgeleide werken; het verspreiden van kopieën van auteursrechtelijk beschermde werken; de openbare uitvoering en vertoning.   
  2. “Vicarious copyright infringement” door de generatie van outputs toe te laten als gevolg van prompts met specifieke namen van kunstenaars, waardoor "bedriegers" via AI-gegenereerde werken gemakkelijker kunnen doorgaan als originele werken van de kunstenaars wier naam werd gebruikt in de prompting.
  3. Schendingen van de Digital Millennium Copyright Act (DMCA) voor het verwijderen van beheersinformatie over auteursrechten (Copyright Management Information of CMI), waaronder kennisgevingen van auteursrechten en andere identificerende informatie over de makers en eigenaars van de originele werken.
  4. Schending van het recht op openbaarmaking omdat het AI-systeem is ontworpen om te reageren op verzoeken om output "in de stijl van" specifieke personen; en
  5. Oneerlijke concurrentie voor bovengenoemde onrechtmatige handelspraktijken.

De klacht in de zaak Andersen tegen Stability AI Ltd. (3:23-cv-00201), District Court, N.D. California en verdere informatie zijn te vinden op: stablediffusionlitigation.com  

Het GitHub Copilot proces

Enkele maanden eerder, op 3 november 2022, werd bij de Amerikaanse federale rechtbank in San Francisco een class-action rechtszaak aangespannen tegen GitHub's Copilot AI-coderingsassistent. GitHub, Microsoft (de eigenaar van GitHub), en OpenAI worden aangeklaagd omdat ze het auteursrecht zouden hebben geschonden door de reproductie van open-source code met behulp van AI.

Copilot is een AI-systeem, getraind op openbaar beschikbare bronnen en naar verluidt op openbare GitHub-repositories, dat coderen gemakkelijker wil maken door een code "prompt" van een programmeur te accepteren en een mogelijke voltooiing van die code als output te genereren. Copilot lijkt echter af en toe letterlijke code te reproduceren uit bestaande code databankes, zelfs waaronder code onder beperkende licenties. De belangrijkste stelling van de klacht is dat GitHub de rechten heeft geschonden van een groot aantal makers die code of andere werken onder open-source licenties op GitHub hebben geplaatst.

De vermeende inbreuk heeft betrekking op een reeks van 11 populaire open source-licenties die allemaal naamsvermelding en vermelding van het auteursrecht vereisen, waaronder de MIT-licentie, GPL en Apache-licentie. Copilot toont de eindgebruiker echter geen enkele vermelding van de oorspronkelijke auteur van de code, noch informatie over de toepasselijke licenties.

De claims in de GitHub Copilot class-action omvatten beschuldigingen van:

  1. DMCA schendingen voor het verwijderen van copyright management informatie (zie eerder), inclusief copyright notices, informatie over de auteur, de toepasselijke licentie en gebruiksvoorwaarden.
  2. Schendingen van open-source licenties, aangezien elk van de licenties in kwestie vereist dat (1) de naam van de auteur wordt vermeld; (2) een auteursrechtvermelding wordt opgenomen; (3) de toepasselijke licentievoorwaarden worden gemeld.
  3. Oneerlijke concurrentie voor de zogenaamde onrechtmatige handelspraktijken, waaronder het doorgeven van materiaal on licentie als een creatie van GitHub/Copilot.
  4. Privacyschendingen op grond van de California Consumer Privacy Act (CCPA) voor het delen van persoonlijke gegevens van GitHub-gebruikers (opgenomen in de code databanken) aan derden zonder kennisgeving en het opnemen van persoonlijke gegevens in Copilot zonder de mogelijkheid deze te wijzigen of te verwijderen.

De klacht voor de zaak Doe 1 v. GitHub Inc. (3:22-cv-06823), District Court, N.D. California en verdere informatie zijn te vinden op: githubcopilotlitigation.com.

Fair use?

De Stable Diffusion- en GitHub Copilot-zaken rakende kern van veel juridische onzekerheden in verband met de training en het gebruik van generatieve AI. Met name in de VS is een van de belangrijkste vragen die door de rechtbanken moet worden opgehelderd of het gebruik van auteursrechtelijk beschermde inhoud om AI-systemen te trainen en nieuwe output te genereren, kan worden beschouwd als zogenaamde “fair use". Terwijl het GitHub-proces tactischeen fair use-verdediging probeert te omzeilen door zich te richten op andere claims zoals schendingen van DMCA, CCPA, contracten en onwettig concurrentiebeperkend gedrag, focust het Stable Diffusion-proces zichzowel op directe als indirecte auteursrechtinbreuken, waardoor de rechter wordt uitgenodigd om te beslissen over de toepasbaarheid van de fair use-doctrine op generatieve AI-training.

Net als het systeem van uitzonderingen en beperkingen op het auteursrecht in de EU, heeft de doctrine van fair use in de VS tot doel de vrijheid van meningsuiting te bevorderen door in bepaalde omstandigheden het gebruik zonder licentie van auteursrechtelijk beschermde werken toe te staan. Bij de beoordeling of een gebruik eerlijk is, moet rekening worden gehouden met verschillende overwegingen. Wanneer het gaat om generatieve AI zullen echter twee factoren waarschijnlijk het zwaarst wegen in de juridische analyse:

  • (1)   wat is het doel/de aard van het gebruik, namelijk of het "transformatief" is en de aard van het werk op de een of andere manier verandert; en
  • (2)   wat is het effect van het gebruik op de markt, d.w.z. bedreigt het de broodwinning van de oorspronkelijke maker doordat het met zijn werken concurreert?

De output van generatieve AI-systemen lijkt vaak uiterlijk niet op de trainingsgegevens, vooral door de enorme hoeveelheden informatie waarop het algoritme wordt getraind, en wordt hoogstwaarschijnlijk als transformatief beschouwd. Niettemin kunnen AI-resultaten die zijn afgeleid van kopieën van de trainingsgegevens mogelijk met hen concurreren op de markt, vooral wanneer zij het resultaat zijn van aanwijzingen "in de stijl van" een bepaalde kunstenaar. Dit zijn ingewikkelde kwesties en het zou interessant zijn om de toekomstige ontwikkeling van deze twee zaken te volgen, ook al vallen ze buiten het Europese rechtsstelsel. De zaken zullen immers zeker een invloed hebben op de beoordelingen van Europese rechters.

En in de EU?

Dit leidt natuurlijk tot de vraag hoe deze kwestie in de EU wordt geregeld, en of we een stroom van soortgelijke (class-action) rechtszaken door makers van content in de EU kunnen zien (In dit artikel, waarbij de kwestie van de relatieve moeilijkheid om class-action rechtszaken aan te spannen tussen de VS en de EU-lidstaten buiten beschouwing wordt gelaten)?

In tegenstelling tot de Verenigde Staten voorziet de Europese wetgever in uitzonderingen op basis van het numerus clausus-beginsel. Daarom probeert deze in, Richtlijn (EU) 2019/790 inzake auteursrecht en naburige rechten in de digitale eengemaakte markt (DCDSM) auteursrechtelijke kwesties met betrekking tot AI-inputs, d.w.z. de trainingsdatasets, te regelen met twee tekst- en datamining ("TDM") uitzonderingen in de artikelen 3 en 4. Het ruimere artikel 3 is beperkt tot wetenschappelijk onderzoek door onderzoeks- en culturele instellingen, waardoor artikel 4 de belangrijkste uitzondering is waarop bedrijven zich kunnen beroepen voor hun AI-training. Artikel 4 staat TDM door iedereen toe, maar het biedt rechthebbenden ook de mogelijkheid om de toepasbaarheid ervan contractueel uit te sluiten, ook met technische middelen. Met andere woorden, rechthebbenden in Europa kunnen  kiezen voor een "opt-out" met betrekking tot de TDM-uitzondering en eisen dat het gebruik van hun werk voor het trainen van generatieve (en andere soorten) AI-systemen onder een licentie gebeurt.

Deze oplossing ligt onder vuur omdat zij de Europese AI-sector een concurrentienadeel oplevert vanwege de aanzienlijk hogere kosten  bij de onderhandeling van licenties voor de grote hoeveelheden informatie die nodig zijn als trainingsgegevens. Als de rechtbanken in de VS de toepasselijkheid van de doctrine inzake fair use op generatieve AI verduidelijken en bevestigen, zouden Amerikaanse bedrijven in de meeste gevallen geen licenties nodig hebben voor hun inputdatasets. In de EU gevestigde bedrijven zouden daarentegen licentieovereenkomsten moeten sluiten met houders van rechten die contractuele beperkingen opleggen aan de TDM-uitzondering, of die werken volledig moeten uitsluiten van trainingsdatasets. Het is af te wachten of en hoe deze verschillen tussen het auteursrecht van de VS en dat van de EU een invloed zullen hebben op de toekomstige AI-ontwikkeling.

Heeft u vragen over de auteursrechtelijke bescherming van AI inputs en outputs? Neem dan contact op met Timelex.