Auteursrecht gaat genAI-makers geld kosten, veel geld
- Claims kunnen leiden tot faillissement AI-bedrijven
- Voor de toekomst wordt nagedacht over een eerlijk vergoedingenstelsel
- Het is maatschappelijk wenselijk dat AI wordt getraind op kwalitatief hoogwaardige data
- Lees ook: OpenAI vindt copyright claims onhoudbaar
De rechtszaken rond het schenden van auteursrecht door de makers van Large Language Models kunnen het einde betekenen van de stroomversnelling in de ontwikkeling van AI-toepassingen. Zo’n vaart zal het niet lopen, maar de uitspraken van de rechters dwingen de makers misschien tot het van de grond af aan opnieuw beginnen. Of er komt een nieuw wereldwijd vergoedingenstelsel. Het gaat in ieder geval veel geld kosten.
Dat onder meer OpenAI, Google en Meta zich schuldig hebben gemaakt aan het ongevraagd gebruik van auteursrechtelijk beschermd materiaal voor het trainen van hun Large Language Models, staat buiten kijf. De vraag is alleen hoe de rechters gaan oordelen over de manier waarop dat is gebeurd en wat de eventuele economische schade is die daarvan het gevolg is.
Een complicerende factor is dat dit een wereldwijd probleem is en verschillende landen en regio’s hun eigen auteursrecht hanteren. De huidige rechtszaken, die nu voornamelijk in de VS zijn aangespannen, zullen dus zeker niet de laatste zijn. Wanneer de rechters volledig meegaan in de redenatie van de auteursrechthebbenden, kan dat in het uiterste geval leiden tot het verbod van de Large Language Models zoals die nu in gebruik zijn.
Het auteursrechtelijk beschermd materiaal zit zo diep verweven in de modellen, dat het onmogelijk is dat eruit te halen, bevestigt Max Welling, hoogleraar Machine Learning aan de Universiteit van Amsterdam. “Je moet dus opnieuw trainen zonder die documenten. Daarmee bedoel ik dat je alle parameters weer random initialiseert en dus niet begint te trainen met het oude model als beginpunt.”
Internet schrapen
Echter opnieuw trainen zonder die documenten is geen eenvoudige opgave. De huidige LLM’s zijn zo goed omdat ze zijn getraind op enorme hoeveelheden data. De makers gebruikten daarvoor een techniek genaamd ‘scraping’ waarmee alle publiek beschikbare informatie van het internet werd ‘geoogst’ en gebruikt als trainingsset.
Het scrapen gaat relatief eenvoudig en goedkoop, omdat het een bulkactie is waarbij niet wordt gelet op de inhoud van het verzamelde materiaal. Dat is dan ook rijp en groen door elkaar heen en bevat veel materiaal dat onder auteursrecht valt.
Dat materiaal uit die trainingssets halen, is niet eenvoudig, of eigenlijk niet te doen. Daarbij speelt ook de reikwijdte van de auteurswet. In Nederland is bijvoorbeeld alles auteursrechtelijk beschermd wat is gepubliceerd en voldoende origineel is. Daar hoeft de auteur niets extra’s voor te doen. In andere jurisdicties gelden daar weer andere regels voor.
Toestemming vragen
“Het komt dus neer op het vragen van ‘consent’ [toestemming, red.] bij de eigenaar op het moment dat je vast stelt dat er auteursrecht op een stuk informatie rust”, stelt Erik Beulen, hoogleraar Information Management aan de University of Manchester. “Maar dan kom je op een moeilijk punt. Ik schrijf ook wel eens een boek en een artikel. Op het moment dat een student dat leest en op basis daarvan iets bedenkt, heb ik dan recht op een vergoeding omdat het gebaseerd is op mijn werk?”
Beulen wijst erop dat de Britse overheid in juli is begonnen met ‘call for evidence’ juist om de implicaties van deze nieuwe situatie beter te begrijpen, zowel de voordelen als de negatieve effecten.
“De technologie gaat niet meer weg, dus ‘dat doen we niet meer’, kunnen niet we zeggen. Wat in het auteursrecht geregeld is, moet gerespecteerd worden. De vraag is alleen: als ik een hele hoop informatie opzuig en daar gaan algoritmen mee aan de gang, is er dan sprake van een bewerking? Ik ben geen jurist, maar ik ben geneigd te denken van wel.”
De situatie is niet helemaal nieuw, schetst Dirk Visser, hoogleraar Intellectueel Eigendomsrecht aan de Universiteit Leiden en advocaat bij het Amsterdamse bureau Visser, Schaap & Kreijger. Rond de eeuwwisseling zijn er de problemen geweest toen het opeens mogelijk werd makkelijk muziek en films te downloaden via Napster. Uiteindelijk werd dat bedrijf verboden.
Zoeken naar betere oplossing
Maar een constructievere aanpak is ook mogelijk. Steve Jobs luidde het einde in van grootschalig illegaal downloaden door de introductie van iTunes. Door contracten te sluiten met platenlabels konden CD’s en individuele tracks legaal worden gedownload. Later kwamen de streamingdiensten zoals Spotify voor muziek en Netflix voor films en dat bleek maatschappelijk een heel wenselijk model.
Visser: “De vraag is of het ontstaan van Large Language Models ook wenselijk is of dat we ze auteursrechtelijk moeten verbieden? We zitten op het punt dat het optimisme over AI omslaat in AI-pessimisme. Dan wordt makkelijk vergeten dat de maatschappij er ook voordeel van heeft dat de kennis in die algoritmen is verwerkt. Wat gebeurt er als je bedrijven verbiedt dat materiaal te gebruiken? Als het al mogelijk is datasets zonder auteursrechtelijk beschermd materiaal samen te stellen, zullen die voornamelijk bestaan kwalitatief laagwaardige data.”
Faillissement dreigt
Een probleem is dat die bedrijven inmiddels dat beschermde materiaal al hebben gebruikt. “Dan zou je kunnen oplossen met een schadeclaim. Maar hoe hoog moet die zijn? Dat geld gaat er nooit komen, want dan gaan die bedrijven gewoon failliet. De vraag is dus meer, hoe gaan we nu verder?”
Visser schetst dat onder zijn vakgenoten een tendens is te denken aan een wettelijke heffing, een groot fonds dat wordt gefinancierd door AI en waaruit auteurs kunnen worden gecompenseerd. “Ook dat is niet nieuw. We hebben in Nederland de thuiskopieheffing. Het probleem daarmee is dat je ook al het illegaal kopiëren toestaat. Het Europees Hof heeft daar in 2014 een stokje voor gestoken, want heffing is natuurlijk veel minder vergeleken met de commerciële waarde van het gekopieerde werk.”
Visser denkt meer aan een systeem waarin de LLM-makers een percentage van hun omzet moeten afdragen. Een alternatieve oplossing kan het afsluiten van licenties zijn, vergelijkbaar met hoe BUMA STEMRA dat voor muziek doet. “Het volgende probleem is dan hoe je het geld dat in het fonds komt, gaat verdelen onder de rechthebbenden?” BUMA STERMA neemt daar nu als maat de populariteit van een track voor. “Maar je hebt natuurlijk geen flauw idee hoe de AI dat beschermde materiaal precies gebruikt. We zitten dus absoluut in spannende tijden.”
Uitspraken rechter onvoorspelbaar
Dat geldt ook voor de afhandeling van het materiaal dat inmiddels illegaal is gebruikt, vindt Visser. “Het hangt af van wat de rechter op basis van de wetgeving vindt wat kan of niet kan. Ik heb begrepen dat in Frankrijk – Fransen zijn vaak wat radicaler in dit soort dingen – is gezegd dat het scrapen van creatief materiaal verboden is. Maar het kan zo maar dat Europese of Amerikaanse rechters zeggen dat het wel moet kunnen omdat het een maatschappelijk wenselijke ontwikkeling is. Het interpreteren van nieuwe technologieën is tot op zekere hoogte een rechtspolitieke keuze. Dat maakt het onvoorspelbaar."
"En vergeet niet dat we nu praten over de gevallen dat een rechtszaak is aangespannen waardoor het in de openbaarheid komt. Maar er worden ook achter de schermen afspraken gemaakt. Associated Press bijvoorbeeld heeft gewoon een deal gemaakt en gezegd: ‘Jullie mogen ons materiaal gebruiken tegen een bepaald bedrag’. Dat is een constructievere benadering, want we willen uiteindelijk dat de AI getraind wordt op betrouwbaar materiaal.”
Magazine AG Connect
Dit artikel verscheen ook in AG Connect editie 7 2023. Wil je het blad ook ontvangen? Bekijk dan onze abonnementen.
In het diepe met genAI
Generatieve AI, zoals ChatGPT, veroorzaakt een golf van vraagstukken op het gebied van compliance, security, juridische implicaties en ethiek. IT staat centraal in het beantwoorden van deze vragen en het begeleiden van de organisatie door deze transformatie. Sluit je aan bij ons voor een diepe duik in de kernuitdagingen waarmee IT-professionals worden geconfronteerd bij het implementeren en integreren van deze technologie:
IT aan het roer op 7 november AFAS, Leusden
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonneeEr ruiken een hoop mensen geld nu AI blijkbaar werkt. De praktijk om op basis van bestaande rechten geld af te troggelen van nieuwkomers met goede ideeën zonder zelf iets bij te dragen heet "rent-seeking" en was verantwoordelijk voor de economische malaise die na de Gouden Eeuw inzette in Nederland. Het duurde lang om daar uit te komen. Het is dus niet best als rentseeking de dominante modus wordt. Corruptie, stagnatie en economische slavernij zijn allemaal bijverschijnselen van zo'n economisch model.
AI die aan tekstanalyse doet is een enorme multiplier voor productiviteit. Als nieuwe training moet gaan onderhandelen met honderden losse organisaties in alle landen van de wereld, dan is het vrij helder wat er gaat gebeuren:
Partijen die nu alle copyrights al hebben, worden nog veel dominanter dan ze al waren (Getty Images is al bezig, Elsevier en co zullen snel volgen). Tegen hoge vergoedingen zullen de bestaande marktpartijen deze uitbaten, en nieuwkomers worden snel kansloos.
Partijen in landen als China zullen de Westerse copyrights grotendeels negeren en zo hun marktpositie t.o.v. het Westen in snel tempo verbeteren.
Copyrightpartijen geven veel geld uit aan omkoping, sorry, lobbying. Dus het zal er mogelijk wel doorheen komen in de EU. Maar dat zal enorme schade veroorzaken aan de economie omdat bestaande conservatieve monopolies daarmee nog rijker worden, en vooruitstrevende techniek alleen kan leven als het al haar winsten afdraagt. Dit zal nog meer geld in de zakken van lobbyisten doen belanden en zal de gangbare (behoorlijk corrupte) auteursrechtenpraktijk flink verergeren.
Op https://www.ndax.eu/VsJH2Xn2r4aknlky4589.pdf is het kommentaar op dit artikel van Bing Chat te vinden. De letters zijn wat klein maar kunnen zo groot worden gemaakt als je wilt in het universele pdf bestandsformaat.