Google: pas robots.txt aan voor AI-scraping

Google wil de discussie aanzwengelen over nieuwe middelen voor uitgevers van webcontent om bewust om te gaan met datavergaring voor het trainen van kunstmatige intelligentie (AI). De vice-president voor vertrouwen bij de ads-gedreven zoekmachine, die ook aan AI doet, stelt dat bestaande 'web publisher controls' helaas niet meer voldoen. Hij noemt daarbij specifiek het klassieke robots.

Jasper Bakker redacteur Meer van deze auteur

© CC BY-SA 2.0 - Flickr.com

© CC BY-SA 2.0 - Flickr.com

txt-bestand dat websites gebruiken om datavergarende bots van zoekmachines te kunnen weren of sturen wat betreft hun eigen content.

Op developersconferentie Google I/O in mei heeft de internetreus een reeks nieuwe, AI-aangedreven producten aangekondigd, plus enkele experimenten op dat gebied. Topvrouw Danielle Romain, VP of Trust, blogt dat die producten en experimenten gebaseerd zijn op jaren aan onderzoek dat Google heeft gedaan op het gebied van AI. Zij benadrukt daarbij de toewijding van Google aan het ontwikkelen van AI op verantwoorde manieren, om daarmee maximaal voordeel voor de maatschappij te kunnen behalen.

Databron en -bezit

Privacy en eigenaarschap van content zijn hierbij hete hangijzers. Dit is vooral zichtbaar bij de geruchtmakende AI-chatbot ChatGPT, die door Google-concurrent Microsoft wordt omarmd en diepgaand opgenomen in diverse producten en onlinediensten. Kritieke kwesties zijn echter mogelijke datalekkage van ingevoerde maar ook eerder al opgenomen informatie van AI-bots. Ingevoerde data betreffen informatie die gebruikers 'geven' aan AI's, maar vóór die praktische fase is er de fase van data-ingestie voor het initiële trainen van AI's.

Contentmakers van tekst, beeld, maar ook softwarecode claimen dat hun intellectuele eigendom zónder permissie is gebruikt voor het creëren van huidige AI-bots, die dan tekst, beeld, video, audio, softwarecode en meer kunnen genereren. Google lijkt deze fundamentele hobbel op de weg naar AI te willen aanspreken door website-eigenaren beter te laten bepalen of en welke content op hun sites mogen worden meegenomen in datavergaring (zogeheten scraping) voor AI-doeleinden.

Wie mag ervan profiteren?

"Wij geloven dat iedereen profiteert van een levendig content-ecosysteem. De sleutel daarbij is dat web publishers keuze en grip hebben over hun content", schrijft Romain in haar blogpost. Zij stipt daarbij aan dat zulke uitgevers dus wel voldoende kansen moeten hebben om waarde te halen uit hun participatie in het web-ecosysteem van online beschikbare content. "We zien echter dat bestaande web publisher controls zijn ontwikkeld vóór nieuwe AI-cases en gevallen van onderzoeksgebruik." Met dat laatste adresseert de Google-topvrouw problemen die in de praktijk al zijn ontstaan door het afschermen of betaald maken van content, waardoor dan wetenschappelijk onderzoek wordt gedwarsboomd.

De opkomst van nieuwe technologieën en nieuwe toepassingen geven volgens Romain kansen voor de webgemeenschap om standaarden en protocollen te ontwikkelen die de toekomstige ontwikkeling van het web steunen. Zij wijst daar naar het bijna dertig jaar oude robots.txt - dat door een Nederlander is bedacht - dat een simpele en transparante manier is voor web-uitgevers om te bepalen hoe zoekmachines hun content in kaart brengen. "Wij geloven dat het tijd is voor de web- en AI-gemeenschappen om aanvullende machine-leesbare middelen te verkennen", die moeten dan web-uitgevers keuze- en beheermogelijkheden geven voor opkomende AI- en onderzoekstoepassingen. Google begint nu de publieke discussie om complementaire protocollen te verkennen.

Gerelateerde artikelen

Nieuws Artificial Intelligence

GPT-4 gaat nieuwe fase in

Einde aan gebruik van GPT-3.

1 min

Nieuws Marketing

Twitter lijkt uit Google-resultaten te verdwijnen

Google halveert geïndexeerde Twitter-URL's, na grote storing en maatregelen Musk.

2 min

Nieuws Artificial Intelligence

Reddit gaat geld vragen voor AI-trainingsdata-API

Gratis leegtrekken van discussieforums is voorbij.

2 min

Nieuws Development

Nederlandse AI-startup lanceert manier om chatbots razendsnel informatie te voeden

Uitkomst voor webshops, nieuwswebsites en klantenservices.

1 min

Gerelateerde artikelen

Nieuws Artificial Intelligence

GPT-4 gaat nieuwe fase in

Einde aan gebruik van GPT-3.

1 min

Nieuws Marketing

Twitter lijkt uit Google-resultaten te verdwijnen

Google halveert geïndexeerde Twitter-URL's, na grote storing en maatregelen Musk.

2 min

Nieuws Artificial Intelligence

Reddit gaat geld vragen voor AI-trainingsdata-API

Gratis leegtrekken van discussieforums is voorbij.

2 min

Nieuws Development

Nederlandse AI-startup lanceert manier om chatbots razendsnel informatie te voeden

Uitkomst voor webshops, nieuwswebsites en klantenservices.

1 min

Gerelateerde artikelen

Blog Digitale soevereiniteit Partner

Grip op je digitale afhankelijkheden: waar sta jij vandaag?

Is jouw organisatie voldoende voorbereid is op verstoringen in de keten?

2 min

Meer whitepapers

Whitepaper Security Partner

NIS 2-richtlijn uitgelegd: een uitgebreide gids voor compliance

Ben je compliant met de NIS 2-richtlijn? Hier vind je een uitgebreide gids over de NIS 2-richtlijn die je helpt dit te realiseren.

Whitepaper Security Partner

Een storing of cyberaanval: ben je voorbereid?

Ontdek hoe een goed calamiteitenplan schade beperkt en herstel versnelt.

Whitepaper Security Partner

De 10 verplichte zorgplichtmaatregelen van de Cyberbeveiligingswet uitgelegd

De 10 verplichte zorgplichtmaatregelen van de Cyberbeveiligingswet waar Nederlandse organisaties aan moeten voldoen.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand

Inclusief CTO interviews, podcasts, digitale specials en whitepapers

Volg je favoriete topics

Heb je al een account? Log in
Maak een gratis account aan en geniet van alle voordelen:

Toegang tot 3 PRO artikelen per maand

Inclusief CTO interviews, podcasts, digitale specials en whitepapers

Volg je favoriete topics

Heb je al een account? Log in