Cloudflare heeft een nieuwe manier geïntroduceerd om website-eigenaren en uitgevers meer controle over hun content te geven. Daarmee kan elke website-eigenaar zijn robots.txt-bestand eenvoudig updaten. Het is een eenvoudig tekstbestand dat webcrawlers vertelt welke delen van een website ze wel of niet mogen openen, met een nieuwe Content Signals-beleidsbepaling. Met deze nieuwe beleidsbepaling kunnen websitebeheerders aangeven over hoe hun content door anderen mag worden gebruikt. Zo kunnen ze zich afmelden voor AI-samenvattingen en AI-inferentie.
Zoekmachines worden antwoordmachines
Het internet verandert van ‘zoekmachines’ die allerlei links aanbieden waar een gebruiker informatie kan vinden, naar ‘antwoordmachines’ op basis van kunstmatige intelligentie (AI), die direct antwoord geven zonder dat de gebruiker ooit op de link van de oorspronkelijke website hoeft te klikken. Dit vormt een ernstige bedreiging voor het oorspronkelijke bedrijfsmodel van het internet. Websites, uitgevers en contentcreators konden namelijk geld verdienen of beroemd worden door meer verkeer en kliks naar hun website te leiden. Tegenwoordig verzamelen AI-crawlers enorme hoeveelheden gegevens van websites, maar websitebeheerders hebben geen manier om precies aan te geven of, hoe en met welk doel hun content gebruikt mag worden. Met robots.txt-bestanden kunnen websitebeheerders aangeven welke crawlers zijn toegestaan en tot welke delen van een website zij toegang krijgen. Het bestand vertelt de crawler echter niet wat met de content gedaan mag worden nadat toegang is verkregen. Er moet een standaard, machinaal leesbare manier zijn om aan te geven hoe de content gebruikt mag worden, zelfs nadat toegang is verkregen.
“Het internet staat te popelen om een oplossing, aangezien de originele content van creators door andere bedrijven wordt gebruikt om winst te maken”, aldus Matthew Prince, medeoprichter en CEO van Cloudflare. “Wij willen ervoor zorgen dat het internet open en interessant blijft, en daarom geven we de website-eigenaren een betere manier om aan te geven hoe AI-bedrijven hun content mogen gebruiken. Robots.txt is een onderbenut hulpmiddel dat we kunnen versterken en waarmee we AI-bedrijven duidelijk kunnen maken dat ze de voorkeuren van contentcreators niet langer kunnen negeren.”
Nieuwe Content Signals-beleidsbepaling
Cloudflare is van mening dat een beheerder van een website, API, MCP-server of een andere aan het internet verbonden dienst, zoals een lokale nieuwsorganisatie, een AI-startup of een e-commercewinkel, moet kunnen beslissen hoe de bedrijfsgegevens door anderen voor commerciële doeleinden mogen worden gebruikt. Momenteel gebruiken meer dan 3,8 miljoen domeinen de door Cloudflare beheerde robots.txt-service om aan te geven dat zij niet willen dat hun content voor training wordt gebruikt. Met de nieuwe Content Signals-beleidsbepaling van Cloudflare kunnen gebruikers hun robots.txt-voorkeuren versterken met een duidelijke reeks instructies voor iedereen die de website via geautomatiseerde middelen, zoals een AI-crawler, bezoekt. Het beleid informeert crawlers nu als volgt:
- Uitleg over hoe de contentsignalen op een eenvoudige manier geïnterpreteerd moeten worden: ‘Ja’ betekent toegestaan, ‘Nee’ betekent niet toegestaan en geen signaal betekent geen uitgesproken voorkeur.
- Een duidelijke definitie van de verschillende manieren waarop een crawler de content gebruikt, zoals zoeken, AI-invoer en AI-training.
- Een herinnering aan AI-bedrijven dat de voorkeuren van websitebeheerders in robots.txt-bestanden juridisch belang kunnen hebben.
Hoewel de robots.txt-bestanden het ongewenste schrapen door AI-crawlers mogelijk niet kunnen tegenhouden, wil Cloudflare met deze verbeterde beleidstekst de voorkeuren van website-eigenaren beter aan bot-operators communiceren en ervoor zorgen dat bedrijven de voorkeuren van contentcreators beter respecteren.
Vanaf vandaag zal Cloudflare de robots.txt-bestanden automatisch met deze nieuwe beleidstekst updaten voor alle klanten die Cloudflare hebben verzocht hun robots.txt-bestand te beheren. Aan iedereen die wil vastleggen hoe crawlers hun content mogen gebruiken via aangepaste robots.txt-bestanden, levert Cloudflare de benodigde hulpmiddelen.
Organisaties hebben behoefte gekregen aan oplossingen zoals de Content Signals-beleidsbepaling, om duidelijker aan te geven hoe hun content mag worden gebruikt:
- News/Media Alliance: “We zijn erg blij dat Cloudflare een krachtige nieuwe tool aanbiedt die alle gebruikers ter beschikking staat, waarmee uitgevers kunnen bepalen hoe en waar hun content mag worden gebruikt. Dit is een belangrijke stap om uitgevers van alle omvang de controle over hun eigen content terug te geven en ervoor te zorgen dat ze de creatie van kwaliteitscontent waar gebruikers op vertrouwen, kunnen blijven financieren. We hopen dat technologiebedrijven hierdoor de voorkeuren van contentcreators zullen respecteren. Cloudflare laat zien dat ethisch handelen niet alleen mogelijk is, maar bedrijven ook voordeel oplevert.” – Danielle Coffey, president en CEO van de News/Media Alliance
- Quora: “Cloudflare toont duidelijk leiderschap en wij ondersteunen hun inspanningen om controles en protocollen te ontwikkelen waarmee uitgevers kunnen aangeven hoe toegang wordt verkregen tot hun content.” – Ricky Arai-Lopez, Head of Product bij Quora.
- Reddit: “Willen we ervoor zorgen dat het internet een plek blijft voor authentieke menselijke interactie, dan moeten de platforms die gemeenschappen sterker maken, duurzaam zijn. Wij ondersteunen initiatieven die pleiten voor duidelijke signalen die bescherming bieden tegen misbruik en oneigenlijk gebruik van content.” – Chris Slowe, CTO van Reddit
- RSL Collective: “We werken graag met Cloudflare samen aan de presentatie van Cloudflare’s Content Signals Policy. Dit is een belangrijke stap voorwaarts waarmee uitgevers hun rechten kunnen laten gelden en duidelijk kunnen definiëren hoe AI-bedrijven hun content mogen gebruiken. De open RSL-standaard, ontwikkeld in samenwerking met de grootste internetuitgevers, is bedoeld als aanvulling op het Content Signals-protocol. Hiermee kunnen contenteigenaren niet alleen hun rechten beschermen, maar ook machineleesbare licentie- en compensatievoorwaarden voor die use cases definiëren. RSL Collective en Cloudflare werken samen aan een gedeelde visie: een duurzaam open web waar uitgevers en contentcreators floreren en eerlijk door AI-bedrijven worden beloond.” – Eckart Walther, medeoprichter van het RSL Collective
- Stack Overflow: “De aard van het internet en de impliciete overeenkomsten met content-uitgevers zijn de afgelopen jaren behoorlijk veranderd. Stack Overflow heeft een grote corpus van ca.70 miljard datatokens en werkt graag met toonaangevende AI-labs en cloudproviders samen aan de ontwikkeling van datalicenties. Cloudflare speelt een belangrijke en centrale rol bij de levering van een schaalbaar systeem waarmee contentcreators meer controle krijgen en zichzelf kunnen beschermen in dit nieuwe AI-tijdperk.” – Prashanth Chandrasekar, CEO van Stack Overflow
