Reddit versterkt zijn beveiliging tegen crawlers

Reddit kondigde dinsdag een belangrijke update aan van zijn robots.txt-bestand, dat gebruikt wordt om de toegang te bepalen die crawlers hebben tot een website. Met deze wijziging wil het de bescherming van zijn content verbeteren tegen de sterke opkomst van artificiële intelligentie en tegen online piraterijpraktijken.

2024-06-26Comment

Historisch diende het robots.txt-bestand vooral om zoekmachines te begeleiden zodat die de sites konden verkennen en de internauten naar relevante pagina’s zouden kunnen leiden. Maar met de opkomst van artificiële intelligentie is het aantal pogingen om illegaal data te bemachtigen geëxplodeerd. Reddit heeft daarom beslist om zijn protocol te versterken om betere controle te hebben over zijn content.

Tegelijkertijd met deze update zal Reddit de snelheid van de robots om de site te verkennen aan banden leggen, en zal het toegang ontzeggen aan robots die dit beleid voor publieke content niet respecteren of die geen overeenkomst afgesloten hebben met het platform. Reddit heeft aan TechCrunch verklaard dat de robots die deze voorwaarden niet respecteren, beperkt of geblokkeerd zullen worden.

Met deze stap wil Reddit vooral de in artificiële intelligentie gespecialiseerde bedrijven ontmoedigen om de content van Reddit te gebruiken om hun taalmodellen te trainen. Het platform verzekert dat deze update geen effect zal hebben voor de meeste gebruikers noch voor spelers die te goeder trouw zijn, zoals wetenschappers en organisaties zoals Internet Archive.

De aankondiging van Reddit volgt kort na een onderzoek van Wired, waaruit blijkt dat de start-up Perplexity, gespecialiseerd in computerondersteund zoeken content op illegale manier zou bemachtigd hebben. Wired stelde vast dat Perplexity het verzoek negeerde om data van bepaalde sites niet op te halen. In zijn antwoord stelde de CEO van Perplexity, Aravind Srinivas dat het robots.txt-bestand juridisch niet bindend was.

De nieuwe beperkingen van Reddit zullen geen invloed hebben op bedrijven waarmee het een akkoord afgesloten heeft. Reddit heeft bijvoorbeeld een contract van 60 miljoen dollar afgesloten met Google, wat die laatste toestemming geeft om zijn AI-modellen te trainen door de content van het sociale platform te gebruiken.

“Elkeen die toegang heeft tot de content van Reddit, moet ons beleid nalven, inbegrepen de regels die uitgerold werden om de redacteurs te beschermen”, beklemtoont Reddit in een blogposting. “Wij zijn selectief voor de personen waarmee wij werken, en wie wij vertrouwen om op grote schaal toegang te geven tot de content van Reddit.”

Met deze update wil Reddit de bescherming van zijn gegevens versterken en tegelijkertijd blijven samenwerken met vertrouwenspartners in het kader van welbepaalde akkoorden.

Digimedia

Reddit versterkt zijn beveiliging tegen crawlers

Dit was Digital First 2025: nieuwe locatie, sterke ideeën en topsprekers

IAB MIXX Awards 2025: meer deelnemers dan ooit & indrukwekkende winnaars

Digital First 2025: De digitale toekomst komt weer samen in Brussel

Reminder: Nog 5 dagen tot Digital First 2025

Nog 1 Week tot Digital First: 20 Jaar Digitale Innovatie in België!

Op ons nachtkastje: Scale Versus Soul van Dado Van Peteghem

Newsletter

Inside