Reddit renforce sa sécurité contre les robots

Reddit a annoncé mardi une mise à jour significative de son fichier robots.txt, utilisé pour réguler l'accès des robots explorateurs à son site web. Ce changement vise à améliorer la protection de son contenu face à la montée en puissance des intelligences artificielles et des pratiques de piratage en ligne.

post-image-3

Historiquement, le fichier robots.txt servait principalement à guider les moteurs de recherche pour qu’ils puissent explorer les sites et rediriger les internautes vers les pages pertinentes. Cependant, avec l'essor de l'intelligence artificielle, le nombre de tentatives de récupération illégale de données a explosé. Reddit a donc décidé de renforcer son protocole pour mieux contrôler l'accès à son contenu.

Parallèlement à cette mise à jour, Reddit continuera de limiter la vitesse d'exploration des robots et de bloquer l'accès à ceux qui ne respectent pas sa politique de contenu public ou n'ont pas conclu d'accord avec la plateforme. Dans une déclaration à TechCrunch, Reddit a précisé que les robots ne respectant pas ces conditions seraient limités ou bloqués.

Cette initiative a pour objectif principal de décourager les entreprises spécialisées en intelligence artificielle d'utiliser le contenu de Reddit pour entraîner leurs modèles de langage. La plateforme assure que cette mise à jour n'affectera pas la majorité des utilisateurs ni les acteurs de bonne foi, comme les chercheurs et les organisations telles que l'Internet Archive.

L’annonce de Reddit intervient peu après une enquête menée par Wired, révélant que la startup Perplexity, spécialisée dans la recherche assistée par ordinateur, aurait récupéré du contenu de manière illicite. Wired a constaté que Perplexity ignorait les demandes de ne pas extraire de données de certains sites. En réponse, le PDG de Perplexity, Aravind Srinivas, a soutenu que le fichier robots.txt n’était pas juridiquement contraignant.

Les nouvelles restrictions de Reddit n’affecteront pas les entreprises avec lesquelles des accords ont été conclus. Par exemple, Reddit a signé un contrat de 60 millions de dollars avec Google, permettant à ce dernier d'entraîner ses modèles d'intelligence artificielle en utilisant le contenu de la plateforme sociale.

"Toute personne accédant au contenu de Reddit doit se conformer à nos politiques, y compris celles mises en place pour protéger les rédacteurs", a souligné Reddit dans un article de blog. "Nous sommes sélectifs quant aux personnes avec lesquelles nous travaillons et à qui nous faisons confiance pour l'accès à grande échelle au contenu de Reddit."

Avec cette mise à jour, Reddit cherche à renforcer la protection de ses données tout en continuant de collaborer avec des partenaires de confiance dans le cadre d’accords bien définis.

Back to top button
Close
Close