Apparemment, Perplexity continue de contourner les restrictions imposées par les sites web pour collecter des données, malgré les polémiques de 2024. Une stratégie risquée alors qu’Apple et d’autres acteurs mettent en avant des pratiques plus éthiques. Voilà bien qui pourrait faire réfléchir Cupertino à deux fois avant de faire une nouvelle proposition d'achat !
Des bots qui ignorent les interdictions
En 2024, Perplexity avait déjà été épinglée pour avoir contourné les fichiers robots.txt, censés limiter ou interdire le pillage des sites web par des bots. Un an plus tard, selon Cloudflare, la pratique se poursuit avec des techniques encore plus sophistiquées.
En pratique, Cloudflare a créé de nouveaux sites inédits et demandé à Perplexity des informations à leur sujet. Le résultat fut parlant : même lorsque les robots.txt bloquaient l’accès, de nouveaux bots non identifiés (avec d’autres IP, agents utilisateurs et ASN) apparaissaient, permettant à l’IA de fournir des détails uniquement disponibles sur ces pages. La précision des réponses de Perplexity chutait d’ailleurs nettement lorsque ces bots clandestins étaient bloqués, confirmant qu’ils alimentaient bel et bien son modèle.
Image Cloudflare
Image CloudFlare
Une ligne de défense controversée
Face aux accusations, Perplexity a publié un billet de blog pour défendre sa stratégie. La société affirme que ses agents ne sont pas des scrapers destinés à l’entraînement de modèles, mais des assistants numériques distincts, accusant Cloudflare de confondre menaces et innovation.
Mais beaucoup jugent cet argument un peu fallacieux : comme le rappelle Cloudflare, l’objectif d’un robots.txt est clair -protéger les sites web, leur trafic et donc leurs revenus. Permettre à une IA de livrer des réponses complètes sans rediriger l’utilisateur vers la source met directement en péril la pérennité des sites humains, essentiels à l’existence même des modèles d’IA.
Contrairement à Apple, Google ou OpenAI, qui respectent les robots.txt, Perplexity jouerait donc la carte du passage en force. Cette stratégie pourrait ternir durablement son image. Déjà, certains évoquent un coup dur pour ses discussions avec Apple, qui aurait envisagé une acquisition en 2024. Cupertino, qui insiste sur un approvisionnement éthique des données pour Apple Intelligence, semble aujourd’hui vouloir garder ses distances avec une start-up considérée comme peu fiable.
Apple, l’anti-thèse de Perplexity ?
Apple avait déjà dû affronterdes critiques en mai dernier après la découverte qu’Applebot collectait des données web depuis plusieurs années. Mais la firme assure que ses pratiques respectent robots.txt et qu’aucune donnée utilisateur privée n’est utilisée pour entraîner ses modèles.
En misant sur un mélange de modèles locaux, de calculs déportés sur un cloud privé alimenté par des énergies renouvelables, et en s’engageant à ne jamais exploiter les requêtes des utilisateurs, Apple entend incarner une alternative éthique et responsable.
À l’heure où la concurrence s’accélère, la polémique autour de Perplexity souligne l’importance croissante de la confiance et de la transparence dans l’IA générative.