this post was submitted on 29 Jan 2025
12 points (100.0% liked)

Technologie - 🤖

647 readers
4 users here now

Ici concerne le champs de domaine large de la technologie : actualités sur l'informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.

Mégafil ici

founded 2 years ago
MODERATORS
 

Les détracteurs de l’IA construisent des pièges pour attraper et tromper les robots d’IA qui ignorent les robots.txt

@technologie

OP : @nicolasvivant
Un article d'Ars Technica raconte comment, pour lutter contre la récupération illégale de données par les constructeurs d'IA (sans respect pour les fichiers robots.txt), des internautes ont développé des pièges à robots.

Et comme il est en anglais, je l'ai traduit pour vous.

grenoble.ninja/pieges-robots-ia/

#IA #AI #Robot #Hackers #Hacking #Crawling #Crawlers

top 4 comments
sorted by: hot top controversial new old
[–] MyAstus@jlai.lu 3 points 3 weeks ago
[–] Bigou@thebrainbin.org 1 points 1 week ago (1 children)

@snoopy@peculiar.florist Merci pour la trad!

[–] snoopy@peculiar.florist 1 points 1 week ago* (last edited 1 week ago)

@Bigou

Merci et pardon, je ne suis pas l'auteur de la trad. je transmet à OP, (Original Poster) : @nicolasvivant

Moi je suis juste un relai. Je crosse-poste certain post de mastodon sur la commu technologie de jlai.lu (lemmy) et d'autres commus : @technologie

[–] keepthepace@slrpnk.net 1 points 1 week ago* (last edited 1 week ago)

Je comprends le sentiment, mais je compare ça à pisser dans l'océan en pensant que ça va gêner les poissons.

Vous vous êtes déjà amusé à suivre des liens d'une ferme à lien SEO? Y a des milliers, sûrement des millions, c'est un trou sans fin de pages de textes du genre "Buy cheap Armani, Trump will declare nuclear war, Armani DEALS NOW! Macron secret hideout. Get Armani sales...." et eux sont très robots friendly.

Y a une étape de nettoyage des datasets qui tente de filtrer au max tout ça.

Et même là si ça passe, ces textes n'ayant aucune articulation logique, les LLMs ne vont en apprendre aucune. Leur perplexité restera haute sur cette partie du dataset. Ça peut rendre leur apprentissage un peu plus lent et consommateur en énergie mais ça va pas les troubler plus que ça.