Indexation (ou pas) Web Bot Power

Bonjour,

J’aimerais mettre en ligne des fichiers avec du contenu de type texte mais je ne voudrais pas que leur contenu soit indexé par les bot de recherche genre googlebot.
J’ai par exemple l’impression que les .doc sont scannés et référencés, je me trompe ? Quid du PDF ? Une autre proposition ?

Merci du coup de main :slight_smile:

le pdf est scanné le word je ne sais.

Mais sinon tu les met dans un repertoire avec un htaccess basique.
Ou sinon un mot de passe sur les documents.
Sinon un zip hein.

Bussiere

Avec un fichier robots.txt tu pourras interdire aux robots d’analyser un répertoire (entre autres).

Merci, je prends le zip …

Je suis pas sûr que le zip échape au truc.
Quand tu regardes dans google codesearch il va chercher dans les tgz des sources des projets libres …

Gasp! Trop fort les bot.
Merci au passage pour le lien codesearch.

le robot.txt me fait un peu l’effet du gros bouton rouge sur lequel on indique “ne pas appuyer” :devil: . Ça dépend du bot non ?
Reste l’htaccess …

une question con, mais si tes doc sont dans un repertoire qui n’est pas pointé par une page html, les robots ne les voient pas non ?

je veux dire, tu as un site www.toto.com, et tu créés un repertoire /documents_a_moi.
Si rien ne pointe sur ce repertoire dans les pages de ton site, comment les robots pourraient avoir connaissance de ce repertoire, et donc l’indexer ?

Parce que moults sites et browser lancent une requete ou un tracking des infos de ce que tu navigues. Donc du coup, imagine, tu tapes ton url dans la barre de chrome, elle se retrouve sur les serveurs de google qui va tenter de la parser. Et ton url est sur le net. Je sais pas si je suis tres clair, mais ca me parait deja au moins une possibilité.

ah effectivement, j’avais pas vu ca comme ca, mais tu supposes ou tu sais que ca marche comme ca ? Parce que je crois pas avoir vu de robot indexer des répertoires non referencé dans du php / html

C’est une légende urbaine. Les bots (du moins, les officiels, comme ceux de google) ne prendront jamais en compte le referrer (url d’origine) en se disant “oulah il faut indexer cela”.