J’aimerais mettre en ligne des fichiers avec du contenu de type texte mais je ne voudrais pas que leur contenu soit indexé par les bot de recherche genre googlebot.
J’ai par exemple l’impression que les .doc sont scannés et référencés, je me trompe ? Quid du PDF ? Une autre proposition ?
une question con, mais si tes doc sont dans un repertoire qui n’est pas pointé par une page html, les robots ne les voient pas non ?
je veux dire, tu as un site www.toto.com, et tu créés un repertoire /documents_a_moi.
Si rien ne pointe sur ce repertoire dans les pages de ton site, comment les robots pourraient avoir connaissance de ce repertoire, et donc l’indexer ?
Parce que moults sites et browser lancent une requete ou un tracking des infos de ce que tu navigues. Donc du coup, imagine, tu tapes ton url dans la barre de chrome, elle se retrouve sur les serveurs de google qui va tenter de la parser. Et ton url est sur le net. Je sais pas si je suis tres clair, mais ca me parait deja au moins une possibilité.
ah effectivement, j’avais pas vu ca comme ca, mais tu supposes ou tu sais que ca marche comme ca ? Parce que je crois pas avoir vu de robot indexer des répertoires non referencé dans du php / html
C’est une légende urbaine. Les bots (du moins, les officiels, comme ceux de google) ne prendront jamais en compte le referrer (url d’origine) en se disant « oulah il faut indexer cela ».