Les bots : comment ça marche ?

Voilà, je consulte assez régulièrement les stats de mon blog et ceci m’a ammené à me poser des questions (beaucoup) qui sont peut-être un peu bêtes mais bon, il n’est jamais trop tard pour apprendre :

-qu’es ce qu’un bot ?
-qu’es ce qu’il fait ?
-Comment ça marche ? par exemple google image.
-Qu’es ce qui fait qu’une image sur google arrive en tête des réponses à une recherche.

Parce que j’ai quotidienement des msnbot.msn.com, fj5004.inktomisearch.com, crawl20.dir.com et autres qui viennent me rendre visites et qui regarde 60 ou 80 fois l’index en quelques secondes.
Et je suis assez surpris de voir que les gens arrivent chez moi en recherchant aiolia dans google.

Les 20 premiers Mots-clés
aiolia 497 18.79%
kill 294 11.12%
bill 292 11.04%

Les articles wikipédia sont intéressants.

Mon avis qui doit sûrement être faux (je réponds avec le sbribes que j’ai entendu ici et là en fait) :

-qu’es ce qu’un bot ? qu’es ce qu’il fait ? un « robot », un PC, qui scanne le web et recense les sites webs dans une base de données.
-Comment ça marche ? Qu’es ce qui fait qu’une image sur google arrive en tête des réponses à une recherche ? alors il me semble que ça scanne le web, et puis pour Google ça regarde le nombre de liens qui pointent vers le site, il définit comme ça la popularité : plus des gens renvoient vers ton site avec certains mots-clefs, et plus le site sera placé haut. C’est comme ça qu’en cherchant « silly » ou des mots dans le genre (je crois) on tombe (tombait ?) sur la biographique de G.W.Bush

Je me cache en attendant des avis plus éclairés :stuck_out_tongue:

Woups, grilled, tant mieux, lis Wikkipedia y aura sûrement beaucoup moins d’erreurs :stuck_out_tongue:

merci petit prince.
Visiblement je ne sais pas dans quoi je foure les pieds.
Je me suis lancé dans une recherche à tiroir et je me rend compte que je ne sais rien et que comprendre comment ça marche en profondeur n’est pas si évident.

Je retourne m’instruire.

Bon en fait ta question c’est « comment ça marche le référencement ? » :stuck_out_tongue:
J’essaye de faire clair et concis.
Nos amis les moteurs (google, yahoo, msn…) lancent des robots sur la toile. Ce sont simplement des programmes qui fonctionnent comme des navigateurs autonomes intelligents. Ils vont de de sites en sites puis de pages en pages afin d’en analyser le contenu. Pour bondir d’une page à l’autre ils se basent tout simplement sur les hyperliens. Quand ils analysent le contenu, ils appliquent un certain nombre de régles pour déterminer le(s) sujet(s) de la page.
Dans un premier temps, les informations « rapportées » par les robots sont stockées dans les index des moteurs de façon « assez simple ». Précision : l’index est simplement ce qui permet de faire le lien entre des mots-clefs et des pages.
Puis, toutes les n semaines, l’index est remanié intégralement en appliquant des algos plus complexes sur l’intégralité des informations (et y en a un paquet).

C’est pour cette raison que, lorsque l’on fait une première mise en ligne, ou une première optimisation pour le référencement, le résultat est très agréable : on arrive très vite dans les premières positions. Les moteurs considèrent que ce qui est « nouveau » a plus d’importance que ce qui est établi depuis un certain temps. Et puis il y a aussi le fait que la première passe d’analyse et application de règles est relativement simple (le relativement est très relatif, ce sont des algos de fous furieux :P) Mais après le remaniement de l’index (chez Google on l’appelle la Google Dance) ça peut faire redescendre… ou mieux faire arriver en pôle position.

Les règles des robots varient assez peu d’un moteur à l’autre (google, yahoo, etc.) et sont plutôt bien connues aujourd’hui. Car, il faut savoir que, bien évidemment, Google et les autres ne diffusent pas leurs règles. Donc tout ceux qui font du référencement travaillent de façon empirique. Et ce, d’autant plus que les algos évoluent.

Google a connu son grand succès grace à une idée toute conne : améliorer la pertinence de la recherche par la popularité des pages. C’est le fameux PageRank.
A l’époque où GG a démarré, les principaux moteur (Yahoo, Altavista) étaient devenus des usines à sites de cul. Ils se basaient uniquement sur le contenu en utilisant des critères relativement peu sélectifs. Donc une bête liste de mots en noir sur fond noir était prise en compte.
Google a commencé par éliminer ces méthodes. Son robot arrive sur la page, fait un pseudo rendu pour déterminer ce qui est une vraie information (visible et cohérente) et élimine tout ce qui lui semble de la « triche ».
Ensuite, pour définitivement assoir la pertinence, Google se base sur les liens qui mènent à la page en cours d’analyse. Si ils sont nombreux, et de qualité, ie. venant de sites à bon contenu et bonne popularité, alors la page gagne en popularité et monte dans les position de l’index.

Pour infos, les critères les plus courants, et les plus efficaces :

  • Titre de la page : cohérent (phrase), concis avec 20 à 30 mots clefs.
  • Contenu : redondance des mots, cohérence générale, cohérence avec le titre de page.
  • Forme du contenu : gras, souligné, balises header pour les inter-titres sur les mots-clefs/phrases importantes.
  • Images : toujours remplir la balise ALT
  • URL rewriting : faire en sorte que l’URL de la page soit de la forme www.monsite.com/le-titre-de-l-article.html
  • Encore mieux : http://sujet-general-du-site.monsite.com/titre-article.html
  • Etc, etc.

Le référencement est un sujet passionnant. Avant d’appliquer les méthodes et techniques sur mon site pro, j’ai testé sur mon site perso (histoire d’éviter de faire des conneries) et j’avoue être assez fier du résultat :stuck_out_tongue: Essayez donc « tour d’europe à moto » dans Google et voyez qui arrive en première position B)
Je n’ai pas encore fait le tour de toutes les méthodes (cloaking, satellites), certaines étant assez risquées car considérées comme illicites par les moteurs.

EDIT :
J’en profite pour rajouter que le référencement peut même donner lieu à des compétitions/concours. Nous avons eu le concours du meilleur positionnement sur Google pour la phrase « mangeur de cigognes » et la même chose sous MSN pour « sorcier glouton ». C’est avec ce genre de concours qu’on découvre de plus en plus de subtilités dans les méthodes de référencement. D’après ce que je sais, tous les coups sont permis et c’est ainsi qu’on a pu découvrir des méthodes « d’anti-référencement » pour faire baisser les concurrents. Ca joue sur tout un tas de techniques basées sur les redirections.
Ca aussi donné lieu à des topics surréalistes sur les forums où les participants se font des échanges de « backlinks » : je fais un lien sur ton site, tu me fais un lien sur ton site, etc. Sachant que plus on a de « bons » backlinks, plus le PageRank augmente. Mais sachant aussi que de « mauvais » backlinks font descendre le PageRank. Sauf que finalement, on a découvert que le PageRank n’était pas un critère majeur dans le positionnement.
Et ainsi de suite… :stuck_out_tongue:

Pour ceux qui veulent approfondir le sujet, je conseille http://www.webrankinfo.com, http://www.abondance.com et http://www.webmaster-hub.com

EDIT 2 :
Les référenceurs professionnels.
Dans ce domaine là, il y a beaucoup d’arnaques !
En effet, un site bien référencé est tout simplement un site conçu pour le référencement. Pour un site existant, cela signifie qu’il faut mettre les mains dans le cambouis et dans la plupart des cas : tout refaire.
La plupart du temps, ils proposent un pack forfaitaire en précisant bien qu’il n’y a aucun garantie de résultats. Après avoir payé on reçoit deux ou trois pages HTML avec du contenu vaguement optimisé. C’est mieux que rien, mais bon…

Toutefois, les référenceurs peuvent aussi faire un boulot « manuel » long et pénible en allant soumettre le site aux annuaires. Attention, je précise bien : les annuaires, pas les moteurs. Les moteurs fonctionnent par robots et la soumission ne sert quasiment plus à rien.
Les annuaires sont souvent oubliés, et à tort.
Beaucoup d’internautes passent par les annuaires de leurs FAI (free, AOL) ou ceux de portails (Yahoo, MSN, etc.) Il y a aussi les annuaires spécialisés sur un sujet donné. Donc, pour les annuaires, il y a tout un travail de veille technologique et de marketing à faire.

Y a encore d’autres choses, mais là j’ai mal aux doigts et Koh-Lanta va commencer :-

D’autres questions ? :wink:

Antoine

[quote name=‹ AntoineViau › date=’ 12 Aug 2005, 16:00’]D’autres questions ? :stuck_out_tongue:

Antoine[/quote]

Attends un peu que je digère tout ça et que je rentre chez moi (parce qu’au taf c’est pas évident non plus) et je risque fort d’en avoir.
des questions.

[quote name=‘AntoineViau’ date=’ 12 Aug 2005, 15:00’]pleinplein de choses
[right][post=“385462”]<{POST_SNAPBACK}>[/post][/right][/quote]
C’était vraiment très intéressant (et c’est pas ironique!). Merci bien.