Automatiser par un robot l’utilisation d’un moteur de recherche/formulaire web?

Hello,

Je vais bientôt me mettre à mon compte et une partie de mon activité de service va reposer sur des réponses à des marchés publics, que je vais trouver en grande partie sur le site officiel : Recherche BOAMP | boamp.fr — boamp.fr

Comme j’ai horreur des tâches répétitives, j’aimerais automatiser un peu mes recherches sur cette page.

Je sais qu’il existe des prestataires qui font le job, mais aujourd’hui mes besoins sont très modestes et comme je démarre, mes moyens sont loin d’être illimité aujourd’hui !

Du coup j’ai trois questions :

  • Est-ce que c’est « répréhensible » de développer un « robot » pour interroger un site internet ? En sachant que globalement je vais avoir une dizaine éventuellement vingtaine de recherches différentes à faire par semaine.
  • Par où commencer pour développer un mini robot comme ça ? des idées des pistes ?
  • Est-ce que c’est quelque chose qu’on peu demander à un dev ? Pour des € ? :slight_smile:

Mes compétences en dev se limitent à ce que j’ai appris en école d’ingénieur il y a 20 ans (un peu de PHP, de java, sql, VBA, …). J’aime bien ça et ça ne me dérange pas de galérer un peu, mais je pars de tellement loin ! :sweat_smile:

J’aurais surtout besoin de remplir automatiquement les champs et de télécharger les résultats voire les docs liés.

Ça dépend des données qui sont sur le site (informations personnelles), de la bienveillance des propriétaires du site et de comment tu t’y prends. Je prends un exemple, Pronote, l’infâme mais incontournable appli utilisée par l’éducation nationale, qui sert à gérer pleins de trucs, qui permet aux parents et aux enfants d’accéder à leur emploi du temps, leurs notes et les messages envoyés par les profs. Ça a été jugé illégal de distribuer des APIs Javascript et Java permettant d’exploiter les données en dehors du site.
En pratique, si t’es pas idiot, que tu ne bourrines pas trop le site et que ton outils de « scraping » ressemble à peu près à un navigateur standard, t’as bien peu de chances de te faire attraper. C’est une pratique ultra courante sur les sites marchands, pour espionner les concurrents.

Niveau outillage, il y a des tas d’outils dédiés à ça, perso j’utilise que JSoup en Java, mais il y en a des tonnes. C’est pas très compliqué si tu t’y connais un minimum en HTML, DOM, XML et Json.

Ce qu’il te faut, c’est un navigateur « headless » si tu veux programmer un robot qui passe « presque inaperçu » et ne pas avoir de problème de js (par exemple).

Sinon tu peux passer par des soft comme automator pour « programmer » une routine si la page ne change pas trop.

@Norman :

Il y a longteeeemps (1995 ?) j’avais participé à logiciel en Access pendant un stage pour une micro société consolidant les Boamp.

Inutile de dire qu’internet était balbutiant : je crois que ça passait par de l’OCR de pdf.

Tout ça pour dire que le Boamp c’est censé être publique.

Regarde là, ça ressemble peut-être à ce que tu veux.

1 « J'aime »

Merci pour vos réponses, je vais regarder de plus près vos proposition que je ne connais pas du tout :rofl:

Pour la caractère public des données j’ai aucun doute, c’est même un peu le but du BOAMP ! Et vu le nombre de prestataire qui exploitent les données et vendent des services clé en main pour l’explorer …

Je connais bien PRONOTE, madame est prof :slight_smile: et effectivement c’est blindé d’information perso. Ce qui n’est pas le cas du BOAMP.

C’était plus sur la sollicitation par un robot d’un site internet que j’avais une interrogation, même si j’ai conscience que vu le volume de mon besoin ça soit pas vraiment un problème.

Voici sur github visiblement des projets qui ont déjà été réalisés pour récupérer les données du BOAMP.

Le même du plus récent au plus ancien.

Et je vois par exemple les sites ci-dessous.

Après tout dépend si tu veux des moulinettes à modifier aux petits oignons ou si un truc déjà réalisé te convient.

Super, ça a l’air de faire le café pour ce que j’en vois rapidement ! :partying_face:

Je ferrai des tests ce week-end pour voir si j’arrive à sortir la même chose qu’à la main dans le moteur de recherche. Et surtout voir si je me sors pour le faire fonctionner, c’est un peu intimidant GITHUB pour moi … :fearful:

Mais effectivement, comme je me sers pas mal des filtres et des conditions pour cerner spécifiquement des AO, j’arriverai peut-être pas à faire la même chose. Mais je pense que ça devrait suffire et surtout ça me demandera moins d’efforts ! :rofl:

1 « J'aime »

Vu que les 2 projets utilisent Python:

Les donnes sont en accès libre sur data gouv : BOAMP - data.gouv.fr
Ça sera peut être plus simple de te baser là dessus.
Ils fournissent même une api, tu peux te bricoler un truc pour automatiser tout ça. C’est là dessus que les sites de veilles d’annonces l’appels d’offre se base pour leur veille.