Récupérer des données en ligne, régulièrement

ghigis · Juillet 13, 2010, 12:16

Bonjour la zone,

Chaque jour est publié les consommations électriques française par type d’énergie sur le site de la RTE :
http://www.rte-france.com/fr/developpement-durable/maitriser-sa-consommation-electrique/consommation-production-et-contenu-co2-de-l-electricite-francaise

Les données sont téléchargeables via une liste déroulante et j’aimerais récupérer ça automatiquement pour compiler au fil des jours les statistiques et faire de merveilleuses choses avec

Voilà c’est tout :flowers:

Donjohn · Juillet 13, 2010, 1:33

ouvre le code et regarde le bouton :

<form action="http://clients.rte-france.com/servlets/MixtrServlet?dl=DATAJOURXLS" method="post">
<label style="font-size: 1.3em;">S&eacute;lectionnez une date de publication :</label>
<select name="jour" id="dlJour" style="font-size: 1.3em;">
</select>
<input name="dl" value="T&eacute;l&eacute;charger" style="font-size: 1.3em; vertical-align: baseline;" type="submit" />
</form>

c’est un form tout con sur une page externe

donc…

avec un cron, tu utilises en php la librairie cURL, chaque jour tu ouvres la page chez RTE, en post, en mettant la bonne date. Tu sauves le retour dans un fichier zip et tu traites.

Est ce qu’ils ont bloqué les appels extérieurs… c’est possible

anon10092024 · Juillet 13, 2010, 2:49

Donjohn:

ouvre le code et regarde le bouton :
<form action="http://clients.rte-france.com/servlets/MixtrServlet?dl=DATAJOURXLS" method="post">
<label style="font-size: 1.3em;">S&eacute;lectionnez une date de publication :</label>
<select name="jour" id="dlJour" style="font-size: 1.3em;">
</select>
<input name="dl" value="T&eacute;l&eacute;charger" style="font-size: 1.3em; vertical-align: baseline;" type="submit" />
</form>
c’est un form tout con sur une page externe

donc…

avec un cron, tu utilises en php la librairie cURL, chaque jour tu ouvres la page chez RTE, en post, en mettant la bonne date. Tu sauves le retour dans un fichier zip et tu traites.

Est ce qu’ils ont bloqué les appels extérieurs… c’est possible

C’est pas bloqué :

Error 500--Internal Server Error
From RFC 2068 Hypertext Transfer Protocol -- HTTP/1.1:
10.5.1 500 Internal Server Error

The server encountered an unexpected condition which prevented it from fulfilling the request.

Faut juste trouver le format de DATAJOURXLS

fser · Juillet 13, 2010, 6:02

ouine doze, ou linux?

xentyr · Juillet 13, 2010, 8:28

http://clients.rte-france.com/servlets/MixtrServlet?dl=DATAJOURXLS&jour=13/07/2010 te renvoie bien un zip contenant le tableau excel pour le 13/07

En appelant http://clients.rte-france.com/servlets/MixtrServlet?dl=LASTDATE et en jouant rapidement avec la réponse, tu obtiens une liste de toutes les dates disponibles web, mais visiblement on peut remonter plus loin dans le passé (j’ai récupéré des data de 2009 sans problème).

anon10092024 · Juillet 13, 2010, 10:17

j’avais essayé 13072010, pas pensé a essayé la date avec les /

ghigis · Juillet 14, 2010, 3:56

cron ? PHP cURL ? WAT !?

Je n’y connais rien en programmation Web, j’aurais dû prévenir. Je suis sous PC ou Mac.

J’ai bien vu le système de dates (mais pas la commande utilisée par xentyr, c’est pratique) et le seul truc qui me dérange est : comment les récupérer directement les fichiers zip sans devoir passer par le site. Par un exécutable et trois bouts de code, ça serait parfait. Je répète : je ne sais même pas où regarder pour choisir le langage ou les fonctions kivontbien.

xentyr>comment tu as récupérer les données 2009 ?

Merci :flowers:

Donjohn · Juillet 14, 2010, 5:03

Tu ne peux pas ne PAS passer par le site. Vu que c’est sur le site que les stats sont générés.

ghigis · Juillet 15, 2010, 8:43

Double négation : je peux donc le faire ?

Il y a bien un moyen de récupérer les fichiers sans devoir utiliser systématiquement son browser, non ?

ZGoblin · Juillet 15, 2010, 8:49

Oui wget mais ça nécessite un minimum de dev, mais tu n’y connais rien en dev. Donc on tourne un peu en rond.

kaneloon · Juillet 15, 2010, 8:49

Justement, cURL est un programme en ligne de commande qui lance une requete http (ou autre) et qui récupère la réponse du serveur, sans passer par un browser.

anon10092024 · Juillet 15, 2010, 8:53

Pas exactement : tu es OBLIGE de passer par le site pour recuperer tes fichiers

oui, mais ca sera une interrogation http quand meme, vu que les données sont sur le site. Pour ca, tu peux utiliser wget, comme mentionné par zgoblin, avec un script, ou programmer un truc en java, php, n’importe quel langage qui offre une librairie pour interroger un site web (soit tout les langages aujourd’hui ).

Tu peux aussi regarder du coté des plugins firefox style downthemall, qui offre la possibililté de lancer des téléchargement sur des masques avec variable. Ca pourrait faire l’affaire ici.

Donjohn · Juillet 15, 2010, 1:06

Faut exécuter la requête en POST, pas en lien direct comme le proposerait downthemall.

En résumé, tu veux récupérer des données via un site pour les traiter et les intégrer pour en faire des stats, sans savoir programmer. On t’a donné la méthode à suivre reste le code à pisser.
Demande à quelqu’un qui a du temps pour faire ce que tu veux (ie : pas moi) car tous les obstacles techniques ont été levé, c’est l’histoire d’une aprem au pire (le plus long sera le traitement de tes données imho ;))

anon10092024 · Juillet 15, 2010, 1:12

Tu es sur que ca marcherait pas en passant le lien direct avec comme variable la date du jour ?

Donjohn · Juillet 15, 2010, 1:29

j’avoue pas testé ^^ mais le form précise bien la method post… est ce qu’ils différencient avec GET, j�??espère pour eux

xentyr · Juillet 16, 2010, 4:43

Visiblement, GET ou POST, même combat ici ^^

ahem

Méthode de grouik si tu sais pas coder (j’ai presque honte en l’écrivant :D) :

tu récupères DownThemAll! ou autre module firefox du même type
tu te crées une page HTML locale avec les liens des dates de la période concernée
paf bouton droit
tu lances un dé de 6, si ça tombe entre 1 et 6, tu attends la période suivante sinon va à la page 42
retour au step 2.