Aspiration de site internet

Hello,

J’ai besoin de pouvoir downloader des fichiers depuis un site internet (essentiellement des .jpg), mais en quantité industrielle (il doit y avoir genre 6000 fichiers) afin de créer une banque de donnée offline.

J’ai beau utiliser des aspirateurs de site type HTTrack, impossible de télécharger ce dont j’ai besoin, même si je connais l’emplacement exact des fichiers que je cherche, soit je ne programme pas bien

Donc pour moi, 2 solutions, soit ouvrir chaque page, télécharger l’image du truc, et ça un par un, en espérant ne pas mourrir de vieillesse avant la fin de la manip, soit utiliser un logiciel fabuleux que vous allez me conseiller.

J’ai la chance de connaitre “l’orthographe” de chaque fichier que je cherche à downloader, ainsi que le chemin exact, donc si vous avez une méthode qui me permet d’automatiser l’ouverture du document sous IE7 ainsi que sa sauvegarde dans un dossier spécifié, ben ce serait juste fabuleux (et ça sauverait un poil ma santé mentale)

Si tout les fichiers sont sur la même page, downthem all peut convenir (quoique 6000 ca fait beaucoup, ça reste à voir).

Sinon HTTrack fonctionne très bien pour ma part, donc s’il ne marche pas je ne vois pas trop ce que ça peut être (y’a pas grand chose à régler).

firefox + Downthem’all

bon combo B)

aprés pour 6 000 fichiers, jamais testé

Caf avait donné un truc sur torré avec don them all :

“C’est le moment d’installer Download Them All dans votre Firefox adoré, de cliquer “Add URL” et de rentrer la phrase magique :
http://www.nbc.com/Heroes/novels/downloads/Heroes_novel_[001-030].pdf
Pouf, les 30 fichiers en téléchargement d’un coup. De rien, ça me fait plaisir”

modifiant l’url ca devrait marcher et à la limite tu pourrais t’y prendre en plusieurs fois si 6000 c’est trop

edit : grilled by Titan

Ok, j’installe FF et DTA et je reviens vous dire quoi…

pense a FlashGot aussi sous FF

comme astrojojo
HTTrack, pas mieux B)

FF+DTA = marchà pà

Bon, le problème c’est que le serveur apache doit etre sécurisé contre ce genre “d’intrusion”, et donc si je mets l’url du dossier qu’il faut aspirer, ben il ne trouve aucun fichier à aspirer (alors qu’il y a bien du monde)

J’ai bien la logique pour les noms des fichiers (4 chiffres_2 lettres_1.jpg) mais là ou je trouve des trucs en tappant l’url à la mano dans la barre d’adresse, DTA ne trouve rien en automatique…

autre suggestion ? ou un tuto HTTrack pour les nazes wanabee-geek comme moi ?

freedownload manager ( http://www.01net.com/telecharger/windows/I…ches/30033.html )
net transport (l’ancienne version gratuite : http://www.clubic.com/telecharger-fiche111…-transport.html )

-> ils supportent tous les 2 un user / pwd, la gestion des ports et de se faire passer pour tel ou tel client (mozilla / IE) ainsi que "je télécharge un fichier à la fois l’un après l’autre : anti leech) : testés sur des sites rétifs B)

bon courage !

edit : liens

Bon, sinon tu peux toujours essayer de passer par Teleport Pro. Mais il y a une license.

En outre, je suis pas certain que tu arrives à quelque chose. Disons que j’utilisais Teleport Pro avant de découvrir DTA

J’ajoute wget en ligne de commande qui fait ce que tu veux

Flashget a un explorateur de site bien pratique B)

Problème : la methode freedownload manager ne fonctionne pas non plus…

Je ne sais pas si j’ai été bien clair, mais je vais reprendre parce que même moi j’ai du mal à me comprendre :

j’ai besoin d’aller prendre des fichiers .jpg et .pdf qui se trouvent dans un dossier avec l’arbo suivante : http://www.mesgenoux.fr/rubriques/database…ges/full_scans/
mes fichiers sont TOUS du genre 1234_U_1.jpg

Sauf que, quand je fais pointer mon aspirateur ou mon downloader sur http://www.mesgenoux.fr/rubriques/database…ges/full_scans/ ben il ne me charge qu’un fichier index.html qui ne correspond à rien, où pire encore, il m’envoit directement sur http://www.mesgenoux.fr sans passer par la case départ et sans toucher 20.000 francs…

Donc y a t’il un logiciel qui saurait me downloader mes trucs automatiquement, genre tu donne l’URL source, en lui disant qu’il télécharge les fichiers 0000_U_1.jpg jusqu’à 9999_U_1.jpg, en incrémentant automatiquement de 1 à chaque coup, et en éliminant automatiquement les erreurs 404 (oui, parce qu’il n’y a pas de fichier 2000_U_1.jpg alors qu’il y a bien un 1999 et un 2001…)

Ah oui, je n’ai pas de droits aucuns sur ce site, sauf que tout ce qui est à cet emplacement est publique et est plutot à vocation de distribution, donc pas de problèmes de légalité de chopper les trucs là dessous…

Avavrin : Ligne de commande… hu hu hu… non, je suis pas assez geek pour ça…

tu pourrais nous mettre l’adresse du site pour qu’on expérimente ?

A une époque, j’utilisais ça, et j’en étais très content.

[quote=“BarracuddA, post:13, topic: 34838”]Problème : la methode freedownload manager ne fonctionne pas non plus…

Je ne sais pas si j’ai été bien clair, mais je vais reprendre parce que même moi j’ai du mal à me comprendre :

Donc y a t’il un logiciel qui saurait me downloader mes trucs automatiquement, genre tu donne l’URL source, en lui disant qu’il télécharge les fichiers 0000_U_1.jpg jusqu’à 9999_U_1.jpg, en incrémentant automatiquement de 1 à chaque coup, et en éliminant automatiquement les erreurs 404 (oui, parce qu’il n’y a pas de fichier 2000_U_1.jpg alors qu’il y a bien un 1999 et un 2001…)[/quote]
down them all le fait va sur url et essaye ca :
http://www.mesgenoux.fr/rubriques/database...ges/full_scans/[0000_U_1-2000_U_1].jpg

remplace mesgenous par ton site et normalement ca marche je viens de télécharger près de 1000 strips de megatokyo comme çà

P@co : Ca marche !

Bon, par contre, je vous conseille pas de démarrer 10.000 scripts d’un coup, ça encombre un poil le PC…

Merci bien en tout cas, je vais en avoir pour un bon bout de temps, mais ça simplifie vraiment ma tache.

No offense, mais j’ai l’impression que c’est ce qu’il voulait, la ligne directe a entrer dans DTA. Fallait reflechir un minimum…

C’est surtout moi qui n’a pas réussi à juste lire la boite de dialogue dans laquelle tu fais la recherche… J’ai des fois l’impression que je suis un noob, mais vous n’avez même pas idée (et en plus c’est simple, mais simple…)

Tu peux aussi faire un bout de code qui génère un script bash qui va tout enregistrer avec wget

Sinon j’espere qu’il y a des jolies loutres sur tes images