Extraction titre, image, contenu d'une page Web

Dans le cadre d’un projet, nous cherchons a extraire le contenu d’une page HTML un peu comme le fait Google+. Pour l’exemple, on copie une URL d’un article intéressant et il faudrait choper le titre, le début de l’article et une illustration.

Connaissait vous des bibliothèques qui pourrait m’aider, je connais déjà readability mais il y en a peut-être d’autres.

Quelle techno ?

En java il y a Jsoup.

Il y a HInclude qui répond à ta problématique mais j’ignore si c’est utilisé.

Edit : ça a l’air naze, ça ne fonctionne que sur le même site, je me souvenais d’une solution moins limitée mais je ne retrouve plus son nom.

Sinon un bête parser XML (ne pas se fier au nom, le HTML est une forme de XML donc ça peut être lu) ne fait pas ce que tu demandes ? Choper le titre c’est simple. Récupérer l’article, c’est quasiment à faire au cas par cas pour chaque site, la structure sera différente à chaque fois …

Alors, vite fait…

Le plus simple, mais pas le plus universel,  c’est de chercher les métas « og » http://ogp.me
Les sites « modernes » les utilisent pratiquement systématiquement, ça sert à nourrir google plus, facebook, etc. Tu trouveras fatalement titre, résumé, image.

Tu peux compléter en chercher leur équivalent twitter, les cards, mais à priori tu auras les mêmes infos.

Une autre piste serait de taper sur les flux rss si ils existent.

Si ensuite, ta page cible ne contient pas ça, ça va être plus rigolo…

  • le titre va être facile à trouver (la balise ou parsing des h1)
  • le résumé, beaucoup moins (chercher les classes nommées content,article, etc)
  • l’image, chercher les images inclues dans la partie contenu définie au point précédent.

Par contre, ça doit se faire à la main (exemple fonctionnement de facebook, lorsqu’il ne retrouve pas ses petits, il te propose de choisir l’image principale, le résumé, etc)

Ensuite, ce comportement peut être stocké pour le-dit site (voir ça peut être élargi au moteur le faisant tourner si il est repérable et prédictible, exemple wordpress)

Je continue à jeter un oeil sur ce thread pour voir si il n’y a pas un outil qui fait ça magiquement :wink:

[quote=“bdfck, post:4, topic: 55049”][/quote]

Merci, c’est exactement le genre d’informations que je recherchais, couplé ça avec JSoup (merci Twin), ça sera parfait pour débuter.

[quote=“Moe, post:3, topic: 55049”][/quote]
En théorie oui, en pratique, une chance sur trois que le HTML soit pas valide. Il faut un parser laxiste…

[quote=“Twin, post:2, topic: 55049”][/quote]
Ou Beautiful Soup en python http://www.crummy.com/software/BeautifulSoup/