Bonjour,
J’ai acheté récement un pda simple et pas cher (Palm Z22). Ce petit palm a une fonction infrarouge, et mon pc portable aussi. Je peux transferer des fichier textes sur mon pda très facilement.
Je me suis dit, tiens pourquoi pas j’aimerai bien lire sur mon pda les pages issu de mes flux rss quotidiens. C’est principalement celui du journal “le monde”.
Jusque là pas de problème, suffit de copier coller sur un fichier texte les articles qui m’interressent et les envoyer sur le pda. Le seul problème c’est que c’est assez long, et plutot fastidieux faire ca tout les matin ca me tente pas trop.
Alors s’arrete ma vie et viens mon problème de python :
J’arrive à extraire les liens des flux rss, puis j’arrive à recuperer le code html des pages qui m’interressent tout ca bien rangé dans un fichier texte mais bon lire du html c’est pas la joie. Alors j’ai voulu transformer mon code html en format texte simplement. J’ai trouvé plusieurs solutions tel que html2text. Le problème de toutes les solutions que j’ai trouvé, c’est que ca foire à la transformation à cause des accents.Je suis un vrai novice en html (enfin je pige comment ca marche en gros mais je me suis jamais intérréssé à ca).
J’ai commencé par essayer de resoudre 1 à 1 les problèmes, en remplacant les accents, puis les pontuations éxotiques, mais j’en vois pas la fin. J’ai ajouté des fonctions tel que celles présentés sur cette page mais je trouve que ca rend assez lourd une simple (je le pensais) transformation. Et finalement je suis un peu perdu dans toutes ces transformations, qui modifient le code source html, et qui le rends surement impropre à la moulinette html2text…
En cherchant plus, et en demandant à quelques personnes, j’ai envisagé d’encoder le code html en utf-8, mais je ne vois pas comment, et je ne n’ai pas trouvé (ou pas compris) un solution à cette possibilité.
Je viens ici pour vous demander si quelqu’un n’aurait déjà eu ces problèmes, et si quelqu’un n’aurait pas un solution plus simple pour obtenir à partir d’un code source html, la présentation en format txt.
Merci d’avance B).
ps : j’ai tenté de voir si il n’y avait pas un balise html particulière qui me permettrait d’extraire le texte voulu, mais mes connaissances en html étant assez réduite, je n’ai pas réussi à en trouver une.
Données d’exemple : article du monde