PDF et caractèresàlacon

Bonjour la zone,

J’essaie en vain (et après google-fu intensif) de comprendre pourquoi, POURQUOI certains de mes foutus fichiers PDF de cours s’évertuent à être non-copiables. Pour de basses raisons de gain de temps, j’essaie en effet de récupérer au moins la structure de certains chapitres pour les rebosser derrière et… ça merde, puissance 10.

tl;dr pour faire simple, une copie depuis ledit fichier pdf donne ce ramassis infect de caractères spéciaux :

[codebox]'ø "×fi º7º·²·¨ Ê
› Ô»­ ª¿®·¿¾´»­ ø±« ±¾¶»¬­÷ ¿½½»­­·¾´»­ »² ´»½¬«®» ±« 7½®·¬«®»
› Ô¿ ³¿²·8®» ¼±²¬ ½¸¿¯«» ª¿´»«® »­¬ ·¼»²¬·º·7»ô ²±³³7»
› Ԑ·²¼·½¿¬·±² ¼» ´¿ º¿9±² ¼±²¬ ´»­ ª¿®·¿¾´»­ ­±²¬ »²½±¼7»­ ­«® ´»
Æ7­ªø´
› ݱ³³»²¬ ½¸¿¯«» ª¿´»«® »­¬ ·²¬»®°®7¬7»
'ø "×fiÛ× °´·­ ¥ø "×fiÛ×× ¯­±² ª®¨ª²­·±²Ù ­±´™ª²¨ ²±³³7ª "×fi
¹7²7Æø¥·­¨ª˜ º7º·²·­­ª²¨ ´² ­±´­Ûª²­ª³æ¥ª ³·²·³´³ º˘±æ¶ª¨­Ù ¥ªØ´ª¥
› Ü»ª®¿·¬ 6¬®» ½±³³«² @ ¬±«­ ´»­ 7¯«·°»³»²¬­ ¼·¬­ ÍÒÓÐ
› ß ´±®·¹·²»ô °´«¬,¬ ¿¼¿°¬7 @ ´ù¿¼³·²·­¬®¿¬·±² ¼»­ ®±«¬»«®­
› Ü« º¿·¬ ¼» ­¿ °¿«ª®»¬7ô º¿ª±®·­»®¿ ¿« ¼7¾«¬ ¼» ÍÒÓÐ ´»
º7™ª¥±°°ª³ª²¨ ºª­ "×fi °Æ·™7ª­ °±´Æ ¥ª­ 7Ø´·°ª³ª²¨­ ­°7½·ø¥·­7­
¯¸´æ­Ù °±²¨­ùºø²­ ¥êø¨¨ª²¨ª ºª ¥êª²Æ·½¸·­­ª³ª²¨ ºª­ "×fi º´
­¨ø²ºøƺ˜
ÔÏ
'ª­ « ×fi ª² °Æø¨·Ø´ª
'ø º7º·²·¨·±² ºª ¥ø « ×fi º7¨ªÆ³·²ª ¥ª­ ¥·³·¨ª­ ºª ½ª Ø´· °ª´¨ 6¨Æª
¹7Æ7
Õ » »– º±´Æ²·¨ ¥ª °Æ±¨±½±¥ª °±´Æ ¥ø ³ø²·°´¥ø¨·±² ºª­ ™ø¥ª´Æ­ ºª­
±æ¶ª¨­ ºª ¥ø "×fi
'ª­ ½±²­¨Æ´½¨ª´Æ­ ±²¨ º7™ª¥±°°7 ª¨ ½±²¨·²´ª ºª º7™ª¥±°°ªÆ ¥ª´Æ­
°Æ±°Æª­ "×fi °±´Æ ´²ª øº³·²·­¨Æø¨·±² ±°¨·³ø¥ª ºª ¥ª´Æ­
7Ø´·°ª³ª²¨­ °Æ±°Æ·7¨ø·Æª­
'ª­ "×fi º´ ­¨ø²ºøƺ 7™±¥´ª²¨ ºª ³ø²·8ƪ @ Æ7º´·Æª ¥ª 檭±·² ºª
"×fi °Æ·™7ª­
› Ü» ²±«ª»´´»­ Ó×Þ ­°7½·¿´·­7»­ ­±²¬ ½±²­¬¿³³»²¬ ¿¶±«¬7»­ ¿«¨
­¨ø²ºøƺ­
L[/codebox]

On ne dirait pas comme ça, mais ça parle de SNMP. (Dingue hein.)
Alors copier depuis un pdf protégé, ok, déplomber un fichier pdf, ok (même si c’est moche).
MAIS LA ?

Je suis preneur de toute explication rationnelle :slight_smile:

quel codage de caractere iso, ascii,…

Tu es en train de dire, que ton fichier pdf lisible normalement, lorsque tu tentes de faire un copier coller d’un ptit paragraphe, word te fou ca ?
Tu peux nous filer ton fichier pdf ? Si pas top secret.

@edit: sinon tu as la possibilité de faire un copier ecran/ Impression de ton fichier image / scan / OCR.

Ok c’est brute.

Le PDF est protégé contre la copie. Il me semble que c’est une option qu’on peut activer dans Acrobat.

Edit : bon en fait, après une petite revue de Web, certains logiciels créés des pdf moisis dont les caractères sont mal enregistrés. Ce n’est pas forcement une protection. Du coup mon post ne sert à rien…

Si ton texte n’est pas sélectionnable (ou que le rendu est assez étrange), cela peut être du au fait que, parfois, les polices de caractères sont inclues dans le pdf en tant que dessins vectoriels (compatibilité extrême avec n’importe quelle plateforme). Ton texte devient alors une simple succession de figures vectorielles n’ayant plus aucun sens sémantique…

Si tu te trouves dans ce cas là, cela pourrait expliquer le résultat de la copie au format texte.

J’appuierais bien Styx31 pour l’avoir vécu :slight_smile: