Compter avec un éditeur de texte

Phral · Octobre 9, 2008, 3:27

Bonjour, j’ai un petit besoin.

Je souhaite compter le nombre de fois qu’un mot apparait dans un texte, cela sous forme de tableau. Par exemple :

Bonjour : 1
Comment : 5
Allez : 2
Vous : 8

Un résumé sous forme de liste pour voir les répétitions contenues dans le texte.

Pour taper le texte, j’utilise Word mais je n’ai rien trouvé qui correspondait à ce que je cherche du coté des macros/plugins et rien de tel n’existe dans les statistiques. Je peux passer sous Notepad++ ou autre, cela ne me gènera pas de faire du Copier/coller pour aller chercher ces infos. Tout cela sous windows.

Merci d’avance.

PS : Les textes en questions sont plutôt d’ordre litteraires, ce n’est pas du code.

rolyat · Octobre 9, 2008, 4:13

Donc tu cherches les occurences d’un (ou plusieurs) mot dans ton texte… Une macro sous Word (faites par toi meme, avec des IFCOUNT) ca ne permettrait pas ca?

Edit : il faut compter chaque mot ou uniquement certains que tu mets dans une liste?

Lorelei · Octobre 9, 2008, 7:01

Je connais un site qui permet de faire ça en copiant-collant ton texte. En fait il crée un nuage de tags, visuellement c’est assez parlant. Il donne aussi le nombre d’occurrences des mots et permet d’exclure les mots comme les articles ou les prépositions. Je n’ai pas l’adresse sous la main, elle est à la maison. Je te dis dès que je peux la retrouver.

AnA-l · Octobre 9, 2008, 7:20

Et faire 15 lignes de code pour ca, c’est jouable aussi

Phral · Octobre 9, 2008, 11:59

Disons que chercher tous les mots ça m’aiderai bien, même si certains ne m’interessent pas (je tu il …). Je ne veux pas lui donner une liste de mots à chercher, je veux qu’il me sorte le tableau direct.

Merci pour le site à venir, il pourra sans doute m’aider

Pour les 15 lignes de codes, c’est une chose que je ne sais pas faire du tout :crying:

Lorelei · Octobre 9, 2008, 3:26

Hop de retour à la maison donc voilà le lien : TagCrowd

Veldryn · Octobre 9, 2008, 3:46

Ou alors sur cygwin :
tr -sc ’[A-Z][a-z]’ ’[\012*]’ < tonfichier.txt |
sort |
uniq -c > tonfichierresultat.txt

Tiré de http://people.sslmit.unibo.it/~baroni/comp…nixforPoets.pdf
Avec plein d’explications et de variantes (pour la casse par exemple)

kineox · Octobre 9, 2008, 6:44

C’est typiquement le genre de truc qui sert d’exemple à la programmation en AWK

Phral · Octobre 10, 2008, 10:55

Merci pour le lien, il m’aidé déjà beaucoup et me dépanne grandement pour l’instant.

Je vais aussi creuser du coté de Cygwin

fser · Octobre 11, 2008, 1:54

quit à être hors sujet (comme les autres), je propose ceci en perl (perl ça tourne sous windows)

[code]#/usr/bin/perl

$x = “geekzone c’est super bien comme site quand meme geekzone comme site”;

$x =~ s/(\w+)/$chars{$1}++;$1/eg; # final $1 replaces char with itself
print "frequency of '$’ is $chars{$}\n"
foreach (sort {$chars{$b} <=> $chars{$a}} keys %chars);[/code]

qui produit :

[quote]frequency of ‘geekzone’ is 2
frequency of ‘comme’ is 2
frequency of ‘site’ is 2
frequency of ‘bien’ is 1
frequency of ‘super’ is 1
frequency of ‘c’ is 1
frequency of ‘est’ is 1
frequency of ‘meme’ is 1
frequency of ‘quand’ is 1[/quote]