Tu sais faire des stats?

JeeP · Septembre 20, 2010, 10:43

Salut à tous.
J’ai des problèmes de stats à résoudre, et je me galère un peu, vu que mes connaissances se rapprochent du néant à mesure que l’âge m’éloigne des mes années de lycée.

Je dois donc comparer l’homogénéité des âges de deux populations. J’utilise excel pour les moyennes et les écarts-types, et http://www.openepi.com/Menu/OpenEpiMenu.htm , section « t test » pour le test de Student (si j’ai bien suivi ce que m’a dit mon gourou en stats, qui n’est malheureusement pas dispo actuellement).
J’ai monté un tableau de test pour voir si je ne me trompais pas:

[code]12____ 42____ 136
23____ 35____ 172
37____ 18____ 151
18____ 13____ 101
5_____ 23____ 132
42____ 61____ 128
37____ 9_____ 192
56____ 12____ 145

17,1____18,1____27,9 (écart-type)
28,75___26,625__144,625 (moyenne)[/code]

Donc les 3 colonnes ce sont les 3 populations, en bas les moyennes et l’écart-type tels que filés par Excel (sachant qu’Excel propose deux formules de l’écart-type, ECARTYPE et ECARTYPEP. J’ai pris la première; la deuxième donne des valeurs un peu inférieures. Première question: je suis censé utiliser laquelle?

Ensuite, dans Epi je compare la population 1 à la population 2 (dont je suppute qu’elles sont globalement identiques) et la population 1 à la population 3 (dont je suppute qu’elles sont significativement différentes).

Voici les résultats qu’il me donne:

Pop 1 vs 2:

[code]Résultat_________Statistiques t__df____valeur-p____Différence moyenne__Limite inférieure__Limite supérieure
Variance égale___0.24138_________14____0.8128______2.125_______________-16.7567___________21.0067
Variance inégale_0.24138_________14____0.8128______2.125_______________-16.7567___________21.0067

______________________________Statistiques F____df(numérateur,dénominateur)___valeur-p
Test d’égalité de variance____1.12038___________7,7___________________________0.8847[/code]
Donc là, partout où il affiche un p, il est largement supérieur à 5%; je suis content, c’est ce que je voulais.

Pop 1 vs 3:

[code]Résultat_______________Statistiques t__df_____valeur-p____Différence moyenne__Limite inférieure__Limite supérieure
Variance égale_________-10.0156________14_____<0.0000001____-115.875_____________-140.689___________-91.0611
Variance inégale_______-10.0156________12_____0.000000352___-115.875_____________-141.082___________-90.6675

______________________________Statistiques F____df(numérateur,dénominateur)___valeur-p
Test d’égalité de variance____2.66205___________7,7___________________________0.2198[/code]
Là, ça ne va plus, alors que les populations semblent bien différentes, il affiche de multiples p, dont un à 21,98%, et deux très bas. Deuxième question: est-ce bien le p de la ligne « variance égale » que je dois considérer comme ma valeur p, celle qui doit être inférieure à 5% pour que je sois significatif et heureux?

Question subsidiaire: pourquoi il y a une variance égale et une variance inégale? Ca veut dire quoi? Si au cours de mes tests j’ai des valeurs de p discordantes entre les lignes variance égale et variance inégale, je dois prendre laquelle en compte?

Question subsidiaire 2: Excel a une fonction test de Student. Mais il me demande des infos que je ne connais pas: le type de distribution (unilatérale ou bilatérale) et le type de test t (par paire; 2 exemples variante égale homoscédastique; et variance inégale à 2 exemples). Je pourrais choisir quoi?

Edit: en jouant avec Excel, j’arrive à supposer (parce que ça recoupe les p d’Epi) que la distribution est bilatérale et le test à 2 exemples variante égale. J’ai bon?

Merci d’avance

Lukkant · Septembre 20, 2010, 11:06

Juste pour les fonctions écartype :
Ecartyp : c’est quand tu n’a pas toutes les valeurs (cas d’un sondage)
Ecartypep : c’est quand tu a toutes les valeurs ( cas d’un recensement)

J’avais vu la différence purement théorique en bossant sur plusieurs milliers de valeurs.
Mais si ta population est plus faible ca peut jouer.

EDIT : donc je dirais ( sans certitude) que c’est ecartypep dans ton cas.

KyaFb · Septembre 21, 2010, 9:18

Salut JeeP,

Je travaille pas sous Excel mais voilà quelques éléments. S’il y un soudard en stat appliquées, je passe mon tour

Question 2:
Je ne sais pas à quoi correspondent variance inégale et variance égale. J’espère que ce n’est pas important pour le test
La p-value que tu as est celle du test d’égalité de variance (homoscédasticité).
Il t’assure que la variance est bien égale dans les deux populations, une condition nécessaire pour faire tourner un test de student (basé sur une distribution normale).
Ta p-value est supérieure à 0,05 ce qui signifie que tu acceptes l’hypothèse nulle d’égalité des variances (il n’y a pas de différence significative entre les variances des pop. 1 et 3, 1 et 2).
Tes variances ne sont pas significativement différentes, tu peux donc lancer ton t-test.

Question subsidiaire 2:
Le test bilatéral te permettra de tester si les moyennes sont significativement différentes.
Le test unilatéral te permettra de tester si l’un des moyennes est supérieure à l’autre (tu fais une hypothèse sur la direction de l’inégalité).
Je crois que le test unilatéral est plus conservateur statistiquement mais à vérifier.
Pour les options, je sais pas. Ca dépend du jargon du logiciel. Ca pourrait être:

Par paire: compare toutes les population 2 à 2
2 exemples variante égale homoscédastique:compare 2 paires spécifiées présentant une variance égale
variance inégale à 2 exemples: compare 2 paires spécifiées présentant des variances inégales (possible en effectuant des tests de pseudonormalité des distributions)
Pour ton cas, je crois que j’utiliserais le 2. pour 1 vs. 3 pui 1 vs. 2.

Voilou. En espérant que çà aide un peu.

anon28414862 · Septembre 21, 2010, 9:31

Juste pour préciser, une p-value élevée ne permet pas de conclure que l’hypothèse nulle est vraie.

KyaFb · Septembre 21, 2010, 9:39

Soit, précision sémantique:
Une p-value élevée ne te permet pas de rejeter l’hypothèse nulle.

JeeP · Septembre 21, 2010, 10:23

Merci pour vos réponses, ça me permet d’avancer!

KyaFb: donc en fait, je faisais fausse route en considérant qu’il fallait que p soit <0.05? Il faudrait justement qu’il soit supérieur pour conclure à l’homogénéité de mes deux populations?
Gengi: alors quelle est la valeur dans tout ça qui va me permettre de dire “non, la répartition des âges dans mes deux populations n’est pas significativement différente”?

En pratique, j’ai refait le test avec mes deux véritables populations (effectifs différents: 82 la première, 92 la seconde).
Les résultats sont:
Variance égale: p-value = 0.4382
Test d’égalité de variance: F = 1.0802 , p-value = 0.7182
Donc si je suis ce que dit Kya, l’hypothèse nulle d’égalité des variance ne peut être rejeté. Tant mieux, ça veut dire que les âges suivent une répartition identique (c’est bien ça?). Mais qu’est-ce que je dois faire de plus pour conclure que mes populations sont homogènes?

(Pour info, en pratique dans mon domaine, on fait une “boite à moustaches”, et du moment que les moustaches se croisent, tout le monde considère que les différences ne sont pas significatives; peut-être à tort, et c’est ce doute que j’aimerais éliminer).

KyaFb · Septembre 21, 2010, 11:11

Les hardcores de la stat vont peut-être me débiter mais pour faire simple, l’histoire des boîtes à moustache c’est çà:
La boîte à moustache compare des intervalles de confiance. Comme tu travailles sur un échantillon de ta population (et non ta population entière), tu ne peux pas avoir la certitude que la moyenne calculée est exactement égale à la moyenne dans ta population. Tu te laisses donc une marge d’erreur (intervalle de confiance). Ton échantillon A peut avoir une moyenne de 100 à 5% prêt ce qui veut dire que ta moyenne dans ta population peut aller de 95 à 105. Si la moyenne de ton échantillon B est égale à 110, la moyenne dans la population B peut aller de 104,5 à 115,5. Tes deux intervalles de confiance (tes moustaches) se croisent donc tu ne peux donc pas conclure que tes moyennes au niveau des populations sont égales.

Maintenant pour le test de student:
Le test de student compare des moyennes mais travaille sur des distributions normales (nombre de cas en ordonnée et âge en abscisse dans ton cas).
Pour que le test fonctionne, il faut que la variance des distributions soit égale entre groupe (pour faire simple, il faut que la courbe cas/âge ait à peu près la même tronche dans tes échantillons 1,2 et 3).
Le test ne fonctionnera pas si tes distributions ont des tronches/variances très différentes entre les groupes. Un peu comme ici:
http://tiny.cc/3sv32
Ton test d’égalité des variances te permet de déterminer si les âges sont répartis de manière homogène autour de la moyenne.
Ta p-value de 0,72 ne te permet pas de rejeter l’hypothèse nulle, ce qui te conduit à conclure qu’il n’y a pas de différence significative entre les variance de tes distributions.
Je ne sais pas si çà te permet de dire que tes populations sont homogènes mais tes variances le sont.
Tu as maintenant les conditions requises pour lancer ton t-test.

(reste ce truc de variance égale, variance inégale qui m’emmerde. J’espère que çà ne posera pas de souci)

EDIT:

Juste un truc. Tu auras toujours un doute que tu utilises des boîtes à moustache ou des tests plus complexes. Le seul moyen de n’avoir aucun doute est de travailler sur des populations entières (tous les gens qui ont 1 an, 2 ans, 3 ans…) et non sur des échantillons.
Encore une fois, il y a des simplifications. J’espère qu’aucune n’est trop grave

EDIT 2:
Tout çà suppose que les âges dans tes groupes sont normalement distribués ce qui est parfois difficile pour des petits échantillons (visiblement testable sous excel mais çà demande un peu de bidouille)

Miaouss · Septembre 21, 2010, 11:37

tutorial boite à moustache…

de rien :-

Patryn · Septembre 21, 2010, 12:25

moi les stats je fait comme un rejet.

JeeP · Septembre 21, 2010, 12:38

Alors tu me fais douter: je ne travaille pas sur des échantillons, mais bien sur des populations entières. On a vu 82 malades en janvier, je les ai tous inclus; on a vu 92 malades en juin, je les ai tous inclus. Du coup, je fais fausse route avec un intervalle de confiance?

KyaFb · Septembre 21, 2010, 1:28

Non, je ne pense pas que tu fasses fausse route. Voilà un exemple:
Travaillant sur la population française, tu as reçu 80 malades. 40 ont été diagnostiqués avec une grippe (groupe 1) et 40 ont été diagnostiqués sains (groupe 2).
Tu désires savoir si les individus touchés par la grippe sont en moyenne plus âgés.
Tu fais un test de student afin de comparer la moyenne d’âge des 2 groupes.
Tu inclues tous les gens diagnostiqués dans ton test mais tu travailles néanmoins sur des échantillons.
Tu n’as pas ausculté toute la population française.

N’hésite pas à envoyer le problème si mon explication n’est pas claire.
Pour répondre avec plus de précisions, il faudrait savoir ce qui différencie les groupes étudiés.

JeeP · Septembre 21, 2010, 4:25

Ok j’ai compris. C’est une même population dont j’ai pris 2 échantillons à deux périodes différentes. OK.

Alors le contexte: on a un test de probabilité d’une maladie. On a un examen qui en fait le diagnostic. On veut savoir si l’application du test a un effet sur la demande d’examens (en clair, si le test dit que le patient a une faible probabilité d’être malade, les médecins renoncent-ils à demander l’examen; ce qui mécaniquement augmente la positivité des examens quand même pratiqués).
Donc a un fait une première observation sans le test, et on a mesuré le taux d’examens positifs. C’est mon premier groupe.
Puis quelques mois plus tard, on fait une deuxième observation avec le test. C’est le deuxième groupe.
Merci Kya pour les éclairages!

Le reste des statistiques ça va, mais dire si mes groupes sont appariés en âge…

KyaFb · Septembre 21, 2010, 5:58

[spoiler]
Hop, juste pour être sur que je vois bien:

Variable indépendante: Application du test
Variable dépendante:Demande d’un examen

Groupe 1: groupe de contrôle (absence de test)
Groupe 2: test

Hypothèse 1: L’application du test réduit la demande d’examens (Le nombre d’examens pratiqués dans le groupe test est inférieur à celui pratiqué dans le groupe de contrôle)
Hypothèse 2: L’application du test accroît la demande d’examens[/spoiler]

La vérification de l’égalité des moyennes d’âge est juste une mesure de contrôle.
Imaginons que tu découvres que le groupe ayant reçu le test a fait l’objet d’un plus grand nombre de demande d’examens.
Si la moyenne d’âge était significativement plus élevée dans le groupe test, tu ne pourrais pas déterminer si on a demandé plus d’examens parce que le test a été pratiqué ou parce que les individus étaient plus âgés (on mène peut-être plus d’examens sur les personnes âgées parce qu’elles sont fragiles).

Pour la procédure de test d’égalité des moyennes d’âge, tu as suivi le bon chemin:
-Test d’égalité des variances des distributions d’âge des groupes
-T-test de student (qui doit être non significatif i.e. p-value>0.05)
(pour être tout à fait rigoureux, il faudrait rajouter un test de normalité de la distribution des âges)

JeeP · Octobre 17, 2010, 4:32

Merci pour le coup de main!

[URL=http://img266.imageshack.us/i/thesegeekzone.png/][/URL]

Uploaded with [URL=http://imageshack.us]ImageShack.us[/URL]

fser · Octobre 17, 2010, 4:40

J’arrive pas à enlever la balise spoiler de l’image :ninja:

Haza · Octobre 17, 2010, 5:33

Hoo c’est kromeugnonnnnnn