1
|
|
2
|
- La statistique inférentielle nous permet d’extrapoler des échantillons à
la population.
|
3
|
- Indépendant ou non apparié: les individus qui le composent ne sont
pas physiquement les mêmes dans chacun des échantillons.
- Appariés ou dépendants : les individus qui le composent sont
identiques.
|
4
|
|
5
|
- « Il n ’est pas nécessaire de manger le bœuf entier pour
savoir qu’il est coriace »
- Samuel Johnson
|
6
|
- Absence de biais
- Précision
- Convergence
- Robustesse
|
7
|
- L’ordre de grandeur de la variable aléatoire : le paramètre de
position
- La part de l’aléatoire : le paramètre de dispersion
- La relation entre 2 variables : les paramètres d’association
|
8
|
|
9
|
- Condition présumée vraie en absence de fortes évidences du contraire.
- Ne pas mettre comme hypothèse nulle, l’hypothèse que vous voulez
vérifier.
- Si l’hypothèse nulle est rejetée, alors l’hypothèse de recherche,
appelée pour cette raison
hypothèse alternative peut être envisagée
|
10
|
- La technique du test d’hypothèse a été mis au point par Fisher en 1951.
- Il s’est basé sur un problème très « anglais » : le goût du
thé est-il influencé par l’ordre des ingrédients : le thé et le lait.
|
11
|
- L’hypothèse alternative ou hypothèse de recherche est représentée par H1
ou Ha
- Elle peut prendre une forme unilatéral :
- médicament > placebo
q1 > q0.
- inhibiteur < contrôle : q1 < q0.
- Test bilatéral :
- - test <> contrôle : q1 <> q0.
|
12
|
- L’hypothèse nulle doit être formulée de telle façon que son rejet erroné
constitue une erreur plus grave que son acceptation erronée.
- Les notions de risque d ’erreur de type I (a) et de type II (b) en
découle.
- Les valeurs les plus courantes : 0.05 et 0.01
|
13
|
|
14
|
|
15
|
- Risque a
- C’est le risque de croire que le procédé n’est pas correctement réglé
alors qu’il l’est.
- C ’est croire que le médicament est efficace alors que c’est un
Placebo.
- Risque b
- C’est le risque de croire que le procédé est correctement réglé alors
qu’il ne l’est pas.
- C ’est ne pas mettre sur le marché un médicament croyant que
c ’est un Placebo alors qu ’il est efficace
|
16
|
|
17
|
|
18
|
- Faux positifs : rejeter l’hypothèse nulle lorsque celle-ci est vraie.
- Faux négatifs : ne pas rejeter l’hypothèse alors qu’elle est fausse.
|
19
|
|
20
|
|
21
|
- Le but d ’une étude pilote est souvent d ’évaluer la puissance
du test : ai-je une puissance suffisante pour voir une différence ?
- Cette puissance dépend de 2 facteurs : la variabilité des mesures et le
nombre de mesures.
|
22
|
|
23
|
|
24
|
- Sélectionner les tests d ’hypothèses
- Comparer l ’échantillon à une valeur fixée
- Comparer 2 populations
- Identifier les hypothèses soutenant les tests statistiques
- Forme de distribution, dispersion, indépendance.
- Robustesse
|
25
|
|
26
|
|
27
|
- H0 : µ=C vs µ#C
- H0 : µ£C vs µ>C
- H0 : µ³C vs µ<C
|
28
|
- Suppositions et leurs vérifications
|
29
|
- Indépendance des échantillons
- Moyenne distribuée normalement : sensibilité aux « outliers »
- Théorème central limite : pour de grands échantillons, la distribution
tend à être normale.
|
30
|
- Pour de faibles échantillons, les tests de normalité sont conseillés
- De légères transgressions n ’invalident pas le test t pour de
grands échantillons.
|
31
|
- Difficultés en présence de valeurs en-dessous de la limite de détection
contrairement aux tests sur les rangs et les proportions.
- La moyenne et l ’écart-type sont influencés par les
« outliers ».
|
32
|
- Le test t n’est pas robuste face aux « outliers »
- Le test du rang signé de Wilcoxon est plus robuste
- Le test de Wilcoxon est moins puissant : il a moins tendance à rejeter
l ’hypothèse nulle quand elle est fausse que le test t
|
33
|
- Etape 1- Calcul de la moyenne m et l ’écart-type s et l’écart-type
sur la moyenne sm.
- Etape 2- Estimer la valeur critique de t1-a dans les tables pour le risque a et n mesures.
- Etape 3-Calcul du tobs =
|m-C| / sm.
|
34
|
- Etape 4- comparer t et t(1-a)
:
- si t³ t1-a : H0 est rejetée : suite
étape 6
- si t< t1-a : pas
d ’évidence pour rejeter l ’hypothèse nulle.
|
35
|
- Etape 5- Vérification des faux négatifs par le calcul de nc:
- si nc £ n le test des faux négatifs est
satisfait
- si nc > n le test n ’est pas satisfait
|
36
|
- Etape 6 : les résultats du test peuvent être :
- l ’hypothèse nulle est rejetée et il semble que la vraie moyenne
est plus grande (plus petite) que C
- L ’hypothèse nulle n’est pas rejetée et le test des faux négatifs
n’est pas vérifié. C paraît plus grand (ou plus petit) que m :
l ’échantillon est trop petit.
|
37
|
|
38
|
|
39
|
|
40
|
|
41
|
|
42
|
|
43
|
|
44
|
|
45
|
- 2 moyennes µ1 et µ2
- Cas 1 : µ1 - µ2£d0 vs µ1 - µ2 > d0
- Cas 2 : µ1 - µ2 ³ d0 vs µ1 - µ2< d0
|
46
|
|
47
|
- Indépendance des 2 séries d ’échantillons
- Moyennes distribuées normalement : ! sensibilité aux
« outliers »
- Théorème central limite : pour de grands échantillons, la distribution
tend à être normale.
|
48
|
- Pour de faibles échantillons, les tests de normalité sont conseillés
- De légères transgressions n ’invalident pas le test t pour de
grands échantillons.
|
49
|
- Robuste par rapport à la normalité de la distribution et à
l ’égalité des variances,
- En cas de non égalité des variances, appliquer la correction de
Satterthwaite
- Des tests non-paramétriques peuvent être appliqués en cas de rejet.
- Pas robuste vis à vis des outliers
|
50
|
- Deux groupes (1, 2) ayant des moyennes qui diffèrent par d.
- Quelle est la probabilité p d’observer une telle différence si les deux
moyennes sont égales (H0)?
|
51
|
|
52
|
- Les données sont-elles indépendantes les unes des autres ?
- Oui : données non appariées (ou non pairées)
- Non : les données sont pairées.
- Dans ce cas, les données sont indépendantes.
- Les données sont-elles distribuées normalement ?
- Oui : test t
- Non : test de Wilcoxon-Mann-Whitney
- On le vérifie par un Q-Q plot
|
53
|
- La distribution est normale, questions supplémentaires
- Les variances sont-elles semblables ?
- Oui : les d.d.l. = n1 + n2 – 2
- Non : correction et diminution des d.d.l.
- Y a-t-il des données suspectes (Q-Q plot) ?
- Oui : test adapté (Dixon,
Grubbs,..)
- Si le test est positif, éliminer la donnée et refaire le test de
comparaison sans la donnée
|
54
|
|
55
|
|
56
|
|
57
|
- Lorsqu’il n’y a pas de corrélation ou d’appariement entre les
observations (sujets) des deux groupes.
- Ex: Poids à 6 mois de porcelets engraissés en suivant deux régimes
différents.
|
58
|
- Dans les échantillons appariés, les observations (sujets) dans un
groupes forment des paires avec les observations (sujets) de l’autre
groupe.
- Ex: Le poids à six mois de
porcelets ayant la même mais soumis à deux régimes différents.
|
59
|
- Utilisés quand il y a corrélation entre les observations des deux
échantillons. Par exemple, le poids de rats avant et après un traitement
- H0 (unilatéral):
- utiliser un test de t pour échantillons appariés
|
60
|
- En présence de corrélation, un test de t pour échantillons appariés est
beaucoup plus puissant. L’erreur-type des différences moyennes entre les
paires est habituellement plus petite que l’erreur-type de la différence
entre les deux moyennes
- S’il n’y a pas de corrélation, un test de t pour échantillons appariés
est moins puissant (N représente le nombre de paires et non le nombre
d’observations).
|
61
|
- Hypothèse nulle H0 : mcontrôle = minduit
- Hypothèse alternative H1 : minduit > mcontrôle
|
62
|
|
63
|
- Rejet de l’hypothèse nulle :
|
64
|
|
65
|
- La distribution des statistiques dépend du nombre de degrés de liberté.
- Donc, selon le nombre de degrés de liberté, la même valeur de la
statistique peut sera convertie en probabilités différentes.
|
66
|
- Si les observations ne sont pas indépendantes, on surestime le nombre de
degrés de …
- … la conversion de la statistique en valeur de p sera biaisée …
- … et on sous-estimera p.
|
67
|
- Si les variances sont égales, alors s2C = s2T
- H0 (ratio F):
- Ce test est très sensible à une déviation de la normalité
|
68
|
|
69
|
|
70
|
|
71
|
- Pour un échantillon randomisé de taille n , le test non paramétrique de
Wilcoxon peut être utilisé pour effectuer les tests d ’hypothèse
sur la moyenne ou la médiane
|
72
|
- Echantillon randomisé
- Population continue symétrique. Attention : la population normale est
symétrique mais la réciproque n ’est pas nécessairement vraie
- Nécessité d ’appliquer des test de symétrie ou de normalité.
- Si la distribution n ’est pas symétrique : transformation des
données.
|
73
|
- Si les données ne sont pas approximativement symétriques, le test ne
peut être utilisé.
- Le test de Wilcoxon produit des résultats erronés si beaucoup de données
sont les mêmes.
|
74
|
- Pour de larges échantillons (n>50) le test t est plus robuste que le
test de Wilcoxon.
- Pour de petits échantillons, de forme asymétrique ou de distribution
non-normale : effectuer d ’éventuelles transformations.
|
75
|
- Etape 1 - : Assigner la valeur de la moitié de la limite de détection
aux données inférieures à celle-ci.
- Etape 2 : Déterminer les valeurs d=C-X
- Etape 3 : Trier les différences sur base de leur valeur absolue
- Etape 4 : leur donner un rang et un signe
|
76
|
- Etape 5 - : Calculer la somme des rangs positifs R,
- Etape 6 : Déterminer la valeur critique de W dans les tables
- Si R est inférieure à W rejeter l ’hypothèse nulle
- Si l ’hypothèse nulle n ’est pas rejetée, effectuer le test de
puissance.
|
77
|
|
78
|
- Pour un échantillon randomisé de taille n , le test peut être utilisé
pour effectuer les tests d ’hypothèse sur la médiane
|
79
|
- Test du rang signé de Wilcoxon
|
80
|
- Calculer la médiane M pour les deux échantillons
- Classer chaque observation (plus grande ou plus petite que M) afin de
créer un tableau 2X2
- Faire un C2 ou un test de G, pour tester l’indépendance
|
81
|
- On veut comparer le rendement du groupe témoin et du groupe traitement.
Chacun des groupe contient 4 champs (ch.) (réplicats)
- Calculer la somme des rangs (RC, RT) pour chacun
des groupes.
- H0: RC = RT
- Calculer U et le p correspondant
|
82
|
|
83
|
- tester la normalité
- tester l’homoscedasticité
- si les deux échantillons sont distribués normalement et que les
variances sont égales, utiliser le test de t (“variance commune”)
- si les deux échantillons sont distribués normalement mais que les
variances sont inégales, utiliser le test approximatif de Welch
(“variance séparées”)
- si un ou les deux échantillons ne
sont pas distribués normalement, essayer de transformer les données ou
utiliser le test de U de Mann-Whitney.
|
84
|
- N<10 pour chaque groupe
- Utiliser le test de U de Mann-Whitney
- 10<N<20 pour chaque groupe
- utiliser 2 tests: test de t (variance commune ou variances séparées) et
test de U Mann-Whitney
- … et espérer que l’inférence est la même!
|