Commentaires
Diaporama
Plan
1
Statistique Inférentielle
2
Rôle
  • La statistique inférentielle nous permet d’extrapoler des échantillons à la population.
3
Caractéristiques de l’échantillon
  • Indépendant  ou non apparié: les individus qui le composent ne sont pas physiquement les mêmes dans chacun des échantillons.
  • Appariés ou dépendants : les individus qui le composent sont identiques.
4
Relation population - échantillon
5
Échantillonnage
  • « Il n ’est pas nécessaire de manger le bœuf entier pour savoir qu’il est coriace »
  • Samuel Johnson
6
Qualité d’un estimateur
  • Absence de biais
  • Précision
  • Convergence
  • Robustesse
7
Objet de l’estimation
  • L’ordre de grandeur de la variable aléatoire : le paramètre de position
  • La part de l’aléatoire : le paramètre de dispersion
  • La relation entre 2 variables : les paramètres d’association
8
Les tests d’hypothèses
9
Formulation de l’hypothèse nulle H0
  • Condition présumée vraie en absence de fortes évidences du contraire.
  • Ne pas mettre comme hypothèse nulle, l’hypothèse que vous voulez vérifier.
  • Si l’hypothèse nulle est rejetée, alors l’hypothèse de recherche, appelée pour cette raison  hypothèse alternative peut être envisagée



10
Les tests d’hypothèse
  • La technique du test d’hypothèse a été mis au point par Fisher en 1951.
  • Il s’est basé sur un problème très « anglais » : le goût du thé est-il influencé par l’ordre des ingrédients : le thé et le lait.


11
L’hypothèse alternative
  • L’hypothèse alternative ou hypothèse de recherche est représentée par H1 ou Ha
  • Elle peut prendre une forme unilatéral :
    - médicament > placebo    q1 > q0.
      • inhibiteur < contrôle : q1 < q0.
  • Test bilatéral :
      • - test <> contrôle : q1 <> q0.


12
Les risques
  • L’hypothèse nulle doit être formulée de telle façon que son rejet erroné constitue une erreur plus grave que son acceptation erronée.
  • Les notions de risque d ’erreur de type I (a) et de type II (b) en découle.
  • Les valeurs les plus courantes : 0.05 et 0.01




13
 
14
 
15
Risques statistiques
  • Risque a
  • C’est le risque de croire que le procédé n’est pas correctement réglé alors qu’il l’est.


  • C ’est croire que le médicament est efficace alors que c’est un Placebo.
  • Risque b
  • C’est le risque de croire que le procédé est correctement réglé alors qu’il ne l’est pas.
  • C ’est ne pas mettre sur le marché un médicament croyant que c ’est un Placebo alors qu ’il est efficace
16
Représentation graphique
17
 
18
Les faux
  • Faux positifs : rejeter l’hypothèse nulle lorsque celle-ci est vraie.
  • Faux négatifs : ne pas rejeter l’hypothèse alors qu’elle est fausse.
19
 
20
 
21
Etape 2 : étude Pilote
  • Le but d ’une étude pilote est souvent d ’évaluer la puissance du test : ai-je une puissance suffisante pour voir une différence ?
  • Cette puissance dépend de 2 facteurs : la variabilité des mesures et le nombre de mesures.
22
 
23
Comparaison une moyenne avec une référence
24
Buts
  • Sélectionner les tests d ’hypothèses
    • Comparer l ’échantillon à une valeur fixée
    • Comparer 2 populations
  • Identifier les hypothèses soutenant les tests statistiques
    • Forme de distribution, dispersion, indépendance.
    • Robustesse
25
Approche probabiliste
26
Population simple
27
Tests d’exactitude de la moyenne
  • H0 : µ=C vs µ#C
  • H0 : µ£C vs µ>C
  • H0 : µ³C vs µ<C
28
Test t pour un échantillon simple
  • Suppositions et leurs vérifications
29
Suppositions et
leurs vérifications
  • Indépendance des échantillons
  • Moyenne distribuée normalement : sensibilité aux « outliers »
  • Théorème central limite : pour de grands échantillons, la distribution tend à être normale.


30
Normalité de la distribution
  • Pour de faibles échantillons, les tests de normalité sont conseillés
  • De légères transgressions n ’invalident pas le test t pour de grands échantillons.


31
Limites
  • Difficultés en présence de valeurs en-dessous de la limite de détection contrairement aux tests sur les rangs et les proportions.
  • La moyenne et l ’écart-type sont influencés par les « outliers ».
32
Robustesse
  • Le test t n’est pas robuste face aux « outliers »
  • Le test du rang signé de Wilcoxon est plus robuste
  • Le test de Wilcoxon est moins puissant : il a moins tendance à rejeter l ’hypothèse nulle quand elle est fausse que le test t


33
Etapes
  • Etape 1- Calcul de la moyenne m et l ’écart-type s et l’écart-type sur la moyenne sm.
  • Etape 2- Estimer la valeur critique de t1-a dans les tables pour le risque a et n mesures.
  • Etape 3-Calcul du tobs =  |m-C| / sm.


34
Etapes (suite)
  • Etape 4- comparer t et t(1-a) :
    • si t³ t1-a  : H0 est rejetée : suite étape 6
    • si t< t1-a  : pas d ’évidence pour rejeter l ’hypothèse nulle.
35
Etapes (suite)
  • Etape 5- Vérification des faux négatifs par le calcul de nc:




  •  si nc £ n le test des faux négatifs est satisfait
    • si nc > n le test n ’est pas satisfait
36
Etapes (suite)
  • Etape 6 : les résultats du test peuvent être :
    • l ’hypothèse nulle est rejetée et il semble que la vraie moyenne est plus grande (plus petite) que C
    • L ’hypothèse nulle n’est pas rejetée et le test des faux négatifs n’est pas vérifié. C paraît plus grand (ou plus petit) que m : l ’échantillon est trop petit.
37
Exemple 1
38
Graphiques
39
Exemple 2
40
 
41
Exemple 3
42
Graphiques
43
Population simple
  • Approche probabiliste
44
Comparaison de 2 populations
  • Approche probabiliste
45
Comparer 2 moyennes
  • 2 moyennes µ1 et µ2
  • Cas 1 : µ1 - µ2£d0 vs µ1 - µ2 > d0
  • Cas 2 : µ1 - µ2 ³ d0 vs µ1 - µ2< d0
46
Test t pour une comparaison de moyennes
47
Suppositions et leurs vérifications
  • Indépendance des 2 séries d ’échantillons
  • Moyennes distribuées normalement : ! sensibilité aux « outliers »
  • Théorème central limite : pour de grands échantillons, la distribution tend à être normale.


48
Normalité de la distribution
  • Pour de faibles échantillons, les tests de normalité sont conseillés
  • De légères transgressions n ’invalident pas le test t pour de grands échantillons.


49
Robustesse
  • Robuste par rapport à la normalité de la distribution et à l ’égalité des variances,
  • En cas de non égalité des variances, appliquer la correction de Satterthwaite
  • Des tests non-paramétriques peuvent être appliqués en cas de rejet.
  • Pas robuste vis à vis des outliers
50
Un exemple
  • Deux groupes (1, 2) ayant des moyennes qui diffèrent par d.
  • Quelle est la probabilité p d’observer une telle différence si les deux moyennes sont égales (H0)?
51
Exemple
52
Questions préalables
  • Les données sont-elles indépendantes les unes des autres ?
    • Oui : données non appariées (ou non pairées)
    • Non : les données sont pairées.
    • Dans ce cas, les données sont indépendantes.
  • Les données sont-elles distribuées normalement ?
    • Oui : test t
    • Non : test de Wilcoxon-Mann-Whitney
    • On le vérifie par un Q-Q plot

53
Questions préalables (2)
  • La distribution est normale, questions supplémentaires
  • Les variances sont-elles semblables ?
    • Oui : les d.d.l. = n1 + n2 – 2
    • Non : correction et diminution des d.d.l.
  • Y a-t-il des données suspectes (Q-Q plot) ?
    •  Oui : test adapté (Dixon, Grubbs,..)
    • Si le test est positif, éliminer la donnée et refaire le test de comparaison sans la donnée

54
Graphiques
55
Graphique (2)
56
Rapport statistique
57
Comparaisons de 2 échantillons: échantillons indépendants
  • Lorsqu’il n’y a pas de corrélation ou d’appariement entre les observations (sujets) des deux groupes.
  • Ex: Poids à 6 mois de porcelets engraissés en suivant deux régimes différents.


58
Comparaisons de deux échantillons: échantillons appariés
  • Dans les échantillons appariés, les observations (sujets) dans un groupes forment des paires avec les observations (sujets) de l’autre groupe.
  • Ex:  Le poids à six mois de porcelets ayant la même mais soumis à deux régimes différents.


59
Tests sur des échantillons appariés
  • Utilisés quand il y a corrélation entre les observations des deux échantillons. Par exemple, le poids de rats avant et après un traitement
  • H0 (unilatéral):
  • utiliser un test de t pour échantillons appariés
60
Test de t pour échantillons appariés vs test de t pour échantillons indépendants
  • En présence de corrélation, un test de t pour échantillons appariés est beaucoup plus puissant. L’erreur-type des différences moyennes entre les paires est habituellement plus petite que l’erreur-type de la différence entre les deux moyennes
  • S’il n’y a pas de corrélation, un test de t pour échantillons appariés est moins puissant (N représente le nombre de paires et non le nombre d’observations).
61
Choix des hypothèses


  • Hypothèse nulle H0 : mcontrôle = minduit


  • Hypothèse alternative H1 : minduit > mcontrôle
62
Test t
63
Conclusions
  • Rejet de l’hypothèse nulle :
    • tobs > ttables
    • p <0.05
64
Que sont les degrés de liberté?
65
Pourquoi se soucier du nombre de degrés de liberté?
  • La distribution des statistiques dépend du nombre de degrés de liberté.
  • Donc, selon le nombre de degrés de liberté, la même valeur de la statistique peut sera convertie en probabilités différentes.
66
Pourquoi insister sur l’indépendance?
  • Si les observations ne sont pas indépendantes, on surestime le nombre de degrés de …
  • … la conversion de la statistique en valeur de p sera biaisée …
  • … et on sous-estimera p.
67
Égalité des variances (homoscédasticité): le test de F
  • Si les variances sont égales, alors s2C = s2T
  • H0 (ratio F):




  • Ce test est très sensible à une déviation de la normalité
68
Test F d’égalité des variances
69
Approche non probabiliste
70
Test du rang signé de Wilcoxon sur la moyenne
71
But
  • Pour un échantillon randomisé de taille n , le test non paramétrique de Wilcoxon peut être utilisé pour effectuer les tests d ’hypothèse sur la moyenne ou la médiane
72
Présupposés
  • Echantillon randomisé
  • Population continue symétrique. Attention : la population normale est symétrique mais la réciproque n ’est pas nécessairement vraie
  • Nécessité d ’appliquer des test de symétrie ou de normalité.
  • Si la distribution n ’est pas symétrique : transformation des données.


73
Limites
  • Si les données ne sont pas approximativement symétriques, le test ne peut être utilisé.
  • Le test de Wilcoxon produit des résultats erronés si beaucoup de données sont les mêmes.
74
Robustesse
  • Pour de larges échantillons (n>50) le test t est plus robuste que le test de Wilcoxon.
  • Pour de petits échantillons, de forme asymétrique ou de distribution non-normale : effectuer d ’éventuelles transformations.
75
Etapes
  • Etape 1 - : Assigner la valeur de la moitié de la limite de détection aux données inférieures à celle-ci.
  • Etape 2 : Déterminer les valeurs d=C-X
  • Etape 3 : Trier les différences sur base de leur valeur absolue
  • Etape 4 : leur donner un rang et un signe


76
Etapes(suite)
  • Etape 5 - : Calculer la somme des rangs positifs R,
  • Etape 6 : Déterminer la valeur critique de W dans les tables
  • Si R est inférieure à W rejeter l ’hypothèse nulle
  • Si l ’hypothèse nulle n ’est pas rejetée, effectuer le test de puissance.
77
Tests pour une médiane
78
But
  • Pour un échantillon randomisé de taille n , le test peut être utilisé pour effectuer les tests d ’hypothèse sur la  médiane
79
Application
  • Test du rang signé de Wilcoxon
80
Comparaison de médianes: le test des médianes
  • Calculer la médiane M pour les deux échantillons
  • Classer chaque observation (plus grande ou plus petite que M) afin de créer un tableau 2X2
  • Faire un C2 ou un test de G,  pour tester l’indépendance
81
Comparaison de deux moyennes: le test U de Mann-Whitney
  • On veut comparer le rendement du groupe témoin et du groupe traitement. Chacun des groupe contient 4 champs (ch.) (réplicats)
  • Calculer la somme des rangs (RC, RT) pour chacun des groupes.
  • H0: RC = RT
  • Calculer U et le p correspondant
82
Comparaison de moyennes: tests paramétriques (P) vs tests non-paramétriques (NP)
83
Procédure générale si N >20 pour chaque échantillon
  • tester la normalité
  • tester l’homoscedasticité
  • si les deux échantillons sont distribués normalement et que les variances sont égales, utiliser le test de t (“variance commune”)
  • si les deux échantillons sont distribués normalement mais que les variances sont inégales, utiliser le test approximatif de Welch (“variance séparées”)
  •  si un ou les deux échantillons ne sont pas distribués normalement, essayer de transformer les données ou utiliser le test de U de Mann-Whitney.
84
Procédures générales
  • N<10 pour chaque groupe
  • Utiliser le test de U de Mann-Whitney
  • 10<N<20 pour chaque groupe
  • utiliser 2 tests: test de t (variance commune ou variances séparées) et test de U Mann-Whitney
  • … et espérer que l’inférence est la même!