Commentaires
Diaporama
Plan
1
Traitement statistique
 des données
2
“ Il y a 3 sortes de mensonges :
les mensonges,
les affreux mensonges
et les statistiques. ”

Benjamin Disraeli
3
Objectifs
  • Introduire aux notions de mesures et de données
  • Introduire à la représentation adéquate des données
  • Former à la rigueur des calculs statistiques
  • Former à leur interprétation correcte
  • Apprendre à exercer une attitude critique
  • Etre rationnels et efficaces dans le travail expérimental
4
Origine du terme statistique
  • Il vient du terme latin
    • status : état ou
    • statisticus : qui a trait à l’état
  • Le terme statistique apparaît la 1ère fois en 1589
  • Son application est plus ancienne et remonte à 3000 ans avant J.C.
5
Rappels historiques
  • A Sumer vers 3000 av. J.C. on a découvert la trace de recensement sur des tablettes d’argile.
  • Idem en Egypte et en Mésopotamie.
  • La Chine connaît les recensements depuis la dynastie des Han (200 av. J.C.)
  • Les Incas connaissaient les recensements et pratiquaient une technique statistique appelée “quipos” sur des cordelettes de couleurs.
  • A Rome le premier recensement aurait eu lieu sous le roi Tullius (570 av. J.C.)


6
Définition de « la Statistique »
  • L’ensemble des méthodes permettant de traiter des données et d’analyser leurs variations.
  • Ses méthodes relèvent principalement du domaine des mathématiques.
  • L’outil informatique et graphique a permis d’alléger la tâche ardue du calcul mathématique .
  • Il a permis à l’étudiant de se focaliser  sur le problème statistique lui-même à savoir le choix de la présentation adéquate, des paramètres adéquats, du modèle adéquat, des tests adéquats.
7
Définition « Des Statistiques »
  • Les statistiques désignent les données numériques systématiquement établies sur un sujet donné.
  • Toute donnée ne peut être considérée comme statistique
  • Pour ce faire elles doivent répondre à certains critères.
8
La statistique pour le scientifique
  • La réalité physique ou chimique fournit des données.
  • La statistique peut être définie comme l’acquisition d’une connaissance à travers le processus de l’observation.
  • Les tests statistiques fournissent des outils pour prendre des décisions.


9
Rôle en recherche

  • Valider les données, l’appareillage.
  • Formulation correcte des hypothèses
  • Formulation des modèles
  • Valider les modèles
  • Séparer la partie aléatoire de la partie significative
  • Etayer ses intuitions.
10
Rôle dans l’industrie
  • L’assurance de qualité
  • Contrôle de qualité
  • Validation
  • Bonne pratique de laboratoire
  • Bonnes pratiques cliniques
  • Bonnes pratiques de fabrication
11
Rôle de l’outil statistique aux T.P.
  • Une meilleure compréhension de ceux-ci : le T.P. n’est pas une recette de cuisine que l’on réussit ou rate sans trop savoir pourquoi
  • L’étudiant doit pouvoir expliquer le cas échéant la raison de son échec.
  • Cette utilisation pratique de la statistique se fera dès la 1ère épreuve au cours de TP de Chimie Analytique.
  • Il se poursuivra en 2e épreuve lors des T.P. intégrés
12
Type de statistiques
  • Statistique descriptive : décrit un phénomène
  • Statistique inférentielle : permet une extrapolation
13
 
14
Statistiques descriptive
  • Méthodes dont l’objectif principal est : décrire les données sous une forme compréhensible et utilisable.
  • Classer les données, les organiser et les présenter clairement sous forme de :
    • tableaux,
    • présentations graphiques
    • résumés numériques.
  •  Synonymes : analyse des données et statistique exploratoire.


15
Statistique inférentielle
  • Méthodes statistiques dont l’objectif principal est de caractériser une population sur base d’observations sur un échantillon.
  • Il s’agit donc d’induire, d’inférer du particulier au général.
  • Ce passage se fait sur base d’hypothèses probabilistes.
  • Synonymes. : Statistique inductive.


16
Termes et concepts importants
17
Population
  • Ensemble des éléments d’un champ d’analyse ayant des propriétés communes et pris en considération par un statisticien pour être quantifié.
  • Les éléments sont appelés unités : des animaux, des malades, des tumeurs, des cellules, des mesures,... .
  • Elle peut être dénombrable : les morts, les patients,..
  • Elle peut être indénombrable : le nombre d’expériences.
18
Echantillon
  • Travailler sur toute la population est coûteux ou impossible
  • Un échantillon est une partie représentative de la population.
19
Objectifs de l’échantillonnage
  • Fournir suffisamment d’informations pour effectuer des inférences.
  • Choisir une partie de la population qui reflète les caractéristiques de cette population.
  • La statistique tient compte des erreurs statistiques inhérentes à l’échantillonnage.
20
Caractéristiques de l’échantillon
  • Aléatoire : échantillon tiré au hasard
  • Non biaisé : mesures expérimentales doivent être indépendantes les unes des autres.
  • Echantillon apparié ou pairé : échantillons liés entre eux par de mêmes conditions expérimentales
  • Représentatif : représenter au mieux la population
21
Avantages de l’échantillonnage
  • Réduction des coûts
  • Gain de temps
  • Précision des résultats si l ’échantillonnage répond à certains critères.
  • Intéressant lorsque le test est destructif.
22
Comparaison population - échantillon
23
La variable ou caractère
  • Chaque individu d’une même population varie selon un critère appelé variable ou caractère.
  • Elle peut être qualitative ou quantitative.
  • Représenté par une lettre de la fin de l’alphabet : x, y ou z.
  • La lettre majuscule représente la  population (X) et la minuscule l’échantillon (x)


24
Variable (suite)
  • Elle comporte un libellé : description de la variable
  • Elle comporte des modalités : les différents niveaux que peut prendre la variable
25
Classement selon la nature de la variable
26
Variable qualitative ou catégorielle
  • Modalités représentent des catégories.
  • Dichotomique : elle ne comporte que 2 modalités.
  • Textuelle : les modalités sont du texte.
27
Variable quantitative ou numérique
  • Variable dont les modalités ont des valeurs numériques : nombre de ml d’un titrage, la température, le temps, ..
  • Les variables quantitatives sont exprimées dans une unité.
  • Lorsque les modalités sont nombreuses, elles peuvent être regroupées. Ce regroupement transforme la variable continue en discrète.
28
Classement selon la continuité
  • Variable continue : ne comporte pas d’interruptions entre les différentes modalités.
  • Variable discontinue ou discrète : comporte un nombre fini de modalités : nombre de tumeurs, de décès, ..
29
Classement selon l’exhaustivité
  • Variable exhaustive : les niveaux de la modalité représentent toute la population.
  • Variable non exhaustive : dans le cas contraire.
30
Classement selon le recouvrement
  • Variable exclusive pas de recouvrement entre les différentes modalités : exemple : 20-40 ans, 41-60, 61-80
  • Variable non exclusive : recouvrement entre les différentes modalités : 20-40 ans, 40-60, 60-80.
31
Classement selon l’échelle de mesure
32
Echelle non métrique
  • Echelle nominale : échelle de variables qualitatives dont les modalités ne sont pas naturellement ordonnées : homme-femme, pile-face, mort-vivant,..
  • Echelle ordinale : les modalités peuvent être ordonnées : qualité de la vie : détérioration, statu-quo, amélioration.
33
Echelle métrique
  • Echelle de rapport : échelle de mesure de données quantitatives qui permet les additions (échelle de température en °C). Sur ce type d’échelle, le zéro ne représente pas l’absence de la variable mais est représenté arbitrairement.
  • Echelle d’intervalle : le zéro représente l’absence de la variable : le poids, la température en °K.
34
Classement selon la nature de la variabilité
  • Variable contrôlée : l’expérimentateur peut obtenir pour cette variable la modalité désirée : la fixation du temps dans l’étude cinétique.
  • Variable aléatoire : variable soumise à des fluctuations non contrôlée suite à des micro-fluctuations d’un grand nombre de facteurs.
35
Classement selon le type de relation
  • Variable indépendante ou explicative (V.I.): variable dont on recherche l’influence ou l’effet.
  • Variable dépendante ou expliquée (V.D.) : variable dont on cherche à comprendre ou à prévoir le comportement.
36
Nature de la relation
  • La relation entre 2 V.D. : corrélation.
    • Corrélation linéaire simple : 2 variables quantitatives, continues et distribuées normalement
    • Association : les 2 variables sont qualitatives.
    • Corrélation de point : les 2 variables sont binaires
  • La relation entre la V.D. et V.I. : la régression
    • Régression simple : 1 V.D. et 1 V.I.
    • Régression multiple : 1 V.D. et plusieurs V.I.
    • Corrélation canonique : Plusieurs V.D. et plusieurs V.I.

37
Les observations
  • Valeurs observées pour les variables.
  • Représentées par les lettres de la fin de l’alphabet suivi d’un indice i (xi,yi,zi)
  • L’indice i permet de différencier les observations, i variant de 1 à n.
  • Représentation :
    • Variable qualitative : un symbole.
    • Variable quantitative : une valeur.
  • Indépendance : dépend de l’expérimentateur.
38
Les données
  • Elles ont un sens plus large que les observations:
  •  Elles représentent aussi les transformations se référant aux observations.
39
Représentation des données :
les tableaux
  • Le nombre de lignes représente le nombre d’observations (indice i varie de 1 à n)
  • Le nombre de colonne est égal au nombre de variables mesurées sur cet individu (indice j variant de 1 à p)
  • Exemple : un dosage sanguin xij : l’indice i caractérise le patient et l’indice i, le type de dosage (1=fer, 2=protéine, 3= magnésium, …)
40
Présentation numérique :
les tableaux de fréquences
  • L’augmentation du volume des données va masquer les caractéristiques et rendre difficile l’interprétation.
  • Type de présentation : univariée, bivariée ou multivariée.
  • Eléments :
    • Fréquence : ni
    • Fréquence relative : fi=ni/n
    • Fréquence cumulée = fj=Sfi
41
Types de présentation:
Statistique univariée
42
Statistique bivariée :
Type de présentation
43
Présentation graphique
  • Graphiques qualitatif : variables catégorielles
  • Graphiques de fréquences
  • Graphiques cartésiens : système d’axes de coordonnées
    • Graphique arithmétique
    • Graphique semi-logarithmique
    • Graphique logarithmique
44
Chiffres significatifs
  • Chiffres exacts qui permettent de le positionner par rapport au point décimal :


45
Chiffres significatifs après opérations
  • Opérations arithmétiques : nombre de chiffres significatifs du composant qui en comporte le moins.
  • Moyenne :
    • <10 valeurs : chiffres significatifs de la mesure
    • 10-100 :chiffres significatifs +1
    • 100-1000 : chiffres significatifs +2
46
Transformation des données
  • Codage des données qualitatives
  • Regroupement en classes des données quantitatives
  • Transformation d’échelle: logarithmique, inverse, racine carrée.
47
Paramètres et statistiques
  • Les statistiques sont estimées sur base d’un échantillon. Il est symbolisé par une lettre latine (s pour l’écart-type)
  • Les paramètres sont les caractéristiques de la population. Ils sont symbolisés par une lettre grecque (s pour l’écart-type)
48
Estimation
  • L’estimation est une mesure.
    Il existe 3 types de mesures :
  • Mesure de position :  moyenne, médiane, mode
  • Mesure de dispersion : étendue, l’interquartile, l’écart-type.
  • Mesure de liaison :
    • dépendance et la corrélation : variables quantitatives
    • Risque relatif et rapport de cotes : variables qualitatives.


49
Modèle
  • Représentation qui contient la structure essentielle de chaque objet ou événement.
  • Il prend 2 formes :
    • Forme physique : le modèle réduit
    • Une forme symbolique : équation mathématique.

50
Caractéristiques
  • Nécessairement incomplet
  • Représentation simplifiée
  • Hypothèses sur la structure essentielle
  • Peut être modifié, simplifié, manipulé
51
Qualité de la mesure
  • Fidélité : étroitesse de l’accord entre les mesures
    • Répétabilité : même opérateur, même instrument.
    • Reproductibilité : pas de restriction d’opérateur et d’instrument.
  • Justesse : accord entre la mesure et la valeur vraie.
  • Sensibilité : rapport de la variation de la V.D. à une variation de la V.D.
  • Spécificité : garantie que le signal provient de ce que l’on veut mesurer
52
Comparaison justesse et fidélité
53
Les erreurs en mathématiques
  • L’erreur absolue :différence prise en valeur absolue entre la valeur observée et la valeur de référence.
  • L’erreur relative : rapport de l’erreur absolue à la valeur de référence.
  • L’erreur d’arrondi : erreur résultant du remplacement d’une valeur numérique par une autre toute proche mais tronquée. Le calcul à n décimale entraîne une erreur d’arrondi comprise entre -0.5 10-n et 0.5 10-n.
54
Les erreurs en statistique
  • Aléatoires : erreurs résultant de paramètres non contrôlés
  • Systématiques : erreurs qui proviennent de causes permanentes.
  • Accidentelles : erreurs dues à l’expérimentateur.
  • Expérimentales : erreurs dues à des variables non contrôlées.
  • Résiduelles : différence entre la valeur estimée et observée.
55
Erreurs dans les tests d’hypothèses
  • Erreur de première espèce : rejeter l’hypothèse nulle lorsqu’elle est vraie.
  • Erreur de seconde espèce : ne pas rejeter l’hypothèse nulle alors que celle-ci est fausse.
56
Les composantes de l’erreur
  • La variabilité intra-individuelle : la grandeur mesurée chez un même individu, est soumise à des variations aléatoires
  • La variabilité inter-individuelle : la grandeur mesurée varie d’un individu à l’autre.
  • La variabilité aléatoire : variables non contrôlées.
  • La variabilité des appareils de mesures : influence de variables non contrôlées sur l’appareillage


57
Sources d’erreurs en chimie analytique
58
Erreurs de modélisation
  • Corriger le modèle
  • Utiliser la partie des données qui vérifient le modèle.
59
Source des erreurs selon les points de vue
60
Distribution des erreurs
  • L’erreur aléatoire est distribuée de manière normale.
61
Formulation
62
Influence de la moyenne sur la dispersion
63
Influence de l’écart-type sur la dispersion