Données extrêmes (outliers) univariées et multivariées

Il y a deux types de données extrêmes ou outliers. Les éliminer peut rendre de grands services car ils tendent à biaiser les statistiques inférentielles (ANOVAs, tests t, régression multiple, etc.): 
 

Les outliers univariés: ce sont des observations qui, pour une variable donnée, présentent des valeurs inhabituelles vu la distribution. Par exemple un sujet qui a répondu 10 à une échelle pour laquelle toutes les autres valeurs se distribuent -normalement-entre 1 et 5. Pour détecter ces outliers univariés, il suffit de standardiser les valeurs observées (en retranchant la moyennes et en divisant la valeur ainsi obtenue par l'écart-type). Une façon simple d'effectuer cela en syntaxe:

 

descriptives var=nom de la variable
/save.

Vous verrez apparaître leur Z. S'il est plus grand que 4 (voire que 3) en valeur absolue, il est fort probable qu'on puisse l'éliminer sans trop de scrupules! Ceci étant, il existe une méthode préférable: l'utilisation de la déviation à la médiane, dont vous trouverez une description et une procédure de mise en oeuvre sur SPSS sur cette page-ci

Les outliers multivariés: Lorsqu'on fait une régression multiple, il est souvent utile de pouvoir détecter les outliers multivariés (observations qui sont très mal expliquées par le modèle et semble donc provenir d'une autre population). Ce sont des observations, donc, qui se distinguent des autres par leur pattern étrange au vu des relations observées entre les variables dans le reste de l'échantillon. Par exemple, si on observe une très forte corrélation entre l'estime de soi et l'extraversion dans l'ensemble de l'échantillon, un sujet qui est en même temps fort introverti et possède une haute estime de soi apparaîtra comme un outlier multivarié même si les valeurs d'introversion et d'estime de soi sont chacune "normales". 

Pour ce faire, il est souvent pertinent de sauver l'indice de cook (en cliquant sur save dans le module "régression linéaire" de SPSS), d'examiner sa distribution (grâce à un histograme), et d'éliminer les outliers univariés sur cette nouvelle variable (qui est automatiquement nommée coo_1 par SPSS). En général, le plus simple pour ce faire est de faire un histogramme. Typiquement, la plupart des valeurs se situent proche de 0. Les quelques outliers multivariés se rapprochant de .1. On peut les éliminer en cliquant sur data/select cases/if condition is satisfied. Et indiquer dans la case correspondant à la condition "coo_1<.10" (si la valeur seuil est .10 par exemple). 

Cela peut radicalement transformer les résultats. Remarquons que cette procédure peut également être appliquée lorsqu'on a des variables purement nominales et que l'on serait tenté de faire une simple ANOVA (il suffit alors de faire une régression à la place). 

Outre l'indice de cook, une mesure utilisée de plus en plus souvent pour détecter les outliers est le dffit qui indique l'influence de la donnée "outlying" sur la régression. Une autre mesure similaire est le dfbeta.  Ces deux valeurs sont suspects au-delà de 2. 

Voici un texte sur ces indices:
http://www.stat.psu.edu/~jls/stat511/lectures/lec25.pdf

De façon générale, voici le chapitre de référence sur les outliers:

 
McClelland G. H. (2000).Nasty data : unruly, ill-mannered observations can ruin your analysis (Chapter 15, pp. 393). In H. T. Reis & C. M. Judd (Eds.), Handbook of research methods in social and personality psychology. Cambridge, UK: Cambridge University Press.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>