Introduction

Note : La version de Modalisa utilisée est la 4.2 Educ datée du 16/10/2002. C'est celle qui semble actuellement utilisée à l'ENS-LSH.

Rappel de la formule générale de calcul des χ² :

$$\chi^2 = \sum \frac{(\text{Effectifs observés} - \text{Effectifs théoriques})^2}{\text{Effectifs théoriques}} $$

Exemple 1

Tableau de départ :

                                                Q12
Q26                                              non oui
  autre (préciser)                                 4   1
  un appartement dans un immeuble ancien          29  13
  un appartement dans un immeuble récent (>1970)  41  15
  un appartement en HLM                           41  23

χ² donné par Modalisa :

Khi2=1,19  ddl=3  p=0,76  (Val. théoriques < 5 = 2)

χ² donné par R :

X-squared = 1.4722, df = 3, p-value = 0.6887

Les effectifs théoriques sont les mêmes dans les deux cas, à l'arrondi près :

                                                Q12
Q26                                                    non       oui
  autre (préciser)                                3.443114  1.556886
  un appartement dans un immeuble ancien         28.922156 13.077844
  un appartement dans un immeuble récent (>1970) 38.562874 17.437126
  un appartement en HLM                          44.071856 19.928144

La différence intervient au niveau des écarts. Les écarts sous R sont :

                                                Q12
Q26                                                      non         oui
  autre (préciser)                                0.55688623*-0.55688623*
  un appartement dans un immeuble ancien          0.07784431 -0.07784431
  un appartement dans un immeuble récent (>1970)  2.43712575 -2.43712575
  un appartement en HLM                          -3.07185629  3.07185629

Les écarts sous Modalisa sont les mêmes, sauf pour la première ligne où on a un écart de 0.1 au lieu de 0.6. Sinon le calcul du χ² est bon.

Exemple 2

Tableau de départ :

              Q13
TYPME          à 3/4 temps autre (préciser) à mi-temps à plein temps
  Cohabitants            5                1         14            56
  Colocataires           1                2          6            16
  Couples                5                2         22           203
  Seuls                  2                2         24           110

χ² donné par Modalisa :

Khi2=14  ddl=9  p=0,123  (Val. théoriques < 5 = 8)

χ² donné par R :

X-squared = 23.0153, df = 9, p-value = 0.006162

Là encore, les effectifs théoriques sont identiques dans les deux cas :

              Q13
TYPME          à 3/4 temps autre (préciser) à mi-temps à plein temps
  Cohabitants    2.0976645        1.1295117  10.649682      62.12314
  Colocataires   0.6900212        0.3715499   3.503185      20.43524
  Couples        6.4033970        3.4479830  32.509554     189.63907
  Seuls          3.8089172        2.0509554  19.337580     112.80255

La différence se joue dans les écarts. Les écarts de R sont :

              Q13
TYPME           à 3/4 temps autre (préciser)   à mi-temps à plein temps
  Cohabitants    2.90233546*     -0.12951168*  3.35031847   -6.12314225
  Colocataires   0.30997877*      1.62845011*  2.49681529*  -4.43524416
  Couples       -1.40339703      -1.44798301*-10.50955414   13.36093418
  Seuls         -1.80891720*     -0.05095541*  4.66242038   -2.80254777

Les écarts donnés par Modalisa sont identiques sauf pour les cases indiquées par des astérisques, dont on a retranché 0.5 au niveau des écarts.

Exemple 3

Tableau de départ :

              Q62
TYPME          difficilement facilement très difficilement très facilement
  Cohabitants              2          2                  0               1
  Colocataires            12         30                  5              13
  Couples                 63        166                  9              88
  Seuls                   44         94                 15              73

χ² donné par Modalisa :

Khi2=10,4  ddl=9  p=0,318  (Val. théoriques < 5 = 5)

χ² donné par R :

X-squared = 12.5432, df = 9, p-value = 0.1844

Les effectifs théoriques sont identiques :

              Q62
TYPME          difficilement facilement très difficilement très facilement
  Cohabitants       0.980551   2.366288          0.2350081        1.418152
  Colocataires     11.766613  28.395462          2.8200972       17.017828
  Couples          63.931929 154.282010         15.3225284       92.463533
  Seuls            44.320908 106.956240         10.6223663       64.100486

Les écarts calculés par R sont les suivants :

              Q62
TYPME          difficilement  facilement très difficilement très facilement
  Cohabitants      1.0194489* -0.3662885*        -0.2350081*     -0.4181524*
  Colocataires     0.2333874   1.6045381          2.1799028*     -4.0178282
  Couples         -0.9319287  11.7179903         -6.3225284      -4.4635332
  Seuls           -0.3209076 -12.9562399          4.3776337       8.8995138

Les écarts donnés par Modalisa sont identiques sauf pour les cases indiquées par des astérisques, dont on a retranché 0.5 au niveau des écarts.

Exemple 4

Tableau de départ :

     Q159
Q159G alg esp fra aut
  Non  12   5 192   6
  Oui   2   2 616  18

χ² donné par Modalisa :

Khi2=28,8  ddl=3  p=0,001  (Val. théoriques < 5 = 2)

χ² donné par R :

X-squared = 36.0161, df = 3, p-value = 7.43e-08

Les effectifs théoriques sont identiques :

     Q159
Q159G       alg      esp      fra       aut
  Non  3.528722 1.764361 203.6577  6.049238
  Oui 10.471278 5.235639 604.3423 17.950762

Les écarts calculés par R sont les suivants :

     Q159
Q159G          alg          esp          fra          aut
  Non   8.47127784*  3.23563892*-11.65767878  -0.04923798
  Oui  -8.47127784  -3.23563892  11.65767878   0.04923798

Les écarts donnés par Modalisa sont identiques sauf pour les cases indiquées par des astérisques, dont on a retranché 0.5 au niveau des écarts.

Exemple 5

Tableau de départ :

     PRESH
PRESF    1    2
    1 1253 1637
    2  524    0

χ² donné par Modalisa :

Khi2=317,3  ddl=1  p=0,001  (Très significatif)

χ² donné par R avec la correction de Yates :

X-squared = 567.9734, df = 1, p-value < 2.2e-16

χ² donné par R sans la correction de Yates :

X-squared = 570.2407, df = 1, p-value < 2.2e-16

Les effectifs théoriques sont identiques :

     PRESH
PRESF        1        2
    1 1504.256 1385.744
    2  272.744  251.256

Les écarts calculés par R sont les suivants :

     PRESH
PRESF        1        2
    1 -251.256  251.256
    2  251.256 -251.256

Les écarts donnés par Modalisa sont les mêmes avec 0.5 en moins pour tous.

Cependant, dans ce cas précis, le χ² calculé est très différent. Il faut regarder du côté des χ² partiels. Ceux renvoyés par R sont :

     PRESH
PRESF         1         2
    1  41.96731  45.55645
    2 231.46093 251.25600

Modalisa, lui, renvoit 0 pour la case [2,2], dont l'effectif observé est 0. Alors que si on s'en tient à la formule de calcul, l'écart devrait être pris en compte…

Conclusion

Ce qui ressort des exemples précédents : Modalisa semble appliquer systématiquement une correction au niveau du calcul du χ². Cette correction intervient au niveau des écarts entre effectifs observés et effectifs théoriques : si les effectifs théoriques sont inférieurs à 5, alors on retranche 0.5 de la valeur absolue de cet écart (et on le place à 0 si ce faisant on obtient une valeur négative).

Cette opération fait penser à la correction de continuité de Yates. On trouve mention de cette correction sur le site de Modalisa dans un document pdf de Philippe Cibois décrivant le PEM :

http://www.modalisa.com/pdf/CiboisPEM.pdf

On y trouve notamment la phrase suivante :

une liaison forte peut être due à des effectifs non significatifs. Pour avoir une idée de cette fiabilité, on calcule un Khi-deux (muni de la correction de Yates) et l'on indique si l'on atteint les seuils standards de significativité (10%, 5%, 1%).

Ce qui est plus curieux, c'est que toutes les mentions trouvées du critère de correction de Yates précisent bien que celui-ci ne s'applique qu'à des tables de contingence de dimension 2x2 ou, ce qui revient au même, pour un nombre de degrés de libertés égal à 1.

R, par exemple, implémente cette correction via l'option correct=TRUE de la fonction chisq.test, mais la documentation précise bien :

correct: a logical indicating whether to apply continuity correction when computing the test statistic for 2x2 tables: one half is subtracted from all |O-E| differences.

On peut donc se demander si cette correction est légitime dans le cas de tables ayant plus de quatre cases…

Par ailleurs, le cinquième exemple semble montrer que Modalisa décide que les cases ayant un effectif observé égal à 0 ne comptent pas dans le calcul du χ². Là aussi il ne semble pas que ce soit une pratique très répandu parmi les logiciels de statistique.

Réponse de Modalisa

Suite à un mail envoyé au contact sité sur le site de Modalisa à propos de la correction de Yates, on a obtenu la réponse suivante le 15 mai 2007 :

Bonjour,

Voici une "réponse" de Philippe… qui comme il est de règle en ce domaine ne peut que se conformer à la relativité et la variabilité des avis en matière de calculs statistiques. Il vous donne l'une de nos références et signale que nous avons en quelque sorte "botté en touche" en adoptant le PEM de P. Cibois.

Avec mes cordiales salutations / Jean Luc Van Impe

Les avis sur l'utilisation de la correction de Yates semblent aussi divers que les ouvrages qui y font référence.

Cf par exemple :

http://cui.unige.ch/AI-group/teaching/dmc/06-07/cours/dm10-eval2-sig-roc-handouts.pdf

Dans Modalisa nous avons effectivement choisi l'option de ne pas limiter la correction de Yates aux tableaux 2x2 mais de l'étendre à tout effectif théorique inférieur à 5.

NB1 : Des auteurs comme Grais considèrent que le test du Khi2 n'est pas fiable si un effectif théorique du tableau est inférieur à 5.

NB2 : Le test du Khi2 dans Modalisa est marginal par rapport au PEM de Cibois qui nous parait mieux adapté aux données d'enquête notamment parceque cet indice est beaucoup moins sensible aux variations d'effectifs que le Khi2.

Références

Sur la correction de Yates :