Discussion de l’étude ENSAE Junior Etudes
A la suite de la publication sur le site de M. Franck Ramus, chargé de recherches au CNRS laboratoire des Sciences Cognitives et Psycholinguistiques, le 22 octobre 2006, d’un texte signé par lui et par M. Rémi Brissiaud, maître de conférences à l’IUFM de Versailles, et cosigné par vingt-deux autres chercheurs en psychologie cognitive, neuropsychologie et sciences de l’éducation, nous lui avons adressé l’étude réalisée, pour le compte d’Enseignement et Liberté, par la Junior entreprise de l’Ecole Nationale de la Statistique et de l’Administration Economique.
Le texte du 22 octobre, qui fait suite à un texte de même nature, publié en mars 2006, réaffirme que « les études d’évaluation ne font pas ressortir de différences significatives d’efficacité entre ces différentes approches » (les approches synthétiques, c’est-à-dire alphabétiques ou syllabiques, et les approches analytiques, c’est-à-dire semi globales. Il en déduit qu’ «Il n’y a notamment pas lieu de leur imposer (aux maîtres) l’usage d’une méthode exclusivement synthétique (parfois appelée la méthode syllabique). »
L’étude d’ENSAE Junior Etudes avait pour objet de :
Vérifier la validité de la conclusion d’une étude du National Reading Panel, réalisée aux Etats-Unis, selon laquelle les performances des élèves ayant appris à lire par l’une ou l’autre approche ne sont pas différentes du point de vue du statisticien.
Vérifier la validité d’une étude menée en Ecosse, dans le comté de Clackmannan, qui conclut à la supériorité de l’approche synthétique sur l’approche analytique.
Les conclusions de l’étude ENSAE sont que :
Contrairement à l’interprétation que donne le NRP, il y a une différence significative au sens statistique à l’avantage de la voie synthétique. La conclusion de l’étude Clackmannan, selon laquelle l’enseignement de la lecture par la voie synthétique est plus efficace que la voie analytique est fondée statistiquement.
L’opposition entre le point de vue des chercheurs précités et l’étude ENSAE tient à ce que :
- Le NRP a utilisé pour comparer les résultats obtenus par les deux méthodes, un test, dit du risque de première espèce, qui le conduit à conclure qu’en affirmant que les résultats, à l’avantage de l’approche synthétique, mesurés dans un nombre limité de classes peuvent être généralisés, le risque de se tromper est supérieur à 5%. Cela est vrai et pourrait être utile si le choix de la méthode synthétique, la meilleure d’après les résultats mesurés, présentait des dangers pour la santé des enfants ou sous tout autre aspect
- . Or, une telle éventualité n’a même pas été envisagée. C’est donc, à notre avis, le test utilisé par l’ENSAE, dit du risque de deuxième espèce, qui doit être employé pur comparer deux moyennes.
- L’étude Clackmannan ne semble pas avoir été prise en considération par eux jusqu’au présent échange de correspondance.
En ce 21 janvier 2007, si le désaccord sur le fond demeure, la discussion a permis d’aboutir aux points d’accord et aux clarifications suivantes :
La position de M. Ramus et de ses collègues sur l’absence de différence dans les résultats des deux méthodes est bien fondée sur l’étude NRP. (Cf. 16 novembre 2006, § 1) La formulation du décret du 24 mars peut bien être interprétée comme interdisant l’emploi d’une approche synthétique sans une approche analytique « complémentaire ». Enseignement et Liberté ne prétend pas imposer une unique méthode d’enseignement le la lecture à quiconque, mais demande que soit reconnue la supériorité des résultats obtenus par l’approche synthétique et qu’on laisse chacun libre de la choisir, ce qui n’est pas le cas aujourd’hui.
Nous donnons
ci-après, dans son intégralité, la correspondance échangée avec M. Ramus,
correspondance qu’il publie lui-même sur son site :
http://www.lscp.net/persons/ramus/lecture/lecture3.html
Le 8 novembre 2006 : d’Enseignement et Liberté à Franck Ramus
Le texte collectif, en date du 22 octobre, publié sur votre site, réaffirme que « Les études d’évaluation ne font pas ressortir de différences significatives d’efficacité entre ces différentes approches. »
L’étude ci-jointe, que vient de réaliser la junior entreprise de l’ENSAE, fait apparaître ces différences significatives en faveur de l’approche phonosynthétique.
Je serais heureux d’avoir votre opinion sur ces résultats.
PS : l’étude ENSAE va être mise sur notre site cette semaine. Nous autoriserons volontiers sa mise en place sur d’autres sites à ceux qui nous en feront la demande.
Le 13 novembre : de Franck Ramus à Enseignement et Liberté
Cette réponse a été publiée, enrichie d’une introduction et de notes, sur le site de Frank Ramus (voir ci-après, Analyse de Franck Ramus)
Le 16 novembre : de Franck Ramus à Enseignement et Liberté
Je vois que
malgré mes réserves vous accordez un grand crédit au rapport de l'ENSAE et vous
l'avez publié sur votre site. Je pense néanmoins que mon analyse serait utile à
vos lecteurs pour se faire un point de vue indépendant. Si vous m'aviez demandé
mon autorisation de la publier sur votre site, je vous l'aurais bien sûr donnée
(je peux encore le faire).
Au cas où ce ne serait pas votre intention, je l'ai également postée sur mon
propre site:
http://www.lscp.net/persons/ramus/lecture/lecture3.html
Bien entendu j'ai inclus tous les liens vers votre site et les arguments que
vous développez, car pour moi il est essentiel que le débat soit contradictoire,
c'est la condition de la liberté d'information de chacun. Puisque la liberté
vous est visiblement très chère à vous aussi, je vous suggère donc de mettre en
retour sur votre site un lien vers ma page, afin que tous vos adhérents puissent
eux aussi avoir accès à la libre information et être en mesure de se faire leur
propre opinion.
Analyse de Franck Ramus publiée sur son site :
Mise au point sur l'efficacité comparée des approches synthétiques et analytiques de l'enseignement du déchiffrage
Franck Ramus
16 novembre 2006
L'affirmation que des collègues et moi-même avons faite précédemment (ici et là), selon laquelle les études d'évaluation ne montrent pas de différence d'efficacité entre les approches synthétiques et analytiques de l'enseignement de la lecture, repose sur la méta-analyse du National Reading Panel, qui a trouvé entre les deux approches une différence de taille d'effet de 0.11 écart-type, statistiquement non significative. Bien entendu, l'absence de différence statistiquement significative dans cette méta-analyse ne prouve pas l'absence réelle de différence. Il était donc inévitable que cette absence de différence soit contestée.
C'est ce que fait l'association Enseignement et Liberté, sur la base d'une contre-expertise commandée à la junior-entreprise de l'ENSAE. Ce rapport m'a été envoyé pour avis par un membre de l'association, auquel j'ai renvoyé un certain nombre de commentaires, déconseillant la publication. Aujourd'hui l'association publie néanmoins le rapport sur son site, suivi de plusieurs analyses et déclarations (la 1ère, la 2ème, la 3ème, la 4ème). Pour permettre à chacun de se faire une idée sur la base de différents points de vue, je recopie donc ma réponse ci-dessous, augmentée de quelques notes explicatives.
J'ai bien lu le
rapport que vous m'avez envoyé.
La première partie me parait être une tentative maladroite de faire passer pour
statistiquement significatives des différences qui ne le sont pas. Pour aboutir
à ce résultat, l'auteur propose en quelque sorte d'inverser la charge de la
preuve et de se satisfaire d'une probabilité de 5% que la différence soit réelle
pour accepter cette différence (1). D'un
point de vue strictement mathématique ce n'est pas répréhensible, car tout
critère statistique de significativité est arbitraire, et fait donc l'objet d'un
choix délibéré. En revanche c'est une absurdité épistémologique. Ce n'est tout
de même pas un hasard si tous les scientifiques du monde sont d'accord pour
maintenir le critère de certitude à 95%. Il y a bien des désaccords, mais
typiquement de la part de gens qui voudraient le porter à 99%, c'est-à-dire le
rendre encore plus strict, pas le contraire. Il ne viendrait à l'esprit de qui
que ce soit de sensé de vouloir le descendre à 5%! Cela reviendrait à prendre
pour certain tout et n'importe quoi, et les "certitudes" n'en finiraient pas de
se contredire les unes les autres! Si le législateur devait prendre ce critère
de certitude pour informer ses décisions, alors il devrait modifier les lois
toutes les semaines à la lumière de telle nouvelle étude apportant une
"certitude" contredisant les précédentes. Vraiment, cette argumentation est
ridicule, si vous l'utilisez vous allez vous mettre dans l'embarras.
Accessoirement je pense qu'il y a une erreur de calcul dans la reconstitution
des écart-types du NRP, car à vue de nez ils sont trop faibles d'un ordre de
grandeur pour être corrects (2). S'ils
étaient ceux indiqués, alors les différences obtenues par le NRP seraient
statistiquement significatives selon les critères usuels, or ce n'est pas le
cas. Mais peu importe, car le problème est dans la définition du critère, pas
dans les chiffres (3).
La deuxième partie est une présentation honnête de l'étude de Johnston & Watson
2004 (4) (dite "du Clackmannanshire").
Remarquez qu'ici l'auteur ne propose pas de changer de critère statistique,
puisque le critère usuel suffit à aboutir au résultat espéré...
Incontestablement cette étude produit des résultats en faveur de l'approche
synthétique. Evidemment il est tentant de mettre en exergue cette étude, mais
peut-on ignorer que d'autres études ont donné des résultats différents? C'est
bien parce qu'il y a une grande variabilité et des contradictions entre les
études, qu'une méta-analyse de plusieurs études est infiniment supérieure aux
résultats d'une seule.
Comme l'a observé l'auteur du rapport, la méta-analyse du NRP n'était pas
centrée sur la comparaison analytique-synthétique, et a pu exclure quelques
études pertinentes, donc n'était pas idéale pour répondre à la question qui vous
intéresse. Par ailleurs, publiée en 2000, elle n'inclue pas les études plus
récentes, notamment celle de Johnston & Watson.
J'attire donc votre attention sur une nouvelle méta-analyse réalisée cette année
à la demande du gouvernement britannique, et ayant parmi ses missions d'évaluer
la question analytique-synthétique:
http://www.dfes.gov.uk/research/data/uploadfiles/RR711_.pdf
Les auteurs ne trouvent que 3 études évaluant cette question rigoureusement,
dont celle de Johnston & Watson, mais les deux autres aboutissent à des
conclusions opposées. Au total la méta-analyse donne un avantage non
significatif de 0.2 écart-type en faveur de la méthode synthétique, même
conclusion que le NRP. Les auteurs ajoutent qu'avec 3 études seulement, le degré
de confiance qu'on peut avoir dans cette conclusion est évidemment faible, et
que d'autres études seraient nécessaires pour vraiment savoir s'il y a une
différence d'efficacité.
La conclusion de tout ça, c'est que les données scientifiques actuelles
n'indiquent pas de différence d'efficacité entre les approches analytiques et
synthétiques. Mais elles sont en quantité insuffisante, et donc le débat n'est
pas clos. Si vous voulez avoir le fin mot de l'histoire, il ne sert à rien de
faire des contorsions statistiques pour déformer l'interprétation normale des
données, il faut simplement encourager de nouvelles recherches rigoureuses et à
grande échelle sur le sujet. Et tout particulièrement en France, en évaluant les
méthodes en usage en France. Par exemple, les partisans des méthodes
"naturelles" ne manqueront pas de souligner que les méthodes analytiques
anglophones qui ont été évaluées n'incorporent pas les activités intensives
d'écriture dont ils pensent qu'elles sont le meilleur moyen d'apprendre le code.
Je ne sais pas s'ils ont raison, mais on ne pourra le savoir que si ces méthodes
particulières sont évaluées, à côté des autres méthodes synthétiques,
analytiques et mixtes en usage en France. Si vous avez l'oreille du ministre, ne
manquez donc pas de lui souffler de mettre de l'argent de côté pour cela (dans
l'Agence Nationale de la Recherche, par
exemple).
1. Pour justifier ce critère, l'auteur utilise la métaphore d'une société pharmaceutique devant décider lequel de deux médicaments elle doit commercialiser. Mais cette question n'est pas comparable à celle qui nous est posée. Une entreprise peut, pour des raisons budgétaires, être contrainte de faire un choix entre deux alternatives, et dans ce cas faire le choix sur la base d'un critère de certitude de 5% n'est pas plus bête que de tirer à pile ou face ou de consulter un astrologue. Mais si l'on prend le point de vue de l'Afssaps qui délivre les autorisations de mise sur le marché, doit-elle refuser l'AMM à l'un des deux médicaments sous prétexte qu'il y a 5% de chances qu'il soit moins efficace qu'un autre (si tant est qu'il reste supérieur au placebo)? L'entreprise le produisant aurait beau jeu de crier au scandale, et à la discrimination injuste en l'absence de preuves scientifiques. Le ministère de l'éducation nationale est dans la même position que l'Afssaps: autoriser une diversité de méthodes qui sont toutes efficaces ne nuit pas. Pour en arriver à en interdire une par voie législative, il paraît légitime d'exiger le niveau de preuve scientifique usuel sur sa moindre efficacité.
2. A la relecture, la source de l'erreur me paraît être que l'auteur a confondu les intervalles de confiance à 95% de la moyenne de la distribution, avec l'intervalle contenant les 95% de l'effectif de la distribution.
3. Cette erreur de calcul a tout de même une importance par rapport aux arguments que l'on trouve sur le site d'Enseignement et Liberté, selon qui "il y a trois chances sur quatre que la phonosynthétique soit la meilleure". Cette affirmation est basée sur la probabilité de 26% calculée dans le rapport, or ce calcul repose sur les écart-types erronés. Avec les véritables écart-types il est clair que l'incertitude concernant la différence d'efficacité serait beaucoup plus grande. Elle n'est pas donnée dans le rapport du NRP, mais elle l'est dans le rapport britannique: 87% (de se tromper en affirmant que les deux approches ont une efficacité différente).
4. Johnston, R. S., & Watson, J. E. (2004). Accelerating the development of reading, spelling and phonemic awareness skills in initial readers. Reading and Writing, 17(4), 327-357.
Le 21 novembre 2006 : d’Enseignement et Liberté à Franck Ramus
En déplacement
pendant quelques jours, j'ai eu votre message du 13 peu avant mon départ et j'ai
trouvé celui du 16 à mon retour, hier soir.
Sans attendre de vous répondre sur le fond de notre différend, portant sur le
bon usage de l'hypothèse nulle, et avant d'avoir reçu la réponse de la junior
entreprise de l'ENSAE à vos observations sur ses calculs, je vous donne mon
plein accord sur le principe d'un débat contradictoire. J'approuve vos
suggestions sur le sujet et je vais demander que le lien avec votre site, qui
figure à la page 2 du rapport ENSAE, soit affiché d'une manière plus visible. Je
vous autorise bien volontiers à publier ce que je vous adresserai et à reprendre
ce que je publierai ailleurs, en vous demandant de bien vouloir me confirmer
votre accord de réciprocité. En ce qui concerne
les textes figurant sur notre site, je vous précise que nous reconnaissons comme
nôtres ceux qui ne sont pas signés ou le sont par le recteur Pécheul, les
opinions exprimées par des tiers, et publiées par nous en raison de l'intérêt
qu'elles nous semblent présenter, n'engageant que leurs auteurs.
Je voudrais dès maintenant éviter une confusion sur nos objectifs :
Nous ne demandons pas l'interdiction de quelque méthode que ce soit, et plus
précisément des phonoanalytiques, pour les raisons suivantes :
- A nos yeux toutes les libertés sont solidaires et inséparables; la liberté
pédagogique des professeurs nous est donc aussi chère que la liberté de choix de
l'école par les parents.
- Interdire les méthodes phonoanalytiques serait irréaliste dans les conditions
actuelles de formation des maîtres.
Notre recours devant le Conseil d'Etat n'a donc pas pour objet de faire évoluer
la législation à la parution de chaque nouvelle étude, mais d'obtenir une
rectification d'un texte qui, en présentant les deux approches comme
complémentaires, peut faire obstacle à l'emploi exclusif d'une méthode
phonosynthétique par ceux qui le souhaitent, contrairement à l'intention
exprimée par la circulaire du 3 janvier et conformément à l'opinion de ceux qui
se sont réjouis d'un statu quo.
Enfin, pour permettre un débat serein, je vous propose que nous évitions les
épithètes disgracieuses et les conseils intempestifs.
Je vous prie de croire à ma cordiale considération.
Philippe Gorre
Le 1er décembre : de Franck Ramus à Enseignement et Liberté
"Notre recours devant le Conseil d'Etat n'a donc pas pour objet de faire évoluer la législation à la parution de chaque nouvelle étude, mais d'obtenir une rectification d'un texte qui, en présentant les deux approches comme complémentaires, peut faire obstacle à l'emploi exclusif d'une méthode phonosynthétique par ceux qui le souhaitent, contrairement à l'intention exprimée par la circulaire du 3 janvier et conformément à l'opinion de ceux qui se sont réjouis d'un statu quo."
Je comprends
mieux votre position maintenant. C'est vrai qu'il y a dans l'arrêté une phrase
qui peut être interprétée comme préconisant exclusivement les méthodes mixtes,
par opposition aux analytiques pures et aux synthétiques pures. Je doute que ce
soit l'intention des auteurs, mais c'est un fait. Et je comprends donc que vous
militiez pour une interprétation plus large et une désambigüisation du texte.
En ce qui me concerne, puisqu'au vu des données actuelles je ne vois pas de
raison de croire à la supériorité d'une méthode sur l'autre, évidemment
l'argument va dans les deux sens: il n'y a pas plus de raison de vouloir
interdire les méthodes synthétiques que les méthodes analytiques.
Le 22 janvier 2007 : d’Enseignement et Liberté à Franck Ramus
Qu’il s’agisse
d’une ambiguïté accidentelle (votre message du 1er décembre) ou d’un
amalgame délibéré, tout le monde devrait être d’accord pour clarifier l’arrêté
du 24 mars ; et pourtant, il semble qu’il y ait des résistances.
Sur les autres points soulevés dans votre blog du 16 novembre.
Les affirmations en faveur de l’équivalence des résultats obtenus par les
méthodes phonosynthétiques et phonoanalytiques ont pour justification
scientifique principale, si ce n’est unique, le rapport du NRP et ces
affirmations ne laissent pas de place au doute : « du moment que le déchiffrage
est enseigné systématiquement, il importe peu que l’approche soit plutôt
analytique ou synthétique ».
C’est pourquoi il nous a paru nécessaire d’émettre des réserves sur les critères
de sélection des études retenus pour la méta analyse NRP et d’attirer
l’attention sur le fait, qui est signalé dans le rapport mais n’a pas, à ma
connaissance, été repris par la suite, que le refus de valider statistiquement
la supériorité, constatée par le NRP, même s’il la qualifie de petite
(1), de l’approche synthétique est justifié par le fait que la
reconnaissance de cette supériorité comporte une probabilité de se tromper
supérieure à 5%.
La limite de 5%, ou une limite inférieure, est parfaitement justifiée, en raison
des risques financiers et, dans certains cas, humains, attachés à la mise sur le
marché d’un produit industriel ou d’un médicament non-conformes. Le choix est
alors de lancer une fabrication ou de renoncer à la lancer.
Où est le risque dans le cas des méthodes de lecture ? Et le choix est-il entre
enseigner ou ne pas enseigner ?
Le choix entre deux méthodes de lecture appartient à la catégorie des choix
inéluctables devant lesquels chacun de nous se trouve placé en de nombreuses
circonstances de la vie : choix d'un lycée pour ses enfants, d'un trajet pour se
rendre à son travail, etc. Nous faisons ces choix sur la base d'informations
statistiques souvent peu fiables, telles que les résultats au baccalauréat, les
temps de trajet constatés, ou d’éléments subjectifs. Ce que nous choisissons,
c’est la solution qui nous semble, explicitement ou implicitement, avoir plus
d'une chance sur deux d'être la meilleure. Il n’y a pas de raisons, en effet, de
limiter à 5% un risque qui n’existe pas.
La démarche de ENSAE Junior Etudes n’a pas consisté, comme vous le craignez, à
accepter comme réelle une différence qui n’a qu’une probabilité de 5% de l’être,
mais à évaluer cette probabilité, en calculant le risque de seconde espèce, ce
que le NRP n’avait pas fait.
Elle a pu ainsi répondre d’une façon qui nous paraît satisfaisante à la question
que nous lui avions posée, qui était : que peut-on dire en probabilité de la
différence constatée dans la méta analyse du NRP entre les résultats obtenus par
l’approche synthétique et ceux obtenus par l’approche analytique ? ENSAE Junior
Etudes a procédé pour y répondre d’une façon classique, en testant l’hypothèse
nulle, « Il n’ya pas de différence », puis l’hypothèse alternative, « Il y a une
différence ».
Le NRP ayant fait le choix de ne pas se poser cette question, il n’est pas
surprenant qu’il ait conclu en faveur d’un statu quo entre les deux approches.
Il y a quarante ans, il aurait conclu, au contraire, avec le même raisonnement,
les mêmes résultats et les mêmes calculs, qu’il n’y avait pas lieu de mettre en
cause le quasi monopole qu’exerçait alors le b.a.-ba.
Cependant, écrivez-vous, « Ce n'est tout de même pas un hasard si tous les
scientifiques du monde sont d'accord pour maintenir le critère de certitude à
95%. Il y a bien des désaccords, mais typiquement de la part de gens qui
voudraient le porter à 99%, c'est-à-dire le rendre encore plus strict, pas le
contraire. »
Ce n’est pas un hasard, mais ce n’est pas non plus une preuve. N'est-il pas
étonnant qu’il ait fallu attendre la fin du XXe siècle pour que soit
reconnue, dans le rapport du National Reading Panel, que l’enseignement
systématique du déchiffrage est plus efficace que son enseignement non
systématique ou absent, efficacité connue depuis l’antiquité ?
Et ce n’est sûrement pas sans de bonnes raisons que vous avez écrit, en
préambule du Point de vue scientifique publié en mars dernier : « Tout
d’abord, nous affirmons avec force que la question de l’efficacité comparée de
différentes pratiques pédagogiques est une question qui peut et qui doit être
abordée d’une manière scientifique. »
Les conditions d’application du test de l’hypothèse nulle suscitent d’ailleurs
des critiques.
Les éditeurs de revues scientifiques, qui demandent des formules mathématiques
et des calculs, seraient largement responsables de leur généralisation ! Elle
aurait pour conséquences de très nombreuses erreurs et l’hypothèse alternative
ne serait presque jamais examinée parce que difficilement évaluable. (2)
L’auteur de l’étude ENSAE nous a indiqué que l’écart type pour les méthodes
mixtes est bien de 0,1, comme vous le supposez, et non de 0,01, comme elle l’a
écrit p. 8, mais que les calculs ont été faits avec 0,1. Par ailleurs l’exemple
choisi dans l’industrie pharmaceutique, ce qui a pu prêter à confusion, porte
sur des tests de dépistage et pas sur des médicaments, comme vous l’indiquez
dans votre note 1 du 16 novembre.
Je vous remercie de m’avoir signalé la méta analyse Torgeson que je n’ai encore,
ni lue, ni fait examiner. Je vous donnerai notre appréciation dès que possible
et je souhaite avoir la vôtre.
(1)
Additional research would be useful for determining whether the
small difference between the synthetic and large unit approaches is a reliable
on. P; 2-119
(2) Entre autres :
http://www.ehess.fr/revue-msh/pdf/N167R900.pdf
http://www.ulg.ac.be/cogsci/clabiouse/statistical_significance.pdf