Édumétrie

Édumétrie

L'édumétrie est la mesure de l'apprentissage, en sciences de l'éducation. Elle théorise et applique des concepts et des méthodes qui permettront à l'individu d'acquérir des connaissances précises (celles qui se trouvent déjà partagées entre les ressortissants dun groupe culturel dont il veut faire partie). Ses méthodes proviennent de la docimologie, science de la mesure des résultats aux examens (pour des groupes). Alors que la docimologie soccupe de normaliser (notes pondérées en fonction de la moyenne du groupe), lédumétrie permet dindividualiser la progression à travers les contenus particuliers des objectifs propres aux divers champs denseignement. Elle se situe donc, dans la pédagogie ( il est tenu compte des types de groupes détudiants), du côté de la didactique ( il est tenu compte de chaque type de matière à enseigner).

Sommaire

Histoire.

La docimologie est née à Paris en 1922[1]. Des divergences inquiétantes apparaissaient lors de la comparaison des notes obtenues par les mêmes copies selon divers examinateurs (même les plus qualifiés). Un minimum dobjectivité devait être assuré. Il fallut prendre le chemin dune standardisation des questions et des réponses (questionnaire à choix multiples : QCM)[2]. Cela rendrait applicables les formules mathématiques de la statistique.

On établit une moyenne du nombre de bonnes réponses dans un groupe, un écart-type (moyenne des écarts, positifs ou négatifs, par rapport à la moyenne, dans le groupe), et la discriminance dune qcm[3]. Mieux une qcm (question à choix multiple)[4] trie les répondants suivant leur habileté mesurée, donc de la même façon que le QCM (lensemble du questionnaire), plus elle sera sélective, cest-à-dire révélatrice de la compétence (et utilisable dans un test dévaluation). Les formules courantes de calcul des indices se trouvent expliquées sur le site de linstitut de recherche et de documentation pédagogique (IRDP) de la Suisse[5].

Le rendement scolaire dans les pays membres de lUnion européenne est comparé par lOrganisation de coopération et de développement économique (O.C.D.E.)[6]

Lévaluation de lacquis nest pas la seule tâche que pouvait entreprendre le pédagogue formé aux méthodes scientifiques. L'analyse des comportements en situation d'apprentissage a pu être abordée statistiquement dès 1948 par lAmerican Psychological Association à son congrès de Boston. Benjamin S. Bloom y a fait la synthèse des contributions en proposant une taxonomie dobjectifs cognitifs et affectifs[7] qui ajoute à la mémoire la compréhension, lapplication, lanalyse, la synthèse créative et lévaluation personnelle comme types dobjectifs principaux. À luniversité de Liège (Belgique), G. de Landsheere crée un laboratoire de pédagogie expérimentale sont mises à lépreuve les qcm, les qro (question à réponse ouverte), les qcl (question à choix large), etc. De lévaluation des groupes, on passe à la mesure des différents formes que peut prendre, pour mieux seffectuer, lapprentissage individuel. Ici peut être situé le tournant de la docimologie vers lédumétrie[8].

Un lien sétablit avec la psychologie expérimentale. On observe (Richard Bertrand, Jean-Guy Blais, Gilles Raîche) un étroite parenté entre la courbe dapprentissage dEbbinghaus, en psychologie expérimentale[9] et la courbe logistique obtenue par Birnbaum[10] à partir de la courbe gaussienne (Voir Loi normale).

Sur ces bases, une utilisation systématique des facilités de linformatisation a permis lébauche dune didactique du français moins empirique, et collaborative (elle sadresse aux enseignants). Il sagit de faire des relevés de réactions par qcm, pour des usages linguistiques concrets (le plus souvent des « fautes») selon les groupes culturels[11], et de tirer, des courbes obtenues (dites strates de compétence collectives), un apprentissage individualisé, le «sur mesure». Un tel développement demandait de recevoir un nom distinct de celui de docimologie. Édumétrie pris dans un sens spécifique semble convenir.

Problématique.

Dans un groupe partiellement connu, par ses réponses aux qcm appropriées selon le domaine denseignement, comment déterminer pour un individu qui se présente, les qcm les plus utiles (celles qui lui apprendront ce qui lui manque pour tout saisir) et comment les présenter dans lordre optimal (dabord les plus faciles, puis les autres à mesure que son niveau saccroît).

En IRT (Item response theory[12], on appelle trait latent ce que les réponses obtenues peuvent déceler concernant chaque répondant (compétence, aptitude, profil...)[13] Georg Rasch (mathématicien danois, 1901-1980) propose une formule de calcul de la probabilité de réussite à une question en fonction du score obtenu par lindividu pour lensemble du test. Cest un pas important : on établit un lien entre la difficulté dune question et la compétence de lindividu.

La formule se raffine quand elle prend en compte non seulement la difficulté (% de bonnes réponses) mais la sélectivité (que répondent ceux qui ont les meilleures notes) et même la fiabilité (quelles sont les risques de réponse choisie au hasard, le guessing). Tel est le modèle proposé par Lord[14]. Pour chaque qcm, il est tracé du courbe logistique[15]. Cette courbe dessine et mesure un «moment pédagogique», qui est le niveau d'apprentissage[16]. Le point mesuré est le moment 50% du groupe passe de l'ignorance au savoir. Ainsi est précisé un degré d'habileté auquel sont maximales les chances d'acquérir un élément microgradué de connaissance (disons, à titre dexemple, pour la langue française, le sens nouveau d'un terme, ou la pénétration inconsciente d'un calque: le «alors que» accepté par le Robert comme équivalent de «when» et non plus comme adversatif).

Dans les groupes il trouve des répondants, tout distracteur devient ainsi représentatif d'un stade de connaissance, même embryonnaire. Ne reçoit-il pas un niveau dont la formulation mathématique permet de tracer la courbe? Cette «strate de compétence» dessine, sur le plan cartésien des positions possibles dans le groupe tout entier, la zone se situent, en qualité et quantité, ses répondants. Avec plus ou moins de vigueur suivant sa «sélectivité»[17], elle décèle un niveau d'habileté, un degré de connaissance, une marge dacquisition éventuelle (quels sont les étudiants qui sont au niveau requis pour comprendre demblée le point enseigné). Les données recueillies ne contribuent à létablissement des indices que dans la mesure la fiabilité est vérifiée (on tient compte du hasard en mesurant le « guessing») et surtout, dans la mesure la question est validée pour le groupe (ceux qui répondent le mieux ne sont-ils pas majoritaires dans un des distracteurs plutôt que dans la bonne réponse prévue par les rédacteurs ?).

Or, en ce point, il a été possible daller plus loin, en introduisant dans le traitement des données les résultats obtenus pendant ce traitement. Il ne sagit pas dun quatrième paramètre mais dune mesure affinée sur elle-même de la valeur des distracteurs et du même coup, dune validation intrinsèque de la norme, dans un groupe donné.

Validation des distracteurs?

Les trois indices (niveau de difficulté, sélectivité, guessing) obtenus pour les distracteurs par les QCM dexpérimentation diffèrent selon les connaissances des groupes. Lindividu recevant un rang dans son groupe voit son rang dépendre de la compétence moyenne des autres. La dispersion de celle-ci dans le groupe varie aussi (écart type). La fiabilité est plutôt liée au contenu ou à la façon de poser la question. Au départ, le choix dun distracteur comme bonne réponse est fait par le professeur. Les indices ne peuvent pas être établis autrement que sur une échelle de valeur fixée davance. On en déduit une échelle des habiletés qui est simplement le nombre des bonnes réponses de chacun, ce qui permet de donner un rang.

Or cest seulement le rédacteur des qcm, l'enseignant comme représentant de l'institution scientifique, et des fluctuations de la vérité scientifique, qui établit quelle est la réponse à considérer comme bonne. Mais une fois que chaque distracteur a reçu un niveau (qui est celui de lhabileté moyenne obtenue par ceux du groupe qui lont choisi), il devient possible de donner une valeur à tous ceux qui ont été retenus, et plus seulement à la « bonne réponse». On découvre parfois que la norme du groupe (le choix qui attire les plus habiles) diffère de celle de lenseignant. Le phénomène est rare, sauf dans des groupes très marginaux. En revanche, pour la précision des indices, cest le détail qui change tout. Il devient possible de renvoyer la balle, de revenir de la difficulté, cette fois mesurée, à lhabileté correspondante. On dispose en effet dune échelle de valeurs expérimentée, et qui concerne tous les distracteurs. On peut mesurer à nouveau les scores obtenus par les répondants.

On obtient ainsi une nouvelle évaluation, beaucoup plus fine, des habiletés, et une échelle tellement plus précise que beaucoup de rangs ont changé. Même les «mauvaises» réponses contribuent à létablissement des valeurs des individus, pour peu qu'elles eussent quelque chose de bon (ce qui vient d'être mesuré). Et la définition de ce « qqch. de bon» nest plus dans lesprit des équipes rédactionnelles seulement mais dans celui des répondants tout autant (puisque ce sont leurs résultats qui en font la mesure). Ceci nest envisageable que dans les applications informatisées réunissant un assez grand nombre de données. Il faut traiter des lots denviron 300 qcm auxquelles ont répondu 300 personnes, prises au hasard dans une même population, si lon veut obtenir des indices assez semblables. Ces hypothèses ont pu être vérifiées au moyen dun logiciel de traitement des réponses[18] qui a servi aux Cours autodidactiques de français écrit[19].

Des itérations.

Pourquoi sarrêter en si bon chemin? Les nouvelles habiletés, pondérées en fonction de la valeur de toutes les réponses, ne vont-elle pas modifier à leur tour, si on reprend tous les calculs, la valeur des distracteurs? La balle est renvoyée à nouveau puisque c'était par l'habileté des répondants que les niveaux des distracteurs avaient été mesurés. Ils vont être remesurés, s'ajuster davantage. Et ainsi de suite. À chaque itération, quelques rangs changent, quelques distracteurs s'ajustent, des réponses jugées bonnes le deviennent moins et inversement. La clé de correction du professeur devient peu à peu celle du groupe. La pondération édumétrique concerne autant le contenu des questions que la compétence des répondants.

Ceux qui répondent au hasard ont des ensembles de réponses qui ne ressemblent à aucun autre (ce qui les identifie et permet de les disqualifier) mais ceux qui sont le plus souvent d'accord entre eux sont identifiés par comme les meilleurs, non seulement sur l'échelle a priori des bonnes réponses prévues, mais sur cette échelle qui se constitue progressivement à partir des réactions du groupe, et qui donne aux distracteurs la valeur des habiletés mesurées de ceux qui les ont choisis. Les habiletés mesurées sur les réponses qui font converger les répondants donnent une échelle les niveaux s'ajustent par palier. Le processus est poursuivi informatiquement et ne demande que quelques minutes de patience. Le logiciel relit les réponses saisies et les traite chaque fois sur la plus récente échelle obtenue pour tous les distracteurs. À chaque itération, on voit diminuer le nombre de modifications nécessaires. Ce qui est rejoint progressivement est une norme interne pour le groupe.

Conséquences didactiques.

Les indices obtenus prennent place dans un tableau. Ils sont aussi visualisés : à chaque distracteur correspond une courbe qui trace les limites du sous-groupe qui l'a choisi, selon les degrés de compétence de ceux et celles qui composent ce sous-groupe. Telles sont les strates de compétence collective qui viennent s'ordonner et s'étager dans un graphe, pour chaque qcm. D'un seul coup d'oeil, on peut faire les comparaisons qui facilitent les discussions entre enseignants ou entre l'enseignant et son groupe. Chacun peut proposer des interprétations des réactions obtenues.

Tout d'abord seront écartés du programme les points qui déstabilisent, comme trop difficiles, car ils ne peuvent que convaincre l'apprenant de son incapacité, si provisoire qu'elle soit. Les indices permettent aussi de prioriser des points de langue qui renforcent le fonctionnement du système d'expression selon l'état de connaissance du groupe. Cela donne des ensembles d'exercices bien adaptés et plus utiles, dans les classes de même population.

On peut en outre trier les questions à choix multiple par niveau pour les attribuer à chaque apprenant dans un ordre de difficulté qui croît avec sa compétence renforcée progressivement. On respecte ainsi les moments d'apprentissage mesurés. Cela donne des didacticiels autoguidés.

Un risque calculé.

Loin d'être contestée, la langue soignée, académique, sort finalement renforcée, sur bien des points, par cette épreuve, en dépit d'une certaine démocratisation didactique. Pour les fautes de français écrit, les expérimentations ont presque partout démontré que la norme enseignée et pratiquée était la mieux partagée par les plus compétents, même loin de Paris. Dans le cas des règles les plus subtiles ou des nuances de sens impondérables, ces compétents deviennent sans doute de moins en moins nombreux. C'est ce qui élève le niveau de la qcm (son indice de difficulté). Le point de langue sera à réserver aux plus habiles, en attendant que l'habileté des autres se soit élevée, et qu'ils puissent à leur tour saisir aisément une subtilité.

On se doute aussi que, pour la pondération édumétrique, la représentativité de la «population» testée (sa conformité à un public cible) est essentielle, comme en toute statistique. Et l'enseignant voit sa tâche facilitée mais non diminuée. Il lui restera à interpréter les réactions, pour son groupe, à trouver les motifs des choix selon les strates, à envisager des hypothèses, à reformuler les règles en conformité avec ce qui se passe dans les esprits de ses élèves. Il a le privilège de recueillir leurs opinions. Les motifs des erreurs deviennent analysables (subgrammaires)[20].

Il existe une étude sur l'ensemble diversifié des données cueillies en francophonie[21].

Notes et références

  1. H. Laugier, H. Piéron, Mme H. Piéron, E. Toulouse, D. Weinberg, 1934, « Études docimologiques sur le perfectionnement des examens et concours », Conservatoire national des arts et métiers, 88p.
  2. http://www.crame.u-bordeaux2.fr/pdf/docimologie.pdf
  3. Autrement dit sa sélectivité.
  4. souvent appelée item comme en anglais.
  5. http://www.irdp.ch/edumetrie/lexique/edumetrie.htm
  6. Voir notamment le Programme international pour le suivi des acquis (PISA). Dautres organismes sont mentionnés sur le site du ministère de lÉducation nationale : http://www.education.gouv.fr/cid23200/definitions-des-termes-et-indicateurs-statistiques-de-l-education-nationale.html
  7. Voir D. Leclercq (2005) Édumétrie et docimologie pour praticiens chercheurs. Éd. de lUniv. de Liègech. 4. http://www.labset.net/~georges/des_toise_leclercq.pdf
  8. Les deux termes restent encore assez souvent confondus.
  9. Voir : http://www.er.uqam.ca/nobel/m263244/biographieebbinghaus.htm
  10. http://books.google.ca/books?id=3hPlCHaA7DoC&pg=PA119&lpg=PA119&dq=Birnbaum+logistique&source=bl&ots=Q3HkhIA_8S&sig=_lK_FRKeoYGbdh6A7ceXwMqI06E&hl=fr&ei=e8IDTPyLFYL68Aakg4WbDQ&sa=X&oi=book_result&ct=result&resnum=6&ved=0CCwQ6AEwBQ#v=onepage&q=Birnbaum%20logistique&f=false. Voir aussi : Allan Birnbaum, 1962, « On the foundations of statistical inference » Journal of American Statistical Association, vol 57, no 298, p 269-326. Georg Rasch, 1981, « Probabilistic Models for Some Intelligence and Attainment Tests », Univ. of Chicago, 199p.
  11. Avec l'aide de l'Agence universitaire de la francophonie. Voir : http://www.aidenligne-francais-universite.auf.org/spip.php?page=sommaire_fr_sur_mesure.
  12. [1]
  13. Au trait latent, qui concerne les personnes, on peut considérer que correspond, du côté des contenus, le curriculum caché (http://fr.wikipedia.org/wiki/Didactique), dont les secrets donnent également lieu à des hypothèses dont on pourra tenir compte.
  14. Frederic M. Lord et Melvin R. Novick, 1968, « Statistical Theories of Mental Test Scores » Addison-Wesley, 568p.
  15. Distribution gaussienne mais dont les données sont présentées de manière cumulative, ce qui montre une progression lente, rapide, puis de nouveau lente, «en S».
  16. En unité d'écart-type, entre -3 et +3 sigmas.
  17. La raideur de la courbe, la discriminance.
  18. Réalisé par Norman W. Molhant.
  19. Voir www.cafe.edu.
  20. Voir http://www.cafe.edu/grammaire/fra1011/mod01.html Réaction 44.
  21. «Le français enseigné sur mesure. Apprivoiser la norme,» (http://www.cafe.edu/accueil/ordolit.pdf) Conseil international de la langue française.

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Édumétrie de Wikipédia en français (auteurs)

Игры ⚽ Поможем решить контрольную работу

Share the article and excerpts

Direct link
https://fr-academic.com/dic.nsf/frwiki/2174449 Do a right-click on the link above
and select “Copy Link”