Découverte expérimentale de la droite de régression avec GeoGebra

mercredi 29 août 2012
par  Alain BUSSER

Il faut environ une heure à des étudiants de BTS pour redécouvrir expérimentalement

  • que la droite de régression obtenue par la méthode des moindres carrés passe par le point moyen du nuage ;
  • que son coefficient directeur est le quotient de la covariance par la variance des abscisses ;
  • pourquoi elle s’appelle « droite des moindres carrés » ;
  • et ce qu’est le coefficient de corrélation.

Une constatation préliminaire : environ la moitié de ces bacheliers (essentiellement STL) n’ont jamais vu GeoGebra de leur vie [1]...

Vidéoprojeter l’ordinateur d’un des étudiants aide grandement les autres, et les oblige à rester concentrés pendant toute l’heure.

Nuage de points

La création d’un nuage de points est rapide grâce au nommage automatique de GeoGebra. Cela met les étudiants en confiance (ils voient que GeoGebra est facile à utiliser et ne se découragent pas d’emblée) et permet de gagner du temps pour la suite, qui est plus longue. Pour faire le tout en une heure, il vaut mieux prendre 4 points ; mais par pure ambition, 5 points A, B, C, D et E ont été construits.

Pour construire la droite de régression obtenue par la méthode des moindres carrés, il suffit de sélectionner l’outil idoine (menu des droites construites), puis d’encercler les points avec un rectangle de sélection tracé à la souris :

Après ça, il faut quand même faire un clic droit sur la droite [2] pour mettre son équation sous la forme y=ax+b, et en profiter pour la colorier en rouge. En examinant les propriétés de la droite, on découvre la syntaxe des listes :

{A,B,C,D,E}

qui servira par la suite.

Point moyen

Encore un raccourci utile : la possibilité d’additionner des points pour avoir directement le point moyen :

En mettant le point moyen G en vert (et en lui donnant une autre forme) pour le distinguer des points du nuage, on peut maintenant découvrir expérimentalement la propriété suivante :


La droite de régression obtenue par la méthode des moindres carrés passe toujours par le point moyen du nuage.

Moindres carrés

Ensuite, pour montrer d’où vient ce nom bizarre [3], on construit une autre droite (FH) en pointillés verts ci-dessous :

Les points A, B, C, D et E ont été projetés sur la droite (FH) parallèlement à l’axe des ordonnées avec l’algorithme suivant :

  1. On a tracé les droites verticales passant par A, B, C, D et E avec l’outil « parallèle » (en cliquant sur un des points puis l’axe des ordonnées) ; c’est là que les plus lents ou les plus maladroits commencent à ramer un peu ;
  2. puis on a construit les intersections de ces droites verticales avec la droite (FH) ;
  3. puis on a caché les droites verticales (en cliquant sur le bouton à gauche de leur nom dans la fenêtre algèbre) ;
  4. puis on a construit les segments en mauve, que GeoGebra a nommés h, i, j, k et l ;
  5. enfin on a caché les points d’intersection.

Là, on voit de tout !

La droite passant par B n’est pas toujours parallèle à l’axe des abscisses :

  • Elle est parfois parallèle à la droite de régression.
  • Elle est parfois parallèle à la droite (AB).
  • Elle est parfois tracée au jugé, en construisant le point d’intersection avant la parallèle...
  • Elle est parfois perpendiculaire à la droite (FH) [4].

Par ailleurs, certains étudiants préfèrent les segments aux droites et j’ai moi-même deux fois de suite construit les intersections avec la droite de régression plutôt qu’avec la droite (FH) ; la fenêtre des propriétés de GeoGebra est d’une aide précieuse pour redéfinir après coup un objet et ceux qui en dépendent, et donc pour tous ceux qui, comme leur prof, font de grosses bêtises !

Pour éviter de surcharger la figure (et par manque de temps), on n’a pas tracé les carrés assis sur ces segments mauves, dont on cherche à minimiser la somme des aires. On s’est contenté de calculer algébriquement cette somme avec

sdc=h*h+i*i+j*j+k*k+l*l

L’abondance d’objets déjà construits rend malaisée la lecture de la fenêtre algèbre, et l’affichage de la somme des carrés a été introduit dans la figure sous la forme d’un texte dynamique, où la variable sdc est concaténée au texte par un « + » :

C’est cette étape qui a le plus épaté les étudiants. L’effet est assez puissant, il faut le reconnaître :

Environ les deux tiers des étudiants ont réussi à minimiser la somme des carrés, et donc à découvrir que pour atteindre ce minimum, il fallait placer F et H sur la droite rouge. D’où son nom :


La droite des moindres carrés est celle qui minimise la somme des carrés des distances verticales (c’est-à-dire les longueurs des segments verticaux) des points à la droite.

Covariance

Pour la suite (qu’un seul groupe a eu le temps de faire en entier), on peut rendre invisible tout ce qui a été construit à l’onglet précédent. La covariance a été définie dans le cours.

Comment ?

En utilisant la notation avec une barre pour la moyenne, on peut redéfinir les variances de x et y sans avoir à utiliser la notation Σ :

La définition de la covariance est alors naturelle ; son interprétation l’est beaucoup moins.

La trousse d’outils statistiques de GeoGebra est assez étendue pour inclure la covariance, et en plus, avec le raccourci de regrouper les x et les y comme coordonnées de points :

Sans trop chercher à comprendre ce qu’est exactement la covariance [5], on peut faire

c1=Covariance[{A,B,C,D,E}]
c2=Variance[{x(A),x(B),x(C),x(D),x(E)}]
c3=c1/c2

puis colorier c3 en rouge et le comparer avec le coefficient directeur de la droite de régression pour découvrir expérimentalement la propriété suivante :


Le coefficient directeur de la droite de régression obtenue par la méthode des moindres carrés est le quotient de la covariance des abscisses et des ordonnées, par la variance des abscisses.

Ce qui fournit un algorithme permettant de calculer l’équation de la droite [6]

Corrélation

Dans le cours, le coefficient de corrélation a été défini comme le quotient de de la covariance par le produit des écarts-type :

Mais GeoGebra a aussi un coefficient de corrélation, et peut même calculer directement celui des abscisses et ordonnées d’un nuage de points :

La fin de l’activité a donc consisté à comparer ces deux nombres, et à évaluer l’impact de l’alignement des points sur la valeur du coefficient de corrélation :

Points très mal alignés :

Points plutôt mal alignés :

Points bien alignés :

Points bien alignés mais... :

Hacking

Tout ceci amène assez naturellement la question de savoir comment GeoGebra calcule les coefficients en question, et notamment si c’est avec les formules du cours. Or, GeoGebra étant un logiciel libre, il est tout-à-fait possible de répondre à cette question, tout simplement en consultant son code source [7]

Voici donc la manière dont GeoGebra calcule l’équation de la droite de régression (on constate le calcul simultané des moyennes et de la variance des x et de la covariance, dont les numérateurs sont nommés respectivement sigmax, sigmay, sigmaxy et sigmaxx) :

public final void compute() {
    double sigmax = 0;
    double sigmay = 0;
    double sigmaxx = 0;
    // double sigmayy=0; not needed
    double sigmaxy = 0;
    for (int i = 0; i < size; i++) {
        GeoElement geo = geoList.get(i);
        if (geo.isGeoPoint()) {
            double xy[] = new double[2];
            ((GeoPoint) geo).getInhomCoords(xy);
            double x = xy[0];
            double y = xy[1];
            sigmax += x;
            sigmay += y;
            sigmaxx += x * x;
            sigmaxy += x * y;
            // sigmayy+=y*y; not needed
        } else {
            g.setUndefined();
            return;
        }
    }
    // y on x regression line
    // (y - sigmay / n) = (Sxx / Sxy)*(x - sigmax / n)
    // rearranged to eliminate all divisions
    g.x = size * sigmax * sigmay - size * size * sigmaxy;
    g.y = size * size * sigmaxx - size * sigmax * sigmax;
    g.z = size * sigmax * sigmaxy - size * sigmaxx * sigmay; // (g.x)x +
    // (g.y)y +
    // g.z = 0
}

Si on fait abstraction du fait que l’équation de la droite est donnée sous forme homogène [8], l’équation de la droite de régression est bien établie à partir des deux informations suivantes :

  1. Son coefficient directeur est le quotient de la covariance par la variance des x (plus précisément, le quotient de leurs numérateurs ; en effet ils ont le même dénominateur) ;
  2. Elle passe par le point moyen.

Quant au calcul du coefficient de corrélation, lui aussi est fait d’après la définition du cours :

case  STATS_PMCC:
    result.setValue((sumxy*sizex-sumx*sumy)/Math.sqrt((sumxx*sizex-sumx*sumx)*(sumyy*sizex-sumy*sumy)));

Michael Borcherds économise le calcul d’une racine carrée en utilisant le fait que le produit des écarts-type est la racine du produit des variances. Et il économise les divisions par le nombre de points du nuage en gardant les numérateurs au lieu des moyennes.


[1et souvent, pas d’autres logiciels de géométrie dynamique non plus.

[2suivi de près par un clic gauche sur la gauche...

[3c’est important que le nom de cet objet ait un sens, parce que d’autres droites de régression ont été vues au lycée, dont celle obtenue par l’algorithme de Mayer ; donner un sens à l’expression « moindres carrés » aide à comprendre le caractère unique de cette droite et à faire le lien avec la calculatrice.

[4très bonne idée au demeurant : l’expression « moindres carrés » peut se comprendre de plusieurs manières, et la notion de distance d’un point à une droite est, fort heureusement, porteuse de sens...

[5a priori, il suffit de savoir la calculer ; a posteriori, ce n’est même pas une exigence du programme, la seule chose qui sera demandée au BTS étant de savoir utiliser la calculatrice.

[6la connaissance du coefficient directeur et d’un point, en l’occurrence le point moyen, suffit - théoriquement - à permettre de trouver l’ordonnée à l’origine.

[7avec l’aide précieuse de Mathieu Blossier, de l’IREM de Rouen.

[8depuis sa création en 2001, GeoGebra est un logiciel de Géométrie projective.


Commentaires

Annonces

Prochains rendez-vous de l’IREM

Séminaire EDIM-IREM

- Mercredi 11 octobre 2017, 14h-18h, campus du Tampon
- Mercredi 22 novembre 2017, 14h-18h, campus du Tampon
- Mercredi 7 février 2018, PTU, Saint-Denis, salle S23.6
- Mercredi 7 mars 2018, 14h-18h, campus du Tampon
- Mercredi 4 avril 2018, PTU, Saint-Denis, salle S23.6
- Mercredi 2 mai, 14h-18h, campus du Tampon
- Mardi 5 juin 2018, PTU, Saint-Denis, salle S23.6
- Mercredi 6 juin, 14h-18h, campus du Tampon

Fête de la science

Du 13 au 18 novembre 2017.
Thème : « La recherche à l’heure du numérique »

Semaine des mathématiques

Du 26 au 31 mars 2018.
Thème : « Mathématiques et mouvement »


Brèves

Décès de Raymond Smullyan

mercredi 15 mars

Le logicien Raymon Smullyan est décédé en février 2017, à l’âge respectable de 97 ans : Il avait eu Alonzo Church comme professeur ! Pour en savoir plus, voir cet article

Travailler à plusieurs

lundi 19 décembre 2016

Les enseignements d’exploration au lycée imposent aux enseignants de travailler ensemble. Chantal Tuffery-Rochdi a analysé dans sa thèse les pratiques des enseignants de MPS (méthodes et pratiques scientifiques). Elle répond aux questions des Cahiers pédagogiques.

Un document sur Eduscol

mardi 19 mai 2015

Un document clarifiant bien la façon dont les mêmes concepts vivent en mathématiques et dans les sciences « exactes » les utilisant, publié par Eduscol en octobre 2014. Citons-les :
« Le document proposé ci-dessous s’adresse aux professeurs de mathématiques, physique-chimie et sciences de l’ingénieur intervenant dans le segment [Bac-3 ; Bac+3]. Il vise à les informer des différences de présentation et d’interprétation qui sont faites de certains concepts mathématiques dans les autres disciplines. Ces éclaircissements peuvent contribuer à harmoniser et à clarifier l’utilisation de ces notions auprès des élèves. »

Histoire de la comptabilité

vendredi 28 décembre 2012

Sur ce site (en anglais) dédié à la comptabilité, on trouve des informations intéressantes sur l’histoire et les pratiques de ce domaine, qui peuvent être utiles aux professeurs enseignant des mathématiques financières (et aussi aux autres...).

La CGE et la réforme des lycées

lundi 16 janvier 2012

La Conférence des Grandes Écoles publie 19 préconisations pour la réforme du lycée.

Sur le Web : Les 19 préconisations

Pratique des mathématiques en série STD2A

lundi 16 janvier 2012

Le site de l’IGEN offre des recommandations et des ressources pour enseigner les mathématiques en série STD2A. Les thèmes abordés (couleurs et nuances de gris, arcs et architecture, jeux vidéos, photo et tableur, perspectives parallèles...) sont de nature à donner aussi des idées d’activités aux enseignants des autres séries !

En cheminant avec Kakeya

lundi 16 janvier 2012

Un livre (à télécharger) de Vincent Borelli et Jean-Luc Rullière qui présente le calcul intégral et la dérivation en s’appuyant sur la question de Kakeya. Pour les lycéens, les étudiants et tous les esprits curieux qui souhaitent voir les mathématiques sous un jour différent.

Sur le Web : Livre à télécharger

Bicentenaire Galois

lundi 12 septembre 2011

À l’occasion du bicentenaire de la naissance d’Évariste Galois (1811-2011), l’Institut Henri Poincaré et la Société mathématique de France organisent un ensemble de manifestations et proposent un site contenant diverses ressources documentaires susceptibles d’intéresser les enseignants.

Statistiques

Dernière mise à jour

dimanche 22 octobre 2017

Publication

772 Articles
Aucun album photo
133 Brèves
11 Sites Web
132 Auteurs

Visites

673 aujourd'hui
782 hier
2133142 depuis le début
35 visiteurs actuellement connectés