Statistiques à deux variables

Calculer une droite d’ajustement par la méthode des moindres carrées : covariance de xx et yy et variance de xx - Exercice 2

20 min
35
Le tableau suivant donne le nombre d'abonnés en milliers pour un youtubeur.
Question 1

Représenter le nuage de points (xi,yi)\left(x_{i},y_{i}\right) associé à la série statistique dans le repère donné ci-dessus.

Correction
Question 2

Déterminer les coordonnées du point moyen GG de ce nuage. Placer le point GG

Correction
Le point moyen G(xG;yG)G\left(x_{G};y_{G}\right) d'un nuage de points est le point dont l'abscisse est la moyenne des abscisses xix_{i}, et l'ordonnée la moyenne des ordonnées yiy_{i}.
Ses coordonnées (xG;yG)\left(x_{G};y_{G}\right) vérifient donc : xG=x1+x2++xnnx_{G}=\frac{x_{1}+x_{2}+\ldots +x_{n}}{n} et yG=y1+y2++ynny_{G}=\frac{y_{1}+y_{2}+\ldots +y_{n}}{n}.
  • Le point moyen G\red{\text{Le point moyen G}} peut aussi être noté G(x;y)G\left(\overline{x};\overline{y}\right)
  • Les coordonnées du point moyen GG de cette série statistique sont :
    xG=0+1+2+3+4+5+6+78x_{G} =\frac{0+1+2+3+4+5+6+7}{8}
    xG=3,5x_{G} =3,5

    yG=11,2+20,6+29,7+37+39,6+41,7+44,5+488y_{G} =\frac{11,2+20,6+29,7+37+39,6+41,7+44,5+48}{8}
    yG=34,0375y_{G} =34,0375

    Les coordonnées du point moyen GG sont : G(3,5;34,0375)G\left(3,5;34,0375\right)
    Nous allons donc maintenant placer le point moyen GG dans le repère :
    Question 3

    Calculer la covariance de xx et yy puis la variance de xx .

    Correction
      La covariance\red{\text{covariance}} des variables xx et yy est le nombre :
  • cov(x,y)=(x1x)(y1y)+(x2x)(y2y)+(x3x)(y3y)++(xnx)(yny)n\text{cov}\left(x,y\right)=\frac{\left(x_{1} -\overline{x}\right)\left(y_{1} -\overline{y}\right)+\left(x_{2} -\overline{x}\right)\left(y_{2} -\overline{y}\right)+\left(x_{3} -\overline{x}\right)\left(y_{3} -\overline{y}\right)+\ldots +\left(x_{n} -\overline{x}\right)\left(y_{n} -\overline{y}\right)}{n}
  • Il y a une deuxième manière de calculer la covariance\red{\text{covariance}} :
  • cov(x,y)=x1y1+x2y2+x3y3++xnynnxy\text{cov}\left(x,y\right)=\frac{x_{1} y_{1} +x_{2} y_{2} +x_{3} y_{3} +\ldots +x_{n} y_{n} }{n} -\overline{x}\overline{y}

  • Il en résulte donc que :
    cov(x,y)=26,9542,7539,316,75+18,05+57,3+102,5+155,758\text{cov}\left(x,y\right)=\frac{-26,95-42,75-39,3-16,75+18,05+57,3+102,5+155,75}{8}
    cov(x,y)=25,98125\text{cov}\left(x,y\right)=25,98125
      La variance\blue{\text{variance}} de xx est le nombre :
  • var(x)=(x1x)2+(x2x)2+(x3x)2++(xnx)nn\text{var}\left(x\right)=\frac{\left(x_{1} -\overline{x}\right)^{2}+\left(x_{2} -\overline{x}\right)^{2}+\left(x_{3} -\overline{x}\right)^{2}+\ldots +\left(x_{n} -\overline{x}\right)^{n}}{n}
  • var(x)=(3,5)2+(2,5)2+(1,5)2+(0,5)2+0,52+1,52+2,52+3,528\text{var}\left(x\right)=\frac{\left(-3,5\right)^{2} +\left(-2,5\right)^{2} +\left(-1,5\right)^{2} +\left(-0,5\right)^{2} +0,5^{2} +1,5^{2} +2,5^{2} +3,5^{2} }{8}
    var(x)=5,25\text{var}\left(x\right)=5,25
    Question 4

    En déduire l'équation réduite de la régression de yy en xx . (Donner les coefficients arrondis au centièmes)

    Correction
  • La droite des moindres carrés admet comme équation y=ax+by=ax+b avec a=cov(x,y)var(x)a=\frac{\text{cov}\left(x,y\right)}{\text{var}\left(x\right)} et b=yaxb=\overline{y}-a\overline{x}
  • D'après la question précédente, nous avons :
    a=cov(x,y)var(x)a=25,981255,25a=\frac{\text{cov}\left(x,y\right)}{\text{var}\left(x\right)}\Leftrightarrow a=\frac{25,98125}{5,25} \Leftrightarrow
    a4,95a\approx 4,95

    b=yaxb=34,03754,95×3,5b=\overline{y}-a\overline{x}\Leftrightarrow b=34,0375 -4,95\times 3,5\Leftrightarrow
    b16,71b\approx 16,71

    Une équation de la droite (d)\left(d\right) de régression de yy en xx , est
    y=4,95x+16,71y=4,95x+16,71
    (coefficients arrondis au centièmes)
    Question 5

    Tracer la droite (d)\left(d\right) dans le repère .

    Correction
    La droite (d)\left(d\right) doit passer obligatoirement par le point moyen GG .
    Il nous faut donc un deuxième point pour tracer la droite. Pour cela, on choisit une valeur de xx quelconque, par exemple x=0x=0. Il vient alors que y=4,9×0+16,7=16,7y=4,9\times 0+16,7=16,7
    La droite (d)\left(d\right) passe donc par le point moyen G(3,5;34,0375)G\left(3,5;34,0375\right) et également par le point (0;16,7)\left(0;16,7\right) .
    Il en résulte donc que :
    Question 6

    En supposant que ce modèle reste valable pour 20192019 et 20202020, prévoir le nombre d'abonnés pour la fin de l’année 20202020.

    Correction
    20202020 correspond à un rang égal à 99. On remplace xx par 99
    Il vient alors que :
    y=4,9×9+16,7y = 4,9\times 9 +16,7
    y=60,8y = 60,8

    Le youtubeur peut estimer avoir en 20202020 environ 60,860,8 milliers d’abonnés.