Somme des carrés
Qu'est-ce que la somme des carrés ?
La somme des carrĂ©s est une technique statistique utilisĂ©e dans l'analyse de rĂ©gression pour dĂ©terminer la dispersion des points de donnĂ©es. Dans une analyse de rĂ©gression,. l'objectif est de dĂ©terminer dans quelle mesure une sĂ©rie de donnĂ©es peut ĂȘtre ajustĂ©e Ă une fonction qui pourrait aider Ă expliquer comment la sĂ©rie de donnĂ©es a Ă©tĂ© gĂ©nĂ©rĂ©e. La somme des carrĂ©s est utilisĂ©e comme mĂ©thode mathĂ©matique pour trouver la fonction qui correspond le mieux (varie le moins) Ă partir des donnĂ©es.
La formule de la somme des carrés est
La somme des carrés est également connue sous le nom de variation.
Que vous dit la somme des carrés ?
La somme des carrés est une mesure de l'écart par rapport à la moyenne. En statistique, la moyenne est la moyenne d'un ensemble de nombres et est la mesure la plus couramment utilisée de la tendance centrale. La moyenne arithmétique est simplement calculée en additionnant les valeurs de l'ensemble de données et en divisant par le nombre de valeurs.
Disons que les cours de clÎture de Microsoft (MSFT) au cours des cinq derniers jours étaient de 74,01, 74,77, 73,94, 73,61 et 73,40 en dollars américains. La somme des prix totaux est de 369,73 $ et le prix moyen ou moyen du manuel serait donc de 369,73 $ / 5 = 73,95 $.
Mais connaßtre la moyenne d'un ensemble de mesures ne suffit pas toujours. Parfois, il est utile de connaßtre l'ampleur de la variation dans un ensemble de mesures. L'écart entre les valeurs individuelles et la moyenne peut donner une idée de l'adéquation des observations ou des valeurs au modÚle de régression créé.
Par exemple, si un analyste veut savoir si le prix de l'action MSFT Ă©volue en parallĂšle avec le prix d'Apple (AAPL), il peut lister l'ensemble des observations pour le processus des deux actions pendant une certaine pĂ©riode, disons 1, 2 , ou 10 ans et crĂ©er un modĂšle linĂ©aire avec chacune des observations ou mesures enregistrĂ©es. Si la relation entre les deux variables (c'est-Ă -dire le prix de l'AAPL et le prix du MSFT) n'est pas une ligne droite, alors il y a des variations dans l'ensemble de donnĂ©es qui doivent ĂȘtre examinĂ©es.
En statistique vernaculaire, si la ligne du modÚle linéaire créé ne passe pas par toutes les mesures de valeur, alors une partie de la variabilité observée dans les cours des actions est inexpliquée. La somme des carrés est utilisée pour calculer s'il existe une relation linéaire entre deux variables, et toute variabilité inexpliquée est appelée la somme résiduelle des carrés.
La somme des carrĂ©s est la somme du carrĂ© de la variation, oĂč la variation est dĂ©finie comme l'Ă©cart entre chaque valeur individuelle et la moyenne. Pour dĂ©terminer la somme des carrĂ©s, la distance entre chaque point de donnĂ©es et la ligne de meilleur ajustement est mise au carrĂ© puis additionnĂ©e. La ligne de meilleur ajustement minimisera cette valeur.
Comment calculer la somme des carrés
Vous pouvez maintenant voir pourquoi la mesure s'appelle la somme des Ă©carts au carrĂ©, ou la somme des carrĂ©s en abrĂ©gĂ©. En utilisant notre exemple MSFT ci-dessus, la somme des carrĂ©s peut ĂȘtre calculĂ©e comme suit :
SS = (74.01 - 73.95)2 + (74.77 - 73.95)2 + (73.94 - 73.95)2 + (73.61 - 73.95)2 + (73.40 - 73.95)2
SS = (0,06) 2 + (0,82)2 + (-0,01)2 + (-0,34)2 + (-0,55)2
SS = 1,0942
L'ajout de la somme des dĂ©viations seules sans mise au carrĂ© donnera un nombre Ă©gal ou proche de zĂ©ro puisque les dĂ©viations nĂ©gatives compenseront presque parfaitement les dĂ©viations positives. Pour obtenir un nombre plus rĂ©aliste, la somme des Ă©carts doit ĂȘtre Ă©levĂ©e au carrĂ©. La somme des carrĂ©s sera toujours un nombre positif car le carrĂ© de tout nombre, qu'il soit positif ou nĂ©gatif, est toujours positif.
Exemple d'utilisation de la somme des carrés
Sur la base des résultats du calcul MSFT, une somme des carrés élevée indique que la plupart des valeurs sont plus éloignées de la moyenne et, par conséquent, il existe une grande variabilité dans les données. Une faible somme des carrés fait référence à une faible variabilité dans l'ensemble d'observations.
Dans l'exemple ci-dessus, 1,0942 montre que la variabilité du cours de l'action MSFT au cours des cinq derniers jours est trÚs faible et les investisseurs qui cherchent à investir dans des actions caractérisées par la stabilité des prix et une faible volatilité peuvent opter pour MSFT.
Limitations de l'utilisation de la somme des carrés
Prendre une décision d'investissement sur les actions à acheter nécessite beaucoup plus d'observations que celles énumérées ici. Un analyste peut avoir à travailler avec des années de données pour savoir avec une plus grande certitude à quel point la variabilité d'un actif est élevée ou faible. Au fur et à mesure que d'autres points de données sont ajoutés à l'ensemble, la somme des carrés devient plus grande car les valeurs seront plus étalées.
Les mesures de variation les plus largement utilisĂ©es sont l' Ă©cart-type et la variance. Cependant, pour calculer l'une ou l'autre des deux mĂ©triques, la somme des carrĂ©s doit d'abord ĂȘtre calculĂ©e. La variance est la moyenne de la somme des carrĂ©s (c'est-Ă -dire la somme des carrĂ©s divisĂ©e par le nombre d'observations). L'Ă©cart type est la racine carrĂ©e de la variance.
Il existe deux mĂ©thodes d'analyse de rĂ©gression qui utilisent la somme des carrĂ©s : la mĂ©thode des moindres carrĂ©s linĂ©aires et la mĂ©thode des moindres carrĂ©s non linĂ©aires. La mĂ©thode des moindres carrĂ©s fait rĂ©fĂ©rence au fait que la fonction de rĂ©gression minimise la somme des carrĂ©s de la variance Ă partir des points de donnĂ©es rĂ©els. De cette façon, il est possible de dessiner une fonction qui fournit statistiquement le meilleur ajustement pour les donnĂ©es. Notez qu'une fonction de rĂ©gression peut ĂȘtre linĂ©aire (une ligne droite) ou non linĂ©aire (une ligne courbe).
Points forts
La somme des carrés mesure l'écart des points de données par rapport à la valeur moyenne.
Un résultat de somme des carrés plus élevé indique un degré élevé de variabilité au sein de l'ensemble de données, tandis qu'un résultat inférieur indique que les données ne s'écartent pas considérablement de la valeur moyenne.