Suma de cuadrados
¿Qué es la suma de cuadrados?
La suma de cuadrados es una técnica estadística utilizada en el análisis de regresión para determinar la dispersión de puntos de datos. En un análisis de regresión,. el objetivo es determinar qué tan bien se puede ajustar una serie de datos a una función que podría ayudar a explicar cómo se generó la serie de datos. La suma de cuadrados se usa como una forma matemática de encontrar la función que mejor se ajusta (varía menos) a partir de los datos.
La fórmula para la suma de cuadrados es
La suma de cuadrados también se conoce como variación.
¿Qué te dice la suma de cuadrados?
La suma de cuadrados es una medida de desviación de la media. En estadística, la media es el promedio de un conjunto de números y es la medida de tendencia central más utilizada . La media aritmética se calcula simplemente sumando los valores del conjunto de datos y dividiéndolos por el número de valores.
Digamos que los precios de cierre de Microsoft (MSFT) en los últimos cinco días fueron 74,01, 74,77, 73,94, 73,61 y 73,40 en dólares estadounidenses. La suma de los precios totales es $369,73 y el precio medio o promedio del libro de texto sería entonces $369,73 / 5 = $73,95.
Pero conocer la media de un conjunto de medidas no siempre es suficiente. A veces, es útil saber cuánta variación hay en un conjunto de medidas. La distancia entre los valores individuales y la media puede dar una idea de cómo se ajustan las observaciones o los valores al modelo de regresión que se crea.
Por ejemplo, si un analista quisiera saber si el precio de las acciones de MSFT se mueve junto con el precio de Apple (AAPL), puede enumerar el conjunto de observaciones para el proceso de ambas acciones durante un período determinado, digamos 1, 2 , o 10 años y crea un modelo lineal con cada una de las observaciones o medidas registradas. Si la relación entre ambas variables (es decir, el precio de AAPL y el precio de MSFT) no es una línea recta, entonces hay variaciones en el conjunto de datos que deben analizarse.
En estadística vernácula, si la línea en el modelo lineal creado no pasa por todas las medidas de valor, entonces parte de la variabilidad que se ha observado en los precios de las acciones queda sin explicación. La suma de cuadrados se usa para calcular si existe una relación lineal entre dos variables, y cualquier variabilidad no explicada se denomina suma residual de cuadrados.
La suma de cuadrados es la suma del cuadrado de la variación, donde la variación se define como la dispersión entre cada valor individual y la media. Para determinar la suma de cuadrados, la distancia entre cada punto de datos y la línea de mejor ajuste se eleva al cuadrado y luego se suma. La línea de mejor ajuste minimizará este valor.
Cómo calcular la suma de cuadrados
Ahora puede ver por qué la medida se llama suma de desviaciones al cuadrado, o suma de cuadrados para abreviar. Usando nuestro ejemplo de MSFT anterior, la suma de cuadrados se puede calcular como:
SS = (74,01 - 73,95)2 + (74,77 - 73,95)2 + (73,94 - 73,95)2 + (73,61 - 73,95)2 + (73,40 - 73,95)2
SS = (0,06) 2 + (0,82)2 + (-0,01)2 + (-0,34)2 + (-0,55)2
SS = 1.0942
Sumar solo la suma de las desviaciones sin elevar al cuadrado dará como resultado un número igual o cercano a cero, ya que las desviaciones negativas compensarán casi perfectamente las desviaciones positivas. Para obtener un número más realista, la suma de las desviaciones debe elevarse al cuadrado. La suma de los cuadrados siempre será un número positivo porque el cuadrado de cualquier número, ya sea positivo o negativo, siempre es positivo.
Ejemplo de cómo usar la suma de cuadrados
Según los resultados del cálculo de MSFT, una suma alta de cuadrados indica que la mayoría de los valores están más alejados de la media y, por lo tanto, existe una gran variabilidad en los datos. Una suma baja de cuadrados se refiere a una baja variabilidad en el conjunto de observaciones.
En el ejemplo anterior, 1,0942 muestra que la variabilidad en el precio de las acciones de MSFT en los últimos cinco días es muy baja y los inversores que buscan invertir en acciones caracterizadas por la estabilidad de precios y la baja volatilidad pueden optar por MSFT.
Limitaciones del uso de la suma de cuadrados
Tomar una decisión de inversión sobre qué acciones comprar requiere muchas más observaciones que las que se enumeran aquí. Un analista puede tener que trabajar con años de datos para saber con mayor certeza qué tan alta o baja es la variabilidad de un activo. A medida que se agregan más puntos de datos al conjunto, la suma de los cuadrados se vuelve más grande ya que los valores estarán más dispersos.
Las medidas de variación más utilizadas son la desviación estándar y la varianza. Sin embargo, para calcular cualquiera de las dos métricas, primero se debe calcular la suma de los cuadrados. La varianza es el promedio de la suma de cuadrados (es decir, la suma de cuadrados dividida por el número de observaciones). La desviación estándar es la raíz cuadrada de la varianza.
Hay dos métodos de análisis de regresión que utilizan la suma de cuadrados: el método de mínimos cuadrados lineales y el método de mínimos cuadrados no lineales. El método de mínimos cuadrados se refiere al hecho de que la función de regresión minimiza la suma de los cuadrados de la varianza de los puntos de datos reales. De esta forma, es posible dibujar una función que estadísticamente proporcione el mejor ajuste para los datos. Tenga en cuenta que una función de regresión puede ser lineal (una línea recta) o no lineal (una línea curva).
Reflejos
La suma de cuadrados mide la desviación de los puntos de datos del valor medio.
Un resultado de suma de cuadrados más alto indica un alto grado de variabilidad dentro del conjunto de datos, mientras que un resultado más bajo indica que los datos no varían considerablemente del valor medio.