Desviación Standard con Python

La desviación estándar es un número que describe qué tan dispersos están los valores.

Una desviación estándar baja significa que la mayoría de los números están cerca del valor medio (promedio).

Una desviación estándar alta significa que los valores se distribuyen en un rango más amplio.

Ejemplo: Esta vez hemos registrado la velocidad de 7 coches:

Velocidad = [99, 86, 87, 88, 86, 87, 85]

La desviación estándar es:

0.9

Lo que significa que la mayoría de los valores están dentro del rango de 0,9 del valor medio, que es 86,4.

Hagamos lo mismo con una selección de números con un rango más amplio:

Velocidad = [32, 111, 138, 28, 59, 77, 97]

La desviación estándar es:

37.85

Lo que significa que la mayoría de los valores están dentro del rango de 37,85 desde el valor medio, que es 77,4.

Como puede ver, una desviación estándar más alta indica que los valores se distribuyen en un rango más amplio.

El módulo NumPy tiene un método para calcular la desviación estándar:

Ejemplo

Use el método NumPy std() para encontrar la desviación estándar:


import numpy
Velocidad = [99, 86, 87, 88, 86, 87, 85, 86]
x = numpy.std(velocidad)
print(x)

Varianza

La varianza es otro número que indica qué tan dispersos están los valores.

De hecho, si sacas la raíz cuadrada de la varianza, ¡obtienes la desviación estándar!

O al revés, si multiplica la desviación estándar por sí misma, ¡obtiene la varianza!

Para calcular la varianza tienes que hacer lo siguiente:

  • Encuentra los medios:
(32+111+138+28+59+77+97) / 7 = 77.4
  • Para cada valor: encuentre la diferencia de la media:
 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = -0.4
 97 - 77.4 =  19.6
  • Para cada diferencia: encuentra el valor del cuadrado:
 (-45.4)² = 2061.16
 ( 33.6)² = 1128.96
 ( 60.6)² = 3672.36
 (-49.4)² = 2440.36
 (-18.4)² =  338.56
 (- 0.4)² =    0.16
 ( 19.6)² =  384.16
  • La varianza es el número promedio de estas diferencias al cuadrado:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

Afortunadamente, NumPy tiene un método para calcular la varianza. Use el método NumPy var() para encontrar la varianza:


import numpy

Velocidad = [32, 111, 138, 28, 59, 77, 97, 86]

x = numpy.var(velocidad)

print(x)

Como hemos aprendido, la fórmula para encontrar la desviación estándar es la raíz cuadrada de la varianza.

1432.25 = 37.85

O, como en el ejemplo anterior, use NumPy para calcular la desviación estándar. Use el método NumPy std() para encontrar la desviación estándar:


import numpy

Velocidad = [32, 111, 138, 28, 59, 77, 97, 86]

x = numpy.std(velocidad)

print(x)

Símbolos

La desviación estándar a menudo se representa con el símbolo Sigma: σ.

La varianza a menudo se representa con el símbolo Sigma Square: σ².

La desviación estándar y la varianza son términos que se usan a menudo en el aprendizaje automático, por lo que es importante comprender cómo obtenerlos y el concepto detrás de ellos.