martes, 21 de julio de 2009

Media y derivación estándar

Capítulo I

La media, indicado por μ (una minúscula griega mu), es la jerga de los estadísticos para el valor medio de una señal. Se encuentra justo como era de esperar: añadir todas las muestras juntas, y dividir por N. El aspecto que presenta en forma matemática:



En palabras, sumar los valores de la señal, xi, dejando el índice, i, correr de 0 a N - 1. Luego terminar el cálculo dividiendo la suma por N. Esto es idéntico a la ecuación: Si no está ya familiarizado con (mayúsculas griega sigma) que sirve para indicar sumatorio, estudia estas ecuaciones cuidadosamente, y compáralas con el programa de ordenador en la Tabla 2-1. Sumatorios de este tipo son abundantes en DSP, y tienes que comprender plenamente esta notación.

En electrónica, a la media se le denomina la DC (corriente directa) valor. Del mismo modo, AC (corriente alterna) se refiere a la forma en que la señal fluctúa alrededor del valor medio. Si la señal es una simple forma de onda repetitiva, como un seno o una onda cuadrada, sus excursiones pueden ser descritas por su amplitud pico a pico. Lamentablemente, en la mayoría de las señales adquiridas no se advierte un bien definido valor pico a pico, ya que tienen un carácter aleatorio, como las señales en la Fig. 2-1. Un método más generalizado que se debe utilizar en estos casos, se llama la desviación estándar, denotado por σ (la minúscula griega sigma).

Como punto de partida, la expresión, ( xi - ), describe hasta qué punto la muestra ith se desvía (diferencia) de la media. La desviación media de una señal se encuentra sumando las desviaciones de todas las muestras individuales, y luego dividiendo por el número de muestras, N. Nota que tomamos el valor absoluto de cada desviación antes del sumatorio, de otro modo los términos positivos y negativos podrían promediarse a cero. La desviación media proporciona un único número que representa la distancia típica a la que las muestras se encuentran de media.

Aunque conveniente y simple, la desviación promedio casi nunca se utiliza en estadística. Esto se debe a que no encaja bien con la física de cómo las señales operan. En la mayoría de los casos, el parámetro importante no es la desviación de la media, sino la potencia (power) representada por la desviación de la media. Por ejemplo, al combinar señales de ruido aleatorio en un circuito electrónico, el ruido resultante es igual a la potencia combinada de las señales individuales, y no a su amplitud combinada.

La desviación estándar es similar a la desviación media, con excepción de la media se realiza con la potencia en lugar de con la amplitud. Esto se consigue haciendo la cuadratura de cada una de las desviaciones antes de tomar la media (recuerde, potencia voltage2). Para terminar, la raíz cuadrada se toma para compensar la cuadratura inicial . En forma de ecuación la desviación estándar se calcula:



En notación alternativa:



Nota que el promedio se realiza dividiendo entre N - 1 en vez de N. Se trata de una sutil característica de la ecuación que se discutirá en la siguiente sección. El término, σ2, aparece con frecuencia en estadística y se le dio el nombre de varianza. La desviación estándar es una medida de hasta qué punto la señal oscila de la media. La varianza representa la potencia de esta fluctuación. Otro término con el que debe familiarizarse es el valor rms (raíz-media-cuadrada), de uso frecuente en la electrónica. Por definición, la desviación estándar sólo mide la parte AC de una señal, mientras que el valor rms mide los componentes AC y DC. Si una señal no tiene componente DC, su valor rms es idéntico al de su desviación estándar. La Figura 2-2 muestra la relación entre la desviación estándar y el valor pico a pico de varias formas de onda comunes.




La Tabla 2-1 enumera una rutina de computadora para el cálculo de la media y la desviación estándar utilizando las Ecuaciones. 2-1 y 2-2. Los programas de este libro pretende transmitir algoritmos de la forma más sencilla posible, y todos los demás factores son tratados como secundarios. La buenas técnicas de programación son dejadas a un lado si así se consigue que el programa sea más claro y lógico. Por ejemplo: una versión simplificada de Basic se utiliza, el número de líneas se incluyen, sólo está permitido la estructura de control el bucle FOR-NEXT, no hay configuraciones de I/ O, etc. Piense en estos programas como una forma alternativa de entender las ecuaciones utilizadas en DSP. Si no puede comprender uno, el otro tal vez le ayude. En BASIC, el carácter% al final de un nombre de variable indica que es un entero. Todas las demás variables son de punto flotante. El capítulo 4 discute estos tipos variables en detalle.

100 CALCULATION OF THE MEAN AND STANDARD DEVIATION
110 '
120 DIM X[511] 'The signal is held in X[0] to X[511]
130 N% = 512 'N% is the number of points in the signal
140 '
150 GOSUB XXXX 'Mythical subroutine that loads the signal into X[ ]
160 '
170 MEAN = 0 'Find the mean via Eq. 2-1
180 FOR I% = 0 TO N%-1
190 MEAN = MEAN + X[I%]
200 NEXT I%
210 MEAN = MEAN/N%
220 '
230 VARIANCE = 0 'Find the standard deviation via Eq. 2-2
240 FOR I% = 0 TO N%-1
250 VARIANCE = VARIANCE + ( X[I%] - MEAN )^2
260 NEXT I%
270 VARIANCE = VARIANCE/(N%-1)
280 SD = SQR(VARIANCE)
290 '
300 PRINT MEAN SD 'Print the calculated mean and standard deviation
310 '
320 END
TABLE 2-1

Este método de cálculo de la media y de la desviación estándar es adecuado para muchas aplicaciones, sin embargo, tiene dos limitaciones. En primer lugar, si la media es mucho mayor que la desviación estándar, la Eq. 2-2 implica que hay que restar dos números que son muy cercanos en valor. Esto puede resultar en un excesivo error de redondeo en los cálculos, un tema discutido con más detalle en el capítulo 4. En segundo lugar, a menudo es conveniente para volver a calcular la media y la desviación estándar como nuevas muestras que se hayan adquirido y añadido a la señal. Vamos a llamar a este tipo de cálculo: (running statistics) Si bien el método de las Eqs. 2-1 y 2-2 puede ser utilizado para ejecutar estadísticas activas, requiere que todos las muestras que participen en cada nuevo cálculo. Este es un uso muy ineficiente de la capacidad de cálculo y de memoria.

Una solución a estos problemas se puede encontrar mediante la manipulación de las Eqs. 2-1 y 2-2 para proporcionar otra ecuación para el cálculo de la desviación estándar:



A medida que nos movemos a través de la señal, un recuento se mantiene de tres parámetros: (1) el número de muestras ya procesadas, (2) la suma de estas muestras, y (3) la suma de los cuadrados de las muestras (es decir, los cuadrados del valor de cada muestra y la suma del resultado del valor acumulado). Después de que cualquier número de muestras se hayan procesado, la media y la desviación estándar pueden ser calculada eficiente utilizando sólo el valor actual de los tres parámetros. La Tabla 2-2 muestra un programa que realiza la media y la desviación estándar de esta manera, ya que cada nueva muestra se tiene en cuenta. Este es el método utilizado en las calculadoras de mano para encontrar las estadísticas de una secuencia de números. Cada vez que introduzca un número y pulse la Σ (sumatorio), los tres parámetros se actualizan. La media y desviación estándar se pueden encontrar cada vez que se desee, sin tener que recalcular toda la secuencia.

100 'MEAN AND STANDARD DEVIATION USING RUNNING STATISTICS
110 '
120 DIM X[511] 'The signal is held in X[0] to X[511]
130 '
140 GOSUB XXXX 'Mythical subroutine that loads the signal into X[ ]
150 '
160 N% = 0 'Zero the three running parameters
170 SUM = 0
180 SUMSQUARES = 0
190 '
200 FOR I% = 0 TO 511 'Loop through each sample in the signal
210 '
220 N% = N%+1 'Update the three parameters
230 SUM = SUM + X[I%]
240 SUMSQUARES = SUMSQUARES + X[I%]^2
250 '
260 MEAN = SUM/N% 'Calculate mean and standard deviation via Eq. 2-3
270 IF N% = 1 THEN SD = 0: GOTO 300
280 SD = SQR( (SUMSQUARES - SUM^2/N%) / (N%-1) )
290 '
300 PRINT MEAN SD 'Print the running mean and standard deviation
310 '
320 NEXT I%
330 '
340 END
TABLE 2-2


Antes de terminar esta discusión sobre la media y desviación estándar, otros dos términos tienen que ser mencionados. En algunas situaciones, la media describe lo que está siendo medido, al tiempo que representa la desviación estándar del ruido y otras interferencias. En estos casos, la desviación estándar no es importante en sí misma, sino sólo en comparación con la media. Esto da lugar a la expresión: la relación señal-ruido (SNR), que es igual a la media, dividida por la desviación estándar. Otro término también se utiliza, el coeficiente de variación (CV). Este se define como la desviación estándar dividida por la media, multiplicado por 100 por ciento. Por ejemplo, una señal (u otro grupo de valores de medida), con un CV del 2%, tiene una relación señal ruido de 50. Una mejora de los datos significa un mayor valor de la relación señal ruido y un menor valor para la CV.

Texto basado en: "The Scientist and Engineer's Guide to Digital Signal Processing"
Steve Smith

1 comentario: