Audio y Síntesis: 2009

jueves, 23 de julio de 2009

Sintetizando una Sinusoide

Capítulo I

En la mayoría de los paquetes de software de síntesis y procesado de sonido (Csound, Max/MSP y Pd, por ejemplo), las operaciones de audio se especifican como redes de unidades generadoras, las cuales pasan el sonido a través de ellas. Los usuarios de los paquetes de software especifican estas redes, algo llamado patch, el cual corresponde esencialmente al algoritmo de síntesis que será usado, y cómo estas serán usadas en el tiempo. En esta sección usaremos bloques abstractos de diagramas para describir los patches.

Para ver como se produce un sinusoide con variación de amplitud en el tiempo necesitamos introducir dos unidades generadoras. Primero necesitamos una sinusoide pura, la cual se hace con un oscilador. La figura 1.5a muestra una representación de un oscilador sinusoidal como un icono. La entrada es una frecuencia (en ciclos por segundo), y la salida es una sinusoide de amplitud de pico 1.

La figura 1.5 b muestra como se multiplica la salida del oscilador sinusoidal por un factor de escala apropiado y [n] para controlar la amplitud. Si el pico de amplitud del oscilador es 1, el pico de amplitud del producto es y [n], asumiendo que y [n] cambia lentamente y no tiene valores negativos.

La figura 1.6 muestra como la sinusoide de la figura 1.1 es afectada por los cambios de amplitud de dos diferentes señales controladoras y [n]. la señal de control mostrada en la parte (a) tiene una discontinuidad, y por ello hace la resultante amplitud-controlada mostrad en (b). Partes (c) y (d) muestran una variación más amable para y [n] y el resultado. La intuición nos dice que el resultado que se ve en (b)

No debe sonar como una sinusoide variada en amplitud, si no más bien como una sinusoide interrumpida por un audible “pop” después del cual esta continua con menos volumen. En general, por razones que no pueden ser explicadas en este capítulo, las señales de control de amplitud y [n] que tienen rampas suaves de un valor a otro es menos probable que den resultados parasitarios (como el “pop”) que las que cambian abruptamente.

Por ahora, y sin justificarlas, podemos establecer dos reglas generales. Primero que las sinusoides puras son las señales más sensibles a los efectos parasitarios debidos a los rápidos cambios en la amplitud. Así que si tu quieres probar una transición de amplitud, si funciona bien con una sinusoide posiblemente lo haga con cualquier otra señal. Segundo, dependiendo de la señal cuya amplitud queramos cambiar, necesitamos entre 0 y 30 milisegundos de rampa para las más prohibidas señales? (como el ruido blanco), y 30 para el resto (como la sinusoide). Todo esto depende también de manera complicada de los niveles de escucha y del contexto acústico.

Una función de control de la amplitud que fuese útil y [n] debería hacerse usando un generador de envolvente. La figura 1.7 muestra un módulo en el cual se usa un generador de envolvente para controlar la amplitud de un oscilador. Los generadores de envolvente varían en diseño, nosotros nos fijaremos en el tipo más simple, el cual genera segmentos de línea como muestra la figura 1.6 c. Si una línea de segmento es especificado para hacer una rampa entre dos valores de salida a y b sobre N samples comenzando en la muestra número M, la salida sería:

La salida puede tener cualquier número de segmentos como este, establecido punta a punta, a lo largo de toda la gama de números de muestra n; plano, segmentos horizontales pueden hacerse mediante el establecimiento a = b.

Además de cambiar la amplitud de los sonidos, en control de amplitud es a menudo usado, especialmente en las aplicaciones en tiempo real, simplemente para apagar o encender los sonidos, para apagar los sonidos se lleva la rampa cerca de cero. La mayoría de los paquetes de software de síntesis están provistos de maneras de parar los módulos desde la computadora, pero aquí usaremos el control de amplitud

Los generadores de envolventes datan de la época analógica, al igual que el resto de la figura 1.7; osciladores con frecuencia controlable que eran llamados osciladores de voltaje controlado VCOs, y la multiplicación de pasos que era hecha usando amplificadores de voltaje controlado o VCA. Los generadores de envolvente son descritos con mayor detalle en la sección 4,1.

Señales vs procesos subyacentes

Capítulo I

La estadística es la ciencia de la interpretación de los datos numéricos, como las señales adquiridas. En comparación, la probabilidad se usa en DSP para comprender los procesos que generan señales.

A pesar de que están estrechamente relacionadas, la distinción entre la señal adquirida y el proceso subyacente es la clave para muchas técnicas de DSP.

Por ejemplo, imagina crear una señal de 1000 puntos tirando una moneda 1000 veces. Si la moneda cae cara, a la correspondiente muestra se le da el valor de uno. Sí sale cruz, la muestra se fija en cero. El proceso que crea esta señal tiene una media de 0,5 exactamente, determinada por la probabilidad relativa de cada uno de los posibles resultados: 50% caras, el 50% cruces. Sin embargo, es poco probable que el real (actual) punto 1000 de la señal tenga una media de 0,5 exactamente. El cambio aleatorio hará el número de unos y ceros ligeramente diferente cada vez que la señal se genera. Las probabilidades del proceso subyacente son constantes, pero las estadísticas de la señal adquirida cambian cada vez que se repite el experimento. Esta irregularidad aleatoria observada en los datos reales es llamada con nombres tales como: la variación estadística, fluctuación estadística, y el ruido estadístico.

Esto presenta un dilema. Cuando veas los términos: media y desviación estándar, ¿cómo saber si el autor se refiere a las estadísticas de una señal real, o las probabilidades del proceso subyacente que creó la señal? Lamentablemente, la única cosa que te puede decir es el contexto. No es el caso para todos los términos utilizados en la estadística y la probabilidad. Por ejemplo, el histograma y la función de probabilidad de masa (que se examinan en la siguiente sección) los conceptos concordantes que tienen nombres por separado.

Ahora, de vuelta a la Eq. 2-2, el cálculo de la desviación estándar. Como se mencionó anteriormente, esta ecuación divide por N-1 en el cálculo de la media de las desviaciones al cuadrado, en lugar de simplemente por N. Para entender por qué esto es así, imagine que usted desea encontrar el promedio y la desviación estándar de un proceso que genera las señales. Con este fin, haya adquirieres una señal de N muestras del proceso, y calculas la media de la señal a través de Eq. 2,1. A continuación, puedes utilizar esto como una estimación de la media del proceso subyacente, sin embargo, usted sabe que habrá un error debido al ruido estadístico. En particular, para las señales aleatorias, el error típico de la media de los N puntos, y la media del proceso subyacente, está dado por:

Si N es pequeño, el ruido estadístico en la media calculada será muy grande. En otras palabras, no tienes acceso a los suficientes datos para caracterizar adecuadamente el proceso. Cuanto mayor sea el valor de N, menor será el error . Un hito en la teoría de la probabilidad, la Ley Fuerte de los números grandes (Strong Law of Large Numbers), garantiza que el error se convierte en cero cuando N se acerca a infinito.

En el siguiente paso, queremos calcular la desviación estándar de la señal adquirida, y lo utilizas como una estimación de la desviación estándar del proceso subyacente. En ello radica el problema. Antes de poder calcular la desviación estándar utilizando la Eq. 2-2, es necesario que conozcas ya la media, μ. Sin embargo, no sabes la media del proceso subyacente sólo la media de los N puntos de la señal, la cual contiene un error debido al ruido estadístico.

Este error tiende a reducir el valor calculado de la desviación estándar. Para compensar esto, N se sustituye por N-1. Si N es grande, la diferencia no es importante. Si N es pequeño, esta sustitución proporciona una estimación más precisa de la desviación estándar del proceso subyacente. En otras palabras, la Eq. 2-2 es una estimación de la desviación estándar del proceso subyacente. Si dividimos por N en la ecuación, proporcionará la desviación estándar de la señal adquirida.

Como ejemplo de estas ideas, mira las señales en la Fig. 2-3, y pregúntate: ¿son los las variaciones en estas señales resultado del ruido estadístico, o es la evolución del proceso subyacente? Probablemente no es difícil convencerte de que estos cambios son demasiado grandes para que se deban al azar, y que deben estar relacionados con el proceso subyacente. Los procesos de cambian sus características de esta manera se denominan no estacionarios. En comparación, las señales previamente presentadas en la Fig. 2-1 se generan de un proceso estacionario, y las variaciones resultan completamente del ruido estadístico. La Figura 2-3b ilustra un problema común con señales no estacionarias: el cambio lento de la media interfiere con el cálculo de la desviación estándar. En este ejemplo, la desviación típica (estándar) de la señal, en un corto intervalo de tiempo, es de uno. Sin embargo, la desviación estándar de toda la señal es 1.16. Este error puede ser casi eliminado rompiendo la señal en secciones cortas, y calculando la estadística de cada una de las secciones por separado. Si es necesario, la desviación estándar para cada una de las secciones se puede promediar para conseguir un solo valor.

martes, 21 de julio de 2009

Tutorial rápido de sonido e informática musical

El sonido

El sonido es la oscilación, normalmente del aire, provocada por el movimiento o vibración de algún objeto. Esta vibración de las partículas del aire se mide fundamentalmente mediante dos conceptos: su frecuencia, y su amplitud.

Amplitud: En acústica la amplitud es el valor máximo de la sobrepresión asociada a la propagación de una onda sonora.

Frecuencia: Es la velocidad de las vibraciones normalmente medidas en un segundo. Se representa en Herzios (Hz) Ciclos por segundo. También se utiliza el Kiloherzio que son mil Herzios.

Un ciclo es la menor distancia a partir de la cual una onda se repite.

1 ciclo.

En este dibujo se representan ondas (vibraciones del aire) a distintas frecuencias:

Cuanto mayor es la frecuencia más agudo es el sonido y viceversa:

El oído humano es capaz de percibir frecuencias entre 20 y 20.000 Hz, aunque va disminuyendo por la edad. Esta respuesta en frecuencia se conoce como audiofrecuencia, pero el espectro sonoro es más amplio.

Características o cualidades del sonido

Las cuatro cualidades básicas del sonido son:

El tono: viene determinado por la frecuencia fundamental de las ondas sonoras (es lo que permite distinguir entre sonidos graves, agudos o medios) medida en ciclos por segundo o hercios (Hz).

Para que los humanos podamos percibir un sonido, éste debe estar comprendido entre el rango de audición de 20 y 20.000 Hz. Por debajo de este rango tenemos los infrasonidos y por encima los ultrasonidos. A esto se le denomina rango de frecuencia audible. Cuanta más edad se tiene, este rango va reduciéndose tanto en graves como en agudos.

El tono es la propiedad de los sonidos que los caracteriza como más agudos o más graves, en función de su frecuencia.

Cuando a un sonido se le aplica el análisis de Fourier, se obtiene una serie de componentes llamados parciales armónicos (o armónicos, a secas), de los cuales el primero o fundamental y los que tienen un número de orden que es una potencia de 2 (2, 4, 8...) tienen alguna similar sensación de tono que el primero por sí solo (ya que al estar a distancia de octava, el oído humano suele percibirlas como "las mismas notas pero más agudas"). El resto de parciales armónicos se perciben como otros sonidos distintos del fundamental, lo que enriquece el sonido. De esta forma, los sonidos cuyos armónicos potencias de 2 son algo más sonoros que el resto, son percibidos como sonidos con un timbre más nasal, hueco o brillante, mientras que los sonidos donde son algo más sonoros otros parciales armónicos, son percibidos como sonidos con un timbre más lleno o completo, redondo u oscuro. Todos los parciales armónicos, en su conjunto determinan el timbre musical.

La forma en que es percibido el tono es lo que se conoce como altura del sonido, que determina cómo de bajo o alto es ese sonido, aunque es normal que se utilice tono como sinónimo de altura.

La intensidad: es la cantidad de energía acústica que contiene un sonido. La intensidad viene determinada por la potencia, que a su vez está determinada por la amplitud y nos permite distinguir si el sonido es fuerte o débil.

Los sonidos que percibimos deben superar el umbral auditivo (0 dB) y no llegar al umbral de dolor (140 dB). Esta cualidad la medimos con el sonómetro y los resultados se expresan en decibelios (dB) en honor al científico e inventor Alexander Graham Bell.

El timbre: es la cualidad que confiere al sonido los armónicos que acompañan a la frecuencia fundamental. Esta cualidad es la que permite distinguir dos sonidos, por ejemplo, entre la misma nota (tono) con igual intensidad producida por dos instrumentos musicales distintos.

La frecuencia de los armónicos es un múltiplo de la fundamental. La amplitud de los armónicos más altos es mucho menor que la amplitud de la onda fundamental y tiende a cero.

Los armónicos son los que generan el timbre característico de una fuente de sonido (ya sea una voz humana, un instrumento musical, etc.). Son los que permiten diferenciar un tipo de instrumento de otro, o reconocer el timbre de la voz de una persona.

Los armónicos más altos son inaudibles, y lo que da diferentes timbres a diferentes instrumentos es la amplitud y la ubicación de los primeros armónicos y los parciales. Y las diferentes trayectorias de las ondas sonoras de dos instrumentos tocando al unísono es lo que permite al oyente percibirlos como dos instrumentos separados.

Por ejemplo, si dos instrumentos ejecutaran la nota do4 (la tecla blanca central de un piano), la onda fundamental de ambos poseería la misma frecuencia (en este ejemplo 264 Hz o ciclos por segundo). Sus timbres son diferentes porque cada uno produce una altura de armónicos diferentes.

Esta es la serie de los primeros armónicos (que justamente son los principales):

En una teoría simplificada del timbre musical, cada uno de los sonidos de la serie armónica es un componente del timbre o color del sonido representado por una nota cuya frecuencia es la del sonido fundamental. A los sonidos de la serie armónica, componentes del timbre, se les llama sonidos armónicos o simplemente armónicos. También se han denominado a veces sonidos parciales, alícuotas, acompañantes o concomitantes.

La contribución de cada armónico al timbre del sonido, en su lugar correspondiente dentro de la "receta", es el que sigue:

El sonido fundamental proporciona por sí solo la misma sensación de altura que el fundamental con todos sus armónicos; decimos que la frecuencia de la nota que se oye es igual a la del sonido fundamental.

Debido al fenómeno de la "fundamental fantasma" que tiene su explicación en el carácter no lineal del oído humano, el sonido fundamental no es imprescindible para percibir el conjunto como una nota con la misma altura, siempre y cuando existan o suenen el resto de los sonidos de la serie. El oído "reconstruye" el sonido que falta como si dedujese este resultado de una ecuación cuya única solución posible es esta fundamental.

Los sonidos números 2, 4, 8 y todos los que forman una relación igual a una potencia de 2 con la fundamental, refuerzan el carácter inequívoco de la sensación de altura del conjunto.

Los sonidos 3, 6, 12 y todos aquellos que forman con el 3 una relación que es una potencia de 2, aportan un timbre nasal al conjunto.

Los sonidos 5 y 10 producen un timbre o color "redondo", "profundo", "cálido" y otros adjetivos semejantes.

Los sonidos 7, 11, 13 y 15 son disonantes y dan un carácter "áspero" al sonido.
Al crecer el número de orden de un armónico, su aportación es de más brillantez o claridad; más brillantez que claridad si es un número múltiplo de los 16 primeros excepto los que hemos denominado como disonantes.

La duración: es la cualidad que determina el tiempo de vibración de un objeto. Por ejemplo, podemos escuchar sonidos largos, cortos, muy cortos, etc...

Representación del sonido como forma de onda y como espectro de frecuencias:

Ambas representaciones se refieren al mismo sonido. En la primera se ven las diferentes oscilaciones en el tiempo que componen el sonido. En la segunda, tras un análisis de las primeras formas de onda se llega a un gráfico que muestra la intensidad de cada frecuencia en el sonido analizado. Esta última representación de la frecuencia es importante debido a que las modificaciones en el espectro de frecuencias tienen grandes consecuencias en los armónicos, como se ha dicho antes, y por lo tanto en el timbre de un sonido. Cuando se utilizan ecualizadores y filtros es este dominio de la frecuencia el que se manipula.

La envolvente acústica

En términos musicales y de audio, la envolvente acústica es una serie de parámetros de tiempo que establecen el comportamiento en amplitud de un sonido al ser este, percutido o ejecutado. Es un término utilizado principalmente en sintetizadores y samplers. Está determinado por cuatro principales parámetros:

Ataque: Es el tiempo de entrada. Lo que tarda en escucharse el sonido después de haber sido ejecutado el instrumento.

Decaimiento: Es el tiempo que tarda la amplitud en reducirse a la de sostenimiento, después de haber alcanzado la amplitud máxima, sin despegar la tecla o punto de inducción vibratoria.

Sostenimiento: Después del decaimiento, es la amplitud que se mantiene constante hasta despegar la tecla o punto de inducción vibratoria.

Relajación: El tiempo que tarda el sonido en perder toda su amplitud después de despegar la tecla o punto de inducción vibratoria.

Conversión analógica a digital

Una señal analógica es aquella que puede tomar una infinidad de valores (frecuencia y amplitud) dentro de un límite superior e inferior. El término analógico proviene de análogo. Por ejemplo, si se observa en un osciloscopio, la forma de la señal eléctrica en que convierte un micrófono el sonido que capta, ésta sería similar a la onda sonora que la originó.

En cambio, una señal digital es aquella señal cuyas dimensiones (tiempo y amplitud) no son continuas sino discretas, lo que significa que la señal necesariamente ha de tomar unos determinados valores fijos predeterminados en momentos también discretos. Estos valores fijos se toman del sistema binario, lo que significa que la señal va a quedar convertida en una combinación de ceros y unos, que ya no se parece en nada a la señal original. Precisamente, el término digital tiene su origen en esto, en que la señal se construye a partir de números (dígitos).

La digitalización o conversión analógica-digital (conversión A/D) consiste básicamente en realizar de forma periódica medidas de la amplitud de la señal y traducirlas a un lenguaje numérico. La conversión A/D también es conocida por el acrónimo inglés ADC (analogic to digital converter).

En la digitalización o conversión analógica-digital intervienen dos parámetros que son fundamentales para la posterior calidad del sonido:

La Tasa de Muestreo: (en inglés, sampling) La tasa o frecuencia de muestreo es el número de muestras por unidad de tiempo que se toman de una señal continua para producir una señal discreta, durante el proceso necesario para convertirla de analógica en digital. Como todas las frecuencias, generalmente se expresa en hercios (Hz, ciclos por segundo) o múltiplos suyos, como el kilohercio (kHz), aunque pueden utilizarse otras magnitudes.

La tasa usada en el sonido calidad Cd es de 44100Hz pero para grabar sonido es mejor utilizar una más alta 48000Hz 88000Hz etc.

Cantidad de bits: pueden ser 8 bits, 16 bits (calidad DC), pero para grabar, como antes, es mejor utilizar una mayor cantidad de bits 24 o 32.

Tarjetas de sonido:

Una tarjeta de sonido o placa de sonido es una tarjeta de expansión para computadoras que permite la entrada y salida de audio bajo el control de un programa informático. El uso típico de las tarjetas de sonido es proveer a las aplicaciones multimedia del componente de audio. Estas aplicaciones multimedia engloban composición y edición de video o audio, presentaciones multimedia y entretenimiento (videojuegos).

Una tarjeta de sonido típica, incorpora un chip de sonido que por lo general contiene el Conversor digital-analógico, el cual cumple con la importante función de "traducir" formas de ondas grabadas o generadas digitalmente en una señal analógica y viceversa. Esta señal es enviada a un conector (para audífonos) en donde se puede conectar cualquier otro dispositivo como un amplificador, un altavoz, etc. Para poder grabar y reproducir audio al mismo tiempo con la tarjeta de sonido debe poseer la característica "full-duplex" para que los dos conversores trabajen de forma independiente.

Los diseños más avanzados tienen más de un chip de sonido, y tienen la capacidad de separar entre los sonidos sintetizados (usualmente para la generación de música y efectos especiales en tiempo real utilizando poca cantidad de información y tiempo del microprocesador y quizá compatibilidad MIDI) y los sonidos digitales para la reproducción.

Frecuencia de muestreo:

Las tarjetas de sonido y todos los dispositivos que trabajan con señales digitales lo pueden hacer hasta una frecuencia límite, mientras mayor sea esta mejor calidad se puede obtener, las tarjetas de sonido que incluían las primera computadoras Apple Mac Intosh tenían una frecuencia de muestreo de 22050 Hz (22,05 KHz)de manera que su banda de frecuencias para grabar sonido y reproducirlo estaba limitada a 10 KHz con una precisión de 8 bits que proporciona una relación señal sobre ruido básica de solo 40 dB, las primeras tarjetas estereofónicas tenían una frecuencia de muestreo de 44100 Hz (igual que los reproductores de CD) con lo que la banda útil se extendió hasta los 20 KHz (alta calidad) pero se obtiene un sonido más claro cuando se eleva un poco esta frecuencia pues hace que los circuitos de filtrado funcionen mejor, por lo que los DAT (digital audio tape) tienen una frecuencia de conversión en sus convertidores de 48 KHz, con lo cual la banda se extiende hasta los 22 KHz.

Debe recordarse que la audición humana está limitada a los 16 ó 17 KHz, pero si los equipos se extienden más allá de este límite se tiene una mejor calidad, también que la frecuencia de muestreo (del convertidor) debe ser de más del doble que la banda que se pretende utilizar (teorema de Nyquist en la práctica).

Finalmente los nuevos formatos de alta definición usan frecuencias de muestreo de 96 KHz (para tener una banda de 40 KHz) y hasta 192 KHz, no porque estas frecuencias se puedan oír, sino porque así es más fácil reproducir las que si se oyen.

Tipos de síntesis

Síntesis substractiva

Es un método de síntesis donde una señal es generada por un oscilador y después filtrada. Esta señal puede tener diferentes tipos de forma, por lo tanto varia en su contenido armónico.

Anteriormente se lograba gracias a los circuitos electrónicos de los sintetizadores analógicos. Con el paso del tiempo la técnica se ha ido sofisticando y actualmente en prácticamente cualquier ordenador se puede realizar este procedimiento.

Formas de onda base

Las señales base de la síntesis substractiva, deben ser ricas en armónicos. Estas pueden tener cualquier forma de onda (o cualquier espectro), aunque las llamadas formas básicas -menos la senoidal, por su espectro pobre-, como triángulo, diente de sierra, cuadrada o pulso se usan con frecuencia. A la señal emitida por el oscilador se le aplica un filtro para eliminar (substraer) cierta gama de frecuencias y lograr así sonidos diferentes.

Filtros

La síntesis substractiva depende de los filtros, justamente a través de estos se produce un cambio en la señal. Las características de los filtros se determinan por su función de transferencia y su orden. La primera determina la forma en que la señal aplicada cambia en señal y amplitud al pasar por el filtro, la segunda describe el grado de aceptación o rechazo de frecuencias por encima o por debajo de la respectiva frecuencia de corte.

En la práctica, para poder conseguir gamas más o menos amplias de sonidos mediante la variación del filtrado, es necesario que la onda de base sea rica en armónicos.

En el caso de las formas de onda mencionadas, la que contiene más armónicos es la cuadrada, por lo que con frecuencia es la más empleada en este tipo de síntesis. Las ondas cuadrada y diente de sierra producen sonidos ásperos y agresivos, pero la aplicación de un filtro paso bajo consigue sonidos de diferentes colores. La mayoría de los sonidos electrónicos que imitan conjuntos de metales o cuerdas son generados mediante este método, variando, según el caso, la frecuencia de corte del filtro para conseguir sonidos con más o menos brillo.

Los tres tipos de filtros más conocidos y utilizados son:

Paso bajo (Low Pass): Permite el paso de frecuencias bajas y atenúa las frecuencias altas.

Paso alto (High Pass): Permite el paso de frecuencias altas y atenúa las frecuencias bajas.

Paso banda (Band Pass): Permite pasar solo un rango determinado de frecuencias.
Ruido filtrado:

Otro procedimiento para filtrar las ondas utiliza el ruido rosa y el ruido blanco, filtrados por medio de un filtro paso-banda de frecuencia central y ancho de banda variable.

Síntesis aditiva:

La síntesis aditiva es una técnica de síntesis de sonido para crear timbres.

Los timbres están formados por cantidades variables de armónicos o parciales que cambian a lo largo del tiempo con respecto a un tono o frecuencia fundamental. Los parciales son las ondas que complementan a la onda fundamental para crear un timbre, si las frecuencias de los parciales son múltiplos enteros de la frecuencia fundamental son denominados parciales armónicos, y si son múltiplos reales son denominados no armónicos.

En la síntesis aditiva es muy importante la utilización diferentes envolventes que se encargan del manejo la amplitud sobre cada parcial y es lo que estructura el comportamiento del sonido en el tiempo.

Para realizar el proceso se hace necesario disponer de un banco de osciladores para que generaran las diferentes ondas que complementan la onda fundamental cada una con amplitudes y frecuencias diferentes además de su propia envolvente configurable de volumen, creándose un sonido dinámico y realista.

Síntesis granular:

La Síntesis de sonido basada en granos o Síntesis granular es una técnica de producción de sonidos que se basa en una concepción del sonido en términos de partículas o cuantos, pequeñas explosiones de energía encapsuladas en una envolvente agrupados en conjuntos mayores, cuya organización será determinada por dos métodos principales de distribución temporal: Sincrónico y asincrónico.

El método sincrónico, en la que los granos son disparados a frecuencias más o menos regulares para producir sonidos con un periodo de altura particular. Por su parte, el método asincrónico aleatoriza las distancias entre los granos para producir una nube sonora (Dodge & Jerse, 262).

Síntesis mediante Tablas de ondas:

La tabla de ondas, conocido con el anglicismo Wavetable es una técnica de síntesis de sonido utilizado principalmente para producir música digitalmente. Los sistemas de muestreo digital almacenan sonido de alta calidad digitalmente y reproducen estos sonidos bajo demanda. Dado que la cantidad de memoria que se necesita para obtener alta fidelidad es bastante grande, suelen utilizarse técnicas de compresión de datos tales como looping, pitch-shifting, interpolación matemática y filtrado digital.

Tal y como se ha comentado, la mayoría de los sintetizadores modernos utiliza alguna forma de síntesis Wavetable, cuando no recurre directamente a un muestreo completo del sonido a emitir.

Síntesis de Amplitud Modulada (AM):

Amplitud modulada (AM) o modulación de amplitud es un tipo de modulación no lineal que consiste en hacer variar la amplitud de la onda portadora de forma que esta cambie de acuerdo con las variaciones de nivel de la señal moduladora.

Síntesis por modulación de frecuencias (FM):

La modulación es una de las formas de hacer síntesis de sonido, y consiste en variar determinado aspecto de una señal (denominada portadora) con respecto a una segunda (denominada moduladora), generando finalmente una “onda modulada”. En el caso de la Frecuencia Modulada (FM), se oscila la frecuencia de la onda portadora.

La síntesis por modulación usa usualmente de dos a seis osciladores mientras que la síntesis aditiva o la síntesis substractiva requieren de un oscilador por cada variación de onda. Esto quiere decir que la síntesis por modulación es más efectiva. La FM puede generar salidas de señal complejas que contengan múltiples frecuencias con sólo dos osciladores. Este método de síntesis se hizo famoso dentro del ámbito académico gracias al compositor John Chowning y posteriormente en el mundo gracias a “Yamaha” pues compro los derechos de la FM y realizó grandes series de sintetizadores basados en este proceso.

La diferencia entre FM y AM (Modulación de amplitud) es que en vez de simplemente sumar o restar bandas laterales (sidebands), la modulación de Frecuencias de dos ondas sinusoidales genera una serie de bandas laterales alrededor de una frecuencia portadora (P). Cada banda lateral aparece a una distancia igual al múltiplo de la frecuencia moduladora (M ).

La cantidad de bandas laterales depende del Índice de modulación (I ). Si I (en Hz) es igual a cero, no hay modulación. Si I es mayor que cero, la modulación ocurre tanto arriba como abajo de la frecuencia portadora P en intervalos iguales a la frecuencia moduladora M. Las bandas laterales pueden tener una amplitud positiva o negativa, dependiendo del valor de I. Cuando la amplitud es positiva, se dice que el componente está en fase. En el caso contrario, se dice que el componente está fuera de fase, y se representa gráficamente con las amplitudes hacia abajo.

Síntesis por Modelos Físicos:

La síntesis se hace a partir de la simulación en una computadora de un objeto físico y sus características. Se imita mediante ecuaciones matemáticas el comportamiento de las ondas sonoras a través de los mecanismos del instrumento real que se trata de imitar. Una flauta, una guitarra, etc. Es la técnica más vanguardista.

MIDI

MIDI son las siglas de Musical Instrument Digital Interface (Interfaz Digital de Instrumentos Musicales). Se trata de un protocolo industrial estándar que permite a las computadoras, sintetizadores, secuenciadores, controladores y otros dispositivos musicales electrónicos comunicarse y compartir información para la generación de sonidos.

Esta información define diversos tipos de datos como números que pueden corresponder a notas particulares, números de patches de sintetizadores o valores de controladores. Gracias a esta simplicidad, los datos pueden ser interpretados de diversas maneras y utilizados con fines diferentes a la música. El protocolo incluye especificaciones complementarias de hardware y software.

Los dispositivos MIDI son capaces de enviar y recibir información, pero desempeñan un papel diferente dependiendo de si están recibiendo o enviando información, también depende de la configuración del programa o programas que se puede usar dicho dispositivo. El que envía los mensajes de activación se denomina Maestro (del inglés master, o ‘amo’) y el que responde a esa información Esclavo (slave).

Los aparatos MIDI se pueden clasificar en tres grandes categorías:

Controladores: generan los mensajes MIDI (activación o desactivación de una nota, variaciones de tono, etc). El controlador más familiar a los músicos tiene forma de teclado de piano, al ser este instrumento el más utilizado a la hora de componer e interpretar las obras orquestales; sin embargo, hoy día se han construido todo tipo de instrumentos con capacidad de transmisión vía interfaz MIDI: guitarras, parches de percusión, clarinetes electrónicos, incluso gaitas MIDI.

Unidades generadoras de sonido: también conocidas como módulos de sonido, reciben los mensajes MIDI y los transforman en señales sonoras (recordemos que MIDI no transmite audio, sino paquetes de órdenes en formato numérico).

Secuenciadores: no son más que aparatos destinados a grabar, reproducir o editar mensajes MIDI. Pueden desarrollarse bien en formato de hardware, bien como software de computadora, o bien incorporados en un sintetizador.

Software Musical

En un principio, y no hace tanto, los programas para la creación musical estaban basados en un secuenciador midi, con su clásica pianola, con sonidos sacados de las tarjetas de sonido.

Ahora se sigue utilizando el midi y esta notación en pianola, pero la diferencia aparte de que añadimos pistas o sampler de sonido grabado, es que se utilizan unidades generadoras de sonido o efectos (plugins) que son programas independientes y que se alojan o introducen en el programa secuenciador (host).

Los “plugins” son programas (DSP) digital signal processing que sintetizan sonidos (sintetizadores), o leen muestras (samplers), o pasan la señal a través suyo añadiendo algún tipo de efecto (efectos).

Existen varios tipos de plugins y programas Host que los pueden utilizar:

VST (Windows y mac)

Adio Units (formato de mac)

LADSPA / DSSI (formato de Linux)

RTA (Real Time Audio Suite) formato de plugin creado por la empresa Digidesign para sus sistemas de producción musical ProTool.

Virtual Studio Technology

Virtual Studio Technology (Tecnología de Estudio Virtual) ó VST es una interfaz estándar desarrollada por Steinberg para conectar sintetizadores de audio y plugins de efectos a editores de audio y sistemas de grabación. Permite reemplazar el hardware tradicional de grabación por un estudio virtual con herramientas software.

Un VST es un programa de software que debe ser ejecutado mediante una aplicación que soporte esta tecnología. A esta aplicación se le llama VST Host, ejemplos de esto son Cubase y Ableton Live.

Los VSTs tienen la capacidad de procesar (llamados efecto VST) y generar (llamados VSTi por VST Instrument) audio, como también interactuar con interfaces MIDI.

La tecnología VST esta disponible para los sistemas operativos Windows y Mac OS. En el caso de Windows los VSTs son archivos DLLs. Como estos son un archivo binario son dependientes de la plataforma donde se ejecutan, por lo que un VST compilado para Mac OS no funcionará en Windows y recíprocamente. Para los sistemas Linux, se pueden utilizar las versiones de Windows con el Wine.

Existen muchos programas que pueden utilizar plugins VST:

Project5
FLStudio
Sonar7
Etc.

Frecuencia

Capítulo I

Las frecuencias, como las amplitudes, a menudo se miden en una escala logarítmica, con el fin de hacer hincapié en las proporciones (relaciones) entre ellas, que suelen proporcionar una mejor descripción de la relación entre las frecuencias de lo que lo hacen las diferencia. La ratio de frecuencia entre dos tonos musicales determina el intervalo entre ellos.

La escala musical occidental divide la octava ( el intervalo musical asociado a una ratio de 2:1) en doce sub-intervalos iguales, cada uno de los cuales corresponde a una ratio de

. Por razones históricas estos sub-intervalos son llamados semitonos (half-step). Una conveniente escala logarítmica para los tonos es simplemente contar el número de semitonos de un tono de referencia - usando fracciones que nos permiten especificar parcelas que no entren en una nota de la escala occidental. La escala de tonos logarítmica más usada es la “MIDI pitch”, en la cual es tono “Pich” 69 es asignado a la frecuencia 440 ciclos por segundo – un La por encima del medio- para convertir entre un tono MIDI m y una frecuencia en ciclos por segundo f, aplicamos las fórmulas de conversión Pitch / Frecuency:

El La medio, correspondiente al MIDI pitch m = 60, viene a ser unos f = 261.626 ciclos por segundo.

MIDI es un viejo protocolo de hardware que, desafortunadamente, ha insinuado en una gran cantidad de software de diseño. En hardware, el MIDI permite sólo tonos enteros entre 0 y 127. Sin embargo, la escala subyacente está mejor definida para “cualquier” número MIDI, aunque sea negativo; por ejemplo; un “MIDI pitch” de -4 es una buena tasa de vibrato. La escala pitch no puede, sin embargo, describir frecuencias menores o iguales a cero ciclos por segundo.

Un semitono tiene una ratio de 1.059 a 1, o sea aproximadamente un seis por ciento de incremento en la frecuencia. Los semitonos se pueden dividir, a su vez, en cétimos (cents), cada cual es un centésima parte de un semitono. Como regla general se necesitan por lo menos 3 céntimos para hacer perceptible un cambio en el tono. En un La medio esto significa alrededor de ½ ciclo por segundo. Un gráfico de la frecuencia como una función del MIDI pitch, sobre el rango de dos octavas, se muestra en la figura 1.4.

Controlando la Amplitud

Capítulo I

Tal vez la más frecuentemente operación utilizada en los sonidos electrónicos es cambiar sus amplitudes. Tal vez el más frecuentemente utilizado en la operación sonidos electrónicos es cambiar sus amplitudes. Por ejemplo, una simple estrategia para sintetizar sonidos es mediante la combinación de sinusoides, que pueden ser generados por la evaluación de la fórmula de página 1, muestra por muestra. Pero la sinusoide tiene una amplitud nominal a constante, y nos gustaría poder variar esta en el tiempo.

En general, para multiplicar la amplitud de una señal x [n] por un factor y ≥ 0, puedes multiplicar cada muestra por y, obteniendo una nueva señal y ∙ x [n]. Cualquier medida de amplitud RMS o pico de x [n] será aumentada o disminuida por el factor y. Más generalmente, tu puedes cambiar la amplitud por una cantidad y [n] la cual variará muestra por muestra. Sí y [n] es no-negativo y si este varía lentamente, la amplitud de el producto y [n] ∙ x [n] (en una ventana fijada de M a M + N – 1) será tal que x [n], multiplicada por el valor de y [n] en la ventana ( la cual asumimos que no cambia demasiado sobre los k samples en la ventana)

En un caso mucho más general donde tanto x [n] como y [n] pueden tomar valores positivos y negativos o cambiar rápidamente, el efecto de multiplicarlas no puede ser descrito como un simple cambio de amplitud de uno de ellos; esto lo veremos en el capítulo 5.

Media y derivación estándar

Capítulo I

La media, indicado por μ (una minúscula griega mu), es la jerga de los estadísticos para el valor medio de una señal. Se encuentra justo como era de esperar: añadir todas las muestras juntas, y dividir por N. El aspecto que presenta en forma matemática:

En palabras, sumar los valores de la señal, xi, dejando el índice, i, correr de 0 a N - 1. Luego terminar el cálculo dividiendo la suma por N. Esto es idéntico a la ecuación:

Si no está ya familiarizado con

(mayúsculas griega sigma) que sirve para indicar sumatorio, estudia estas ecuaciones cuidadosamente, y compáralas con el programa de ordenador en la Tabla 2-1. Sumatorios de este tipo son abundantes en DSP, y tienes que comprender plenamente esta notación.

En electrónica, a la media se le denomina la DC (corriente directa) valor. Del mismo modo, AC (corriente alterna) se refiere a la forma en que la señal fluctúa alrededor del valor medio. Si la señal es una simple forma de onda repetitiva, como un seno o una onda cuadrada, sus excursiones pueden ser descritas por su amplitud pico a pico. Lamentablemente, en la mayoría de las señales adquiridas no se advierte un bien definido valor pico a pico, ya que tienen un carácter aleatorio, como las señales en la Fig. 2-1. Un método más generalizado que se debe utilizar en estos casos, se llama la desviación estándar, denotado por σ (la minúscula griega sigma).

Como punto de partida, la expresión, ( xi -

), describe hasta qué punto la muestra ith se desvía (diferencia) de la media. La desviación media de una señal se encuentra sumando las desviaciones de todas las muestras individuales, y luego dividiendo por el número de muestras, N. Nota que tomamos el valor absoluto de cada desviación antes del sumatorio, de otro modo los términos positivos y negativos podrían promediarse a cero. La desviación media proporciona un único número que representa la distancia típica a la que las muestras se encuentran de media.

Aunque conveniente y simple, la desviación promedio casi nunca se utiliza en estadística. Esto se debe a que no encaja bien con la física de cómo las señales operan. En la mayoría de los casos, el parámetro importante no es la desviación de la media, sino la potencia (power) representada por la desviación de la media. Por ejemplo, al combinar señales de ruido aleatorio en un circuito electrónico, el ruido resultante es igual a la potencia combinada de las señales individuales, y no a su amplitud combinada.

La desviación estándar es similar a la desviación media, con excepción de la media se realiza con la potencia en lugar de con la amplitud. Esto se consigue haciendo la cuadratura de cada una de las desviaciones antes de tomar la media (recuerde, potencia voltage2). Para terminar, la raíz cuadrada se toma para compensar la cuadratura inicial . En forma de ecuación la desviación estándar se calcula:

En notación alternativa:

Nota que el promedio se realiza dividiendo entre N - 1 en vez de N. Se trata de una sutil característica de la ecuación que se discutirá en la siguiente sección. El término, σ2, aparece con frecuencia en estadística y se le dio el nombre de varianza. La desviación estándar es una medida de hasta qué punto la señal oscila de la media. La varianza representa la potencia de esta fluctuación. Otro término con el que debe familiarizarse es el valor rms (raíz-media-cuadrada), de uso frecuente en la electrónica. Por definición, la desviación estándar sólo mide la parte AC de una señal, mientras que el valor rms mide los componentes AC y DC. Si una señal no tiene componente DC, su valor rms es idéntico al de su desviación estándar. La Figura 2-2 muestra la relación entre la desviación estándar y el valor pico a pico de varias formas de onda comunes.

La Tabla 2-1 enumera una rutina de computadora para el cálculo de la media y la desviación estándar utilizando las Ecuaciones. 2-1 y 2-2. Los programas de este libro pretende transmitir algoritmos de la forma más sencilla posible, y todos los demás factores son tratados como secundarios. La buenas técnicas de programación son dejadas a un lado si así se consigue que el programa sea más claro y lógico. Por ejemplo: una versión simplificada de Basic se utiliza, el número de líneas se incluyen, sólo está permitido la estructura de control el bucle FOR-NEXT, no hay configuraciones de I/ O, etc. Piense en estos programas como una forma alternativa de entender las ecuaciones utilizadas en DSP. Si no puede comprender uno, el otro tal vez le ayude. En BASIC, el carácter% al final de un nombre de variable indica que es un entero. Todas las demás variables son de punto flotante. El capítulo 4 discute estos tipos variables en detalle.

100 CALCULATION OF THE MEAN AND STANDARD DEVIATION
110 '
120 DIM X[511] 'The signal is held in X[0] to X[511]
130 N% = 512 'N% is the number of points in the signal
140 '
150 GOSUB XXXX 'Mythical subroutine that loads the signal into X[ ]
160 '
170 MEAN = 0 'Find the mean via Eq. 2-1
180 FOR I% = 0 TO N%-1
190 MEAN = MEAN + X[I%]
200 NEXT I%
210 MEAN = MEAN/N%
220 '
230 VARIANCE = 0 'Find the standard deviation via Eq. 2-2
240 FOR I% = 0 TO N%-1
250 VARIANCE = VARIANCE + ( X[I%] - MEAN )^2
260 NEXT I%
270 VARIANCE = VARIANCE/(N%-1)
280 SD = SQR(VARIANCE)
290 '
300 PRINT MEAN SD 'Print the calculated mean and standard deviation
310 '
320 END
TABLE 2-1

Este método de cálculo de la media y de la desviación estándar es adecuado para muchas aplicaciones, sin embargo, tiene dos limitaciones. En primer lugar, si la media es mucho mayor que la desviación estándar, la Eq. 2-2 implica que hay que restar dos números que son muy cercanos en valor. Esto puede resultar en un excesivo error de redondeo en los cálculos, un tema discutido con más detalle en el capítulo 4. En segundo lugar, a menudo es conveniente para volver a calcular la media y la desviación estándar como nuevas muestras que se hayan adquirido y añadido a la señal. Vamos a llamar a este tipo de cálculo: (running statistics) Si bien el método de las Eqs. 2-1 y 2-2 puede ser utilizado para ejecutar estadísticas activas, requiere que todos las muestras que participen en cada nuevo cálculo. Este es un uso muy ineficiente de la capacidad de cálculo y de memoria.

Una solución a estos problemas se puede encontrar mediante la manipulación de las Eqs. 2-1 y 2-2 para proporcionar otra ecuación para el cálculo de la desviación estándar:

A medida que nos movemos a través de la señal, un recuento se mantiene de tres parámetros: (1) el número de muestras ya procesadas, (2) la suma de estas muestras, y (3) la suma de los cuadrados de las muestras (es decir, los cuadrados del valor de cada muestra y la suma del resultado del valor acumulado). Después de que cualquier número de muestras se hayan procesado, la media y la desviación estándar pueden ser calculada eficiente utilizando sólo el valor actual de los tres parámetros. La Tabla 2-2 muestra un programa que realiza la media y la desviación estándar de esta manera, ya que cada nueva muestra se tiene en cuenta. Este es el método utilizado en las calculadoras de mano para encontrar las estadísticas de una secuencia de números. Cada vez que introduzca un número y pulse la Σ (sumatorio), los tres parámetros se actualizan. La media y desviación estándar se pueden encontrar cada vez que se desee, sin tener que recalcular toda la secuencia.

100 'MEAN AND STANDARD DEVIATION USING RUNNING STATISTICS
110 '
120 DIM X[511] 'The signal is held in X[0] to X[511]
130 '
140 GOSUB XXXX 'Mythical subroutine that loads the signal into X[ ]
150 '
160 N% = 0 'Zero the three running parameters
170 SUM = 0
180 SUMSQUARES = 0
190 '
200 FOR I% = 0 TO 511 'Loop through each sample in the signal
210 '
220 N% = N%+1 'Update the three parameters
230 SUM = SUM + X[I%]
240 SUMSQUARES = SUMSQUARES + X[I%]^2
250 '
260 MEAN = SUM/N% 'Calculate mean and standard deviation via Eq. 2-3
270 IF N% = 1 THEN SD = 0: GOTO 300
280 SD = SQR( (SUMSQUARES - SUM^2/N%) / (N%-1) )
290 '
300 PRINT MEAN SD 'Print the running mean and standard deviation
310 '
320 NEXT I%
330 '
340 END
TABLE 2-2

Antes de terminar esta discusión sobre la media y desviación estándar, otros dos términos tienen que ser mencionados. En algunas situaciones, la media describe lo que está siendo medido, al tiempo que representa la desviación estándar del ruido y otras interferencias. En estos casos, la desviación estándar no es importante en sí misma, sino sólo en comparación con la media. Esto da lugar a la expresión: la relación señal-ruido (SNR), que es igual a la media, dividida por la desviación estándar. Otro término también se utiliza, el coeficiente de variación (CV). Este se define como la desviación estándar dividida por la media, multiplicado por 100 por ciento. Por ejemplo, una señal (u otro grupo de valores de medida), con un CV del 2%, tiene una relación señal ruido de 50. Una mejora de los datos significa un mayor valor de la relación señal ruido y un menor valor para la CV.

Texto basado en: "The Scientist and Engineer's Guide to Digital Signal Processing"
Steve Smith

Estadística, probabilidad y ruido

Capítulo I

Estadística y probabilidad se utilizan en el procesamiento de señales digitales para caracterizar las señales y los procesos que las generan. Por ejemplo, un uso principal de la DSP es reducir la interferencia, el ruido, y otros componentes indeseables en los datos adquiridos. Estos pueden ser una parte inherente de la señal que se mide, surgen de las imperfecciones en el sistema de adquisición de datos, o se presentan como un subproducto inevitable de algunas operaciones DSP. Estadística y probabilidad permiten que estos elementos perturbadores sean medidos y clasificados, el primer paso en el desarrollo de estrategias para eliminar estos componentes indeseables. Este capítulo presenta los conceptos más importantes en estadística y probabilidad, con énfasis en la forma en que se aplican a las señales adquiridas.

Señales y terminología gráfica

Una señal es una descripción de cómo un parámetro está relacionado con otro parámetro. Por ejemplo, el tipo más común de señal analógica en electrónica es una tensión (voltaje) que varía con el tiempo. Dado que ambos parámetros pueden asumir un rango continuo de valores, vamos a llamar a esto una señal. En comparación, pasar esta señal a través de un convertidor analógico a digital fuerza a estos dos parámetros a ser cuantificados. Por ejemplo, imagina la transformación que se está realizando con 12 bits con una velocidad de muestreo de 1000 muestras por segundo. La tensión se reduce a 4096 (212) niveles binarios posibles, y el tiempo sólo está definido en incrementos de un milisegundo. Las señales que se forman a partir de parámetros que se cuantizaron de esta manera se dice que son señales discretas o señales digitalizadas. En su mayor parte, las señales continuas existen en la naturaleza, mientras que las señales discretas existen dentro de las computadoras (aunque se pueden encontrar excepciones a los dos casos). También es posible tener señales donde un parámetro es continuo y el otro es discreto. Dado que estas señales son muy poco frecuentes, no se han dado nombres especiales para ellas, y la naturaleza de los dos parámetros debe ser explícitamente indicado.

Figura 2-1 muestra dos señales discretas, y cómo pueden ser adquiridas con un sistema digital de adquisición de datos. El eje vertical puede representar el voltaje, intensidad de luz, presión de sonido, o un número infinito de otros parámetros. Dado que no sabemos lo que representa en este caso particular, vamos a darle la etiqueta genérica: amplitud. Este parámetro se llama también varios otros nombres: el eje-y, la variable dependiente, el rango, y la ordenada.

El eje horizontal representa el otro parámetro de la señal, pasando por nombres como: el eje "x", la variable independiente, el dominio, y el eje de abscisa. El tiempo es el parámetro más común para aparecer en el eje horizontal de las señales adquiridas, sin embargo, otros parámetros se utilizan en aplicaciones específicas. Por ejemplo, un geofísico puede adquirir mediciones de la densidad de la roca a distancias regulares a lo largo de la superficie de la tierra. Para mantener las cosas en general, nosotros simplemente utilizaremos la etiqueta de eje horizontal: número de muestras. Si esto fuera una señal, otra etiqueta tendría que ser utilizados, tales como: tiempo, distancia, x, etc.

Los dos parámetros que constituyen una señal por lo general no son intercambiables. El parámetro en el eje Y (la variable dependiente) se dice que es una función del parámetro sobre el eje "x" (la variable independiente). En otras palabras, la variable independiente describe cómo o cuando cada muestra es tomada, mientras que la variable dependiente es la medida actual. Dado un valor específico en el eje "x", siempre se puede encontrar el valor correspondiente en el eje Y, por lo general, pero no a la inversa.

Hay que prestar especial atención a la palabra: dominio, un término ampliamente utilizado en DSP. Por ejemplo, una señal de que utiliza el tiempo como la variable independiente (es decir, el parámetro sobre el eje horizontal), se dice que está en el dominio del tiempo. Otra señal en el DSP utiliza la frecuencia como la variable independiente, se dice que está en el dominio de la frecuencia. Del mismo modo, las señales que utilizan la distancia como parámetro independiente se dice que están en el dominio espacial (la distancia es una medida de espacio). El tipo de parámetro en el eje horizontal es el dominio de la señal, es así de simple. ¿Qué pasa si el eje "x" es la etiqueta con algo muy genérico, como el número de muestras? Los autores comúnmente se refieren a estas señales como en el dominio del tiempo. Esto se debe a que el muestreo a intervalos iguales de tiempo es la manera más común de obtener señales, y no tienen nada más específico para nombrarlas.

A pesar de que las señales en la Fig. 2-1 son discretas, se muestran en esta figura como líneas continuas. Esto se debe a que hay demasiadas muestras para que se puedan distinguirse, sí se muestran como marcadores individuales. En los gráficos que retratan las señales más corto, digamos de menos de 100 muestras, cada uno de los marcadores por lo general se muestran. Pueden haber líneas continuas conectando los marcadores, dependiendo de la forma en que el autor quiere que veas los datos. Por ejemplo, una línea continua podría implicar que algo está ocurriendo entre las muestras, o simplemente ser una ayuda para ayudar a que los ojos del lector siga una tendencia en los datos ruidosos. El punto es, examinar el etiquetado del eje horizontal para encontrar si estás trabajando con una señal continua o discreta. No confíe en la capacidad de un ilustrador para dibujar puntos.

La variable, N, se utiliza ampliamente en DSP para representar el número total de muestras en una señal. Por ejemplo, N = 512 de las señales en la Fig. 2-1. Para mantener organizados los datos, cada muestra se le asigna un número de muestra o índice. Estos son los números que aparecen a lo largo del eje horizontal. Dos anotaciones para la asignación de números de la muestra son de uso común. En la primera notación, la muestra índices corren a partir de 1 a N (por ejemplo, de 1 a 512). En la segunda notación, los índices de muestra van desde 0 a N - 1 (por ejemplo, de 0 a 511). Los matemáticos suelen utilizar el primer método (1 a N), mientras que los que comúnmente utilizan DSP usan el segundo (0 a N - 1). En este libro, vamos a utilizar la segunda notación. No descarte esto como un problema trivial. No se confunda usted en algún momento de su carrera.

Texto basado en: "The Scientist and Engineer's Guide to Digital Signal Processing"
Steve Smith

lunes, 20 de julio de 2009

Unidades de Amplitud

Capítulo I

Dos amplitudes son normalmente, mejor comparadas usando su ratio (relación) que sus diferencias. Decir que la amplitud de una señal es más grande que la otra por un factor de dos, puede ser más informativo que decir que es más grande en 30 milivoltios. Esto es verdad para algunos tipo de medidas de amplitud (RMS o pico, por ejemplo). Para facilitar la comparación, a menudo expresamos las amplitudes en unidades logarítmicas llamadas decibelios. Si a es la amplitud de una señal (ya sea el pico o RMS), entonces podemos definir el nivel de decibelio (dB) d como:

Donde

es la amplitud de referencia. Esta deficinición está configurada de tal modo que, si incrementamos la potencia de la señal por un factor de diez (de modo que la amplitud se incremente en un factor de

), el logaritmo se incrementará en ½, y entonces el valor en decibelios sube (aditivamente) por 10. Un incremento en la amplitud por un factor de dos corresponde a un incremento de unos 6.02 decibelios; duplicando la potencia se produce un incremento de 3.01 dB. La relación entre amplitud lineal y amplitud en decibelios se muestra gráficamente en la figura 1.3

Aún utilizando

para indicar la referencia de amplitud, con una señal de amplitud lineal menor que

tendremos una amplitud negativa en decibelios:

da -20 dB,

da -40, y así sucesivamente. Una amplitud lineal de cero es más pequeña que la de cualquier valor en dB, por lo tanto tendríamos un nivel dB de -

.

En audio digital una conveniente elección es tomar como referencia, asumiendo que el hardware tenga una amplitud máxima de uno,

De modo que la máxima amplitud posible es 100 dB, y 0 dB es probable que sea un razonable nivel de escucha. El rango dinámico del oído humano –la ratio entre un sonido doloroso y uno inaduble - es de alrededor de 100 dB.

La amplitud está relacionada de una forma inexacta con la percepción del volumen de un sonido. En general, dos señales con el mismo pico o RMS de amplitud no tienen necesariamente el mismo volumen. Sin embargo, ampliando en 3 dB una señal, podemos decir que la hacemos un “paso” más ruidosa. Mucho se ha hablado de la supuesta naturaleza logarítmica del oído humano, lo cual podría explicar parcialmente por qué los decibelios son una útil escala de amplitud.

La amplitud está también relacionada de una manera inexacta con la dinámica musical. Pero la dinámica es mejor pensarla como una medida de esfuerzo más que de volumen o potencia. Tiene un rango de nueve valores: rest, ppp, pp, p, mp, mf, f, ff, fff. Esto relaciona, de una forma más flexible, el volumen con la amplitud de una señal.

Basado en "The Theory and Technique of Electronic Music" Miller Puckette

martes, 23 de junio de 2009

El filtro All-pass

El filtro Allpass tiene la propiedad única de que pasa todas las frecuencias por igual. Esta propiedad lo hace útil en el diseño reverberadores debido a que aumenta la densidad del eco, mientras que la reduce la coloración de la señal (un filtro allpass no es transparente para señales transitorias (transientes), ya que tiene una respuesta de fase). La función de transferencia básica de un filtro allpass es:

En un gráfico polo-cero, los polos y ceros ocupan lugares conjugados recíprocos. La prueba de la respuesta de la frecuencia plana es la siguiente:

La estructura de un filtro allpass es similar al filtro de peine, pero contiene una ruta adicional de retroalimentación. La estructura se muestra en la Figura 1, el impulso y la respuesta de impulso se muestra en la Figura 2. El retraso puede ser cualquier número positivo de muestras y aún cuenta con una respuesta de frecuencia plana.

En las aplicaciones de reverberación, el retraso utilizado en un filtro allpass se mide generalmente en milisegundos. Esto mantiene las "reflexiones" espaciadas de forma similar al impulso de respuesta de una sala.

Basado en artículo: http://www.harmony-central.com/Effects/Articles/digitalAllpass/

jueves, 7 de mayo de 2009

Efecto Delay

Introducción

El delay es una de los más simples efectos que hay, pero es muy valioso cuando se utiliza correctamente. Un poco de retraso puede traer a la vida a mezclas aburridas, ampliar el sonido de tu instrumento. El delay también es una pieza básica para la construcción de una serie de otros efectos, tales como reverberación, chorus y flanger.

El delay básico

El algoritmo detrás del efecto de coro no es un truco espectacular o increíble - realmente es bastante simple. ¿Qué sucede cuando dos personas tocan instrumentos al unísono? No siempre se toca con una sincronización precisa, de manera que hay un cierto retraso entre los sonidos que se producen. Además, la afinación de los dos instrumentos puede variar un poco, a pesar de una cuidadosa afinación. Estas son las funciones que tu efecto de coro reproduce.

Simplemente pon, un retraso tomado de una señal de audio, y ponlo a sonar después del tiempo de delay. El tiempo de retraso puede tener un rango de varios milisegundos a varios segundos. La figura 1 presenta el delay básico en la forma de gráfico de flujo. Este sólo produce una copia simple de la entrada, y por eso, a veces se le llama dispositivo de eco.

Figura 1: Diagrama de la unidad básica de delay, o dispositivo de eco.

Tener sólo un simple efecto de eco es un tanto limitado, así que la mayoría de los delays ofrecen también un control de feedback (a veces llamado regeneración) el cual, toma la salida del delay, y la envía de nuevo a la entrada, como se ve en la figura 2. Ahora tienes la habilidad de repetir el sonido una vez y otra, y se va volviendo más silencioso cada vez que suena (asumiendo que la ganacia del feedback sea menor que uno. La mayoría de los dispositivos de delay restringen este valor a menos de uno por razones de estabilidad). Con el feedback el sonido es, teoréticamente, repetido para simepre (al menos mientras no apagues la unidad de delay), pero después de un punto, se haría tan silencioso que esaría por debajo del ruido de ambiente del sistema y sería inaudible.

Figura 2: Diagrama de la unidad básica de delay con feedback

Los retrasos son muy útiles para llenar el sonido de un instrumento. Tocar a través de una unidad de delay con un eco corto, por ejemplo, de 50 a 100 milisegundos, crea un efecto de doblamiento, como si dos instrumentos se tocaran al unísono. Varios retrasos, juntos con retroalimentación (feedback) pueden utilizarse para crear un sonido tipo reverberación, a pesar de que una típica unidad de reverberación creará un patrón de sonido más complejo.

A medida que aumentan los tiempos de retraso a 100 milisegundos o más, el retraso no deja de ser un efecto sutil. Una posibilidad interesante es hacer coincidir el tiempo de retardo con el tempo de una canción de manera que las copias retrasadas del sonido caigan sobre en el ritmo. Extender los tiempos de delay mucho, cerca de un segundo o más, te da la oportunidad de tocar sobre ti mismo y desarrollar armonías que no podrías hacer tocando una sola nota a la vez.

Loopeo y sampleo son sólo un pequeño salto más allá. En lugar de repetir todo lo que toques, puedes grabar un segmento de interpretación, por ejemplo, una progresión de acordes, y luego hacerla un bucle - reproducir el audio grabado una y otra vez. Esto te permite ir un paso más ya que puedes realmente hacer un solo sobre ti mismo. Ciertos pedales de delay incluyen la capacidad de toma de muestras, aunque la longitud de la muestra puede ser limitada a dos segundos o menos. Para loops serios, necesitas dispositivos con tiempos de grabación más largos, como Lexicon JamMan y Oberheim Echoplex, son algunas de las unidades populares en el mercado para el looping, y otros que ofrecen otras capacidades más que el sólo loopeo hacia delante, tales como grabación de sonidos adicionales en el muestreador, reproducir el bucle hacia atrás y más ...

Los retrasos también son muy importantes cuando se construye una mezcla de instrumentos en un ambiente estéreo. Puede mejorar la colocación estéreo de los instrumentos, y hace la mezcla de sonido 'más grande'. Un poco de retraso puede ser más eficaz que la panorámización para difundir las pistas en el campo estéreo. Un simple retraso de 20 milisegundos puede marcar una gran diferencia.

Otros tipos de delay

Slapback

Un delay slapback no es un nuevo algoritmo. Es el mismo que el delay básico sin feedback discutido al principio de este artículo. Un dealy que se llama slapback si el tiempo de retardo es muy corto - digamos entre 40 y 120 milisegundos. Un delay más largo es a menudo citado como un eco, en lugar de un slapback.

Delay Multi-tap

En algunos casos, puede que quieras más flexibilidad en una unidad de retraso, y un multi-tap delay te ofrece sólo esto. Los Multi-tap dealys son interesantes porque permiten crear patrones más complejos que pueden añadir una calidad rítmica al instrumento.

En las unidades de delay discutidas anteriormente, la salida se toma después de que la señal se haya retrasado por el tiempo total de retardo. Pero también puedes tomar salidas de tal manera que la señal sólo se haya retrasado una porción total del tiempo de retardo. Tomar salidas de los puntos dentro de la línea de retardo es parecidol a colocar grifos en una tubería de agua, lo que te permite obtener agua en los puntos a los largo de la tubería. Las unidades son generalmente etiquetadas con el número de tomas posibles – un 3-tomas delay tiene tres tomas para usar, un 4-tomas tiene 4, etc. Tomas no deseadas puede ser eliminadas mediante el establecimiento del nivel de la toma de salida a cero. La cantidad de tiempo entre las diferentes tomas pueden ser diferentes. Un diagrama de un multi-tap delay se muestra en la Figura 3.

Figura 3: - Diagrama de flujo de un delay de 4 taps. Si el último valor retrasado es cero, y sólo el cuarto tap se utiliza, el sistema es equivalente al delay básico.

El delay multi-tap es realmente un caso más general del diseño del delay básico. Si configuras todas las ganancias de los taps menos una a cero, y colocas el tap remanente al final de la linea de delay, entonces tienes el delay básico mencionado anteriormente. El delay multi-tap podría ser generalizado aún más, permitiendo retroalimentación de las salidas del tap al principio de la línea de retardo también. Es poco probable que encuentres este tipo de control en productos, sin embargo, principalmente porque es muy fácil crear un sistema inestable.

Puede llevar un tiempo entender el retraso multi-tap. Observa que si se mira sólo a la salida de un solo tap, el sonido se repite de acuerdo al tiempo de retardo total. El sonido que entra aparecerá en la salida del tap antes del tiempo de retardo total (suponiendo que el tap no se encuentre en el extremo derecho del diagrama).

Ping-pong delay

Como el nombre implica, el ping-pong delay produce un sonido de rebote, donde el rebote se produce entre los canales izquierdo y derecho de una señal estéreo. El ping-pong delay utiliza dos líneas de retardo, cada una dirigida por una entrada (las entradas podría ser la misma señal, si se desea). En lugar de retroalimentar de nuevo sobre sí mismas, la salida de las líneas de retardo se retroalimentan dentro de las otras líneas de retardo, como se muestra en la Figura 4. Esta configuración produce dos señales de salida, que cuando se panean totalmente a la izquierda y la derecha puede crear el clásico sonido de "rebote".

Implementación

Analógica

Tal vez el dispositivo más común de grabación de audio sea la cinta magnética, y esta funciona perfectamente para la creación de retrasos. Simplemente graba la señal en la cinta, y pon una cabeza de reproducción en otro punto de la cinta. El retraso es la cantidad de tiempo que tarda la señal grabada en viajar de la cabeza de grabación a la cabeza de reproducción. Los retrasos de este tipo pueden ser ajustados cambiando ya sea la velocidad de la cinta, o la posición de las cabezas de grabación y reproducción. Para agregar feedback a un delay basado en cinta, puedes simplemente enviar una parte de la señal de salida de la cabeza de reproducción a la cabeza de grabación. Multi-tap delays se pueden hacer mediante el uso de cabezas adicionales de reproducción.

Hay algunos aspectos interesantes en los retrasos basados en cinta que serían difíciles de lograr con delays digitales. Si haces la ganancia de retroalimentación superior a uno, la señal en la cinta crecerá. Este crecimiento se verá limitada por la capacidad de la cinta, ya que se satura. Este sonido puede no ser conveniente para todas las aplicaciones, pero también se puede concebir variar la ganancia de la retroalimentación a través del tiempo para dar forma al sonido. Si el retraso tiene cabezas móviles, también puedes mover las cabezas mientras se opera, cambiando el tono de los sonidos grabados o leídos.

Para tiempos de delay muy cortos, las implementaciones analógicas pueden utilizar circuitos del tipo "sample and hold" o "beckett brigade”. El tiempo de retardo deseado puede ser alcanzado simplemente colocando en cascada los suficientes de estos dispositivos. El uso de circuitos de este tipo puede ofrecer un control más preciso sobre el tiempo de retardo.

Dispositivos digitales de delay

Como los precios de las memorias han ido disminuyendo durante los últimos diez años, los delays digitales resultan ahora rentables. El funcionamiento real de los delays digitales es relativamente simple. Tienes una cierta cantidad de memoria disponible en cada intervalo de muestreo, lees un valor almacenado previamente de una ubicación en la memoria (un valor de la señal de entrada registrada anteriormente) y, a continuación, guardas el valor actual de la señal de entrada en otra ubicación de memoria (en algunos casos, esta ubicación puede ser el mismo lugar que se acaba de leer. Esta es la razón por la que un valor es leído antes de escribirlo). En el siguiente periodo de muestreo, lees y escribes a la siguiente ubicación en la memoria, y cuando llegas al final de la memoria, haces bucle con la primera ubicación de la memoria. En el procesamiento de señales, esto se llama un buffer circular, y es muy eficiente. Cuando programas delays, normalmente manipulas un puntero de lectura y un puntero de escritura sin perder de vista donde necesitas leer y escribir en la memoria. Estos punteros se incrementan a cada paso. Multi-tap delays se pueden crear mediante la simple utilización de algunos punteros de lectura adicionales.

Basado en artículo: http://www.harmony-central.com/Effects/Articles/Delay/

Audio y Síntesis

jueves, 23 de julio de 2009

Sintetizando una Sinusoide

Señales vs procesos subyacentes

martes, 21 de julio de 2009

Tutorial rápido de sonido e informática musical

Frecuencia

Controlando la Amplitud

Media y derivación estándar

Estadística, probabilidad y ruido

lunes, 20 de julio de 2009

Unidades de Amplitud

martes, 23 de junio de 2009

El filtro All-pass

jueves, 7 de mayo de 2009

Efecto Delay

Sintetizando una Sinusoide

Seguidores

Resumen