Audio y Síntesis: Tutorial rápido de sonido e informática musical

El sonido

El sonido es la oscilación, normalmente del aire, provocada por el movimiento o vibración de algún objeto. Esta vibración de las partículas del aire se mide fundamentalmente mediante dos conceptos: su frecuencia, y su amplitud.

Amplitud: En acústica la amplitud es el valor máximo de la sobrepresión asociada a la propagación de una onda sonora.

Frecuencia: Es la velocidad de las vibraciones normalmente medidas en un segundo. Se representa en Herzios (Hz) Ciclos por segundo. También se utiliza el Kiloherzio que son mil Herzios.

Un ciclo es la menor distancia a partir de la cual una onda se repite.

1 ciclo.

En este dibujo se representan ondas (vibraciones del aire) a distintas frecuencias:

Cuanto mayor es la frecuencia más agudo es el sonido y viceversa:

El oído humano es capaz de percibir frecuencias entre 20 y 20.000 Hz, aunque va disminuyendo por la edad. Esta respuesta en frecuencia se conoce como audiofrecuencia, pero el espectro sonoro es más amplio.

Características o cualidades del sonido

Las cuatro cualidades básicas del sonido son:

El tono: viene determinado por la frecuencia fundamental de las ondas sonoras (es lo que permite distinguir entre sonidos graves, agudos o medios) medida en ciclos por segundo o hercios (Hz).

Para que los humanos podamos percibir un sonido, éste debe estar comprendido entre el rango de audición de 20 y 20.000 Hz. Por debajo de este rango tenemos los infrasonidos y por encima los ultrasonidos. A esto se le denomina rango de frecuencia audible. Cuanta más edad se tiene, este rango va reduciéndose tanto en graves como en agudos.

El tono es la propiedad de los sonidos que los caracteriza como más agudos o más graves, en función de su frecuencia.

Cuando a un sonido se le aplica el análisis de Fourier, se obtiene una serie de componentes llamados parciales armónicos (o armónicos, a secas), de los cuales el primero o fundamental y los que tienen un número de orden que es una potencia de 2 (2, 4, 8...) tienen alguna similar sensación de tono que el primero por sí solo (ya que al estar a distancia de octava, el oído humano suele percibirlas como "las mismas notas pero más agudas"). El resto de parciales armónicos se perciben como otros sonidos distintos del fundamental, lo que enriquece el sonido. De esta forma, los sonidos cuyos armónicos potencias de 2 son algo más sonoros que el resto, son percibidos como sonidos con un timbre más nasal, hueco o brillante, mientras que los sonidos donde son algo más sonoros otros parciales armónicos, son percibidos como sonidos con un timbre más lleno o completo, redondo u oscuro. Todos los parciales armónicos, en su conjunto determinan el timbre musical.

La forma en que es percibido el tono es lo que se conoce como altura del sonido, que determina cómo de bajo o alto es ese sonido, aunque es normal que se utilice tono como sinónimo de altura.

La intensidad: es la cantidad de energía acústica que contiene un sonido. La intensidad viene determinada por la potencia, que a su vez está determinada por la amplitud y nos permite distinguir si el sonido es fuerte o débil.

Los sonidos que percibimos deben superar el umbral auditivo (0 dB) y no llegar al umbral de dolor (140 dB). Esta cualidad la medimos con el sonómetro y los resultados se expresan en decibelios (dB) en honor al científico e inventor Alexander Graham Bell.

El timbre: es la cualidad que confiere al sonido los armónicos que acompañan a la frecuencia fundamental. Esta cualidad es la que permite distinguir dos sonidos, por ejemplo, entre la misma nota (tono) con igual intensidad producida por dos instrumentos musicales distintos.

La frecuencia de los armónicos es un múltiplo de la fundamental. La amplitud de los armónicos más altos es mucho menor que la amplitud de la onda fundamental y tiende a cero.

Los armónicos son los que generan el timbre característico de una fuente de sonido (ya sea una voz humana, un instrumento musical, etc.). Son los que permiten diferenciar un tipo de instrumento de otro, o reconocer el timbre de la voz de una persona.

Los armónicos más altos son inaudibles, y lo que da diferentes timbres a diferentes instrumentos es la amplitud y la ubicación de los primeros armónicos y los parciales. Y las diferentes trayectorias de las ondas sonoras de dos instrumentos tocando al unísono es lo que permite al oyente percibirlos como dos instrumentos separados.

Por ejemplo, si dos instrumentos ejecutaran la nota do4 (la tecla blanca central de un piano), la onda fundamental de ambos poseería la misma frecuencia (en este ejemplo 264 Hz o ciclos por segundo). Sus timbres son diferentes porque cada uno produce una altura de armónicos diferentes.

Esta es la serie de los primeros armónicos (que justamente son los principales):

En una teoría simplificada del timbre musical, cada uno de los sonidos de la serie armónica es un componente del timbre o color del sonido representado por una nota cuya frecuencia es la del sonido fundamental. A los sonidos de la serie armónica, componentes del timbre, se les llama sonidos armónicos o simplemente armónicos. También se han denominado a veces sonidos parciales, alícuotas, acompañantes o concomitantes.

La contribución de cada armónico al timbre del sonido, en su lugar correspondiente dentro de la "receta", es el que sigue:

El sonido fundamental proporciona por sí solo la misma sensación de altura que el fundamental con todos sus armónicos; decimos que la frecuencia de la nota que se oye es igual a la del sonido fundamental.

Debido al fenómeno de la "fundamental fantasma" que tiene su explicación en el carácter no lineal del oído humano, el sonido fundamental no es imprescindible para percibir el conjunto como una nota con la misma altura, siempre y cuando existan o suenen el resto de los sonidos de la serie. El oído "reconstruye" el sonido que falta como si dedujese este resultado de una ecuación cuya única solución posible es esta fundamental.

Los sonidos números 2, 4, 8 y todos los que forman una relación igual a una potencia de 2 con la fundamental, refuerzan el carácter inequívoco de la sensación de altura del conjunto.

Los sonidos 3, 6, 12 y todos aquellos que forman con el 3 una relación que es una potencia de 2, aportan un timbre nasal al conjunto.

Los sonidos 5 y 10 producen un timbre o color "redondo", "profundo", "cálido" y otros adjetivos semejantes.

Los sonidos 7, 11, 13 y 15 son disonantes y dan un carácter "áspero" al sonido.
Al crecer el número de orden de un armónico, su aportación es de más brillantez o claridad; más brillantez que claridad si es un número múltiplo de los 16 primeros excepto los que hemos denominado como disonantes.

La duración: es la cualidad que determina el tiempo de vibración de un objeto. Por ejemplo, podemos escuchar sonidos largos, cortos, muy cortos, etc...

Representación del sonido como forma de onda y como espectro de frecuencias:

Ambas representaciones se refieren al mismo sonido. En la primera se ven las diferentes oscilaciones en el tiempo que componen el sonido. En la segunda, tras un análisis de las primeras formas de onda se llega a un gráfico que muestra la intensidad de cada frecuencia en el sonido analizado. Esta última representación de la frecuencia es importante debido a que las modificaciones en el espectro de frecuencias tienen grandes consecuencias en los armónicos, como se ha dicho antes, y por lo tanto en el timbre de un sonido. Cuando se utilizan ecualizadores y filtros es este dominio de la frecuencia el que se manipula.

La envolvente acústica

En términos musicales y de audio, la envolvente acústica es una serie de parámetros de tiempo que establecen el comportamiento en amplitud de un sonido al ser este, percutido o ejecutado. Es un término utilizado principalmente en sintetizadores y samplers. Está determinado por cuatro principales parámetros:

Ataque: Es el tiempo de entrada. Lo que tarda en escucharse el sonido después de haber sido ejecutado el instrumento.

Decaimiento: Es el tiempo que tarda la amplitud en reducirse a la de sostenimiento, después de haber alcanzado la amplitud máxima, sin despegar la tecla o punto de inducción vibratoria.

Sostenimiento: Después del decaimiento, es la amplitud que se mantiene constante hasta despegar la tecla o punto de inducción vibratoria.

Relajación: El tiempo que tarda el sonido en perder toda su amplitud después de despegar la tecla o punto de inducción vibratoria.

Conversión analógica a digital

Una señal analógica es aquella que puede tomar una infinidad de valores (frecuencia y amplitud) dentro de un límite superior e inferior. El término analógico proviene de análogo. Por ejemplo, si se observa en un osciloscopio, la forma de la señal eléctrica en que convierte un micrófono el sonido que capta, ésta sería similar a la onda sonora que la originó.

En cambio, una señal digital es aquella señal cuyas dimensiones (tiempo y amplitud) no son continuas sino discretas, lo que significa que la señal necesariamente ha de tomar unos determinados valores fijos predeterminados en momentos también discretos. Estos valores fijos se toman del sistema binario, lo que significa que la señal va a quedar convertida en una combinación de ceros y unos, que ya no se parece en nada a la señal original. Precisamente, el término digital tiene su origen en esto, en que la señal se construye a partir de números (dígitos).

La digitalización o conversión analógica-digital (conversión A/D) consiste básicamente en realizar de forma periódica medidas de la amplitud de la señal y traducirlas a un lenguaje numérico. La conversión A/D también es conocida por el acrónimo inglés ADC (analogic to digital converter).

En la digitalización o conversión analógica-digital intervienen dos parámetros que son fundamentales para la posterior calidad del sonido:

La Tasa de Muestreo: (en inglés, sampling) La tasa o frecuencia de muestreo es el número de muestras por unidad de tiempo que se toman de una señal continua para producir una señal discreta, durante el proceso necesario para convertirla de analógica en digital. Como todas las frecuencias, generalmente se expresa en hercios (Hz, ciclos por segundo) o múltiplos suyos, como el kilohercio (kHz), aunque pueden utilizarse otras magnitudes.

La tasa usada en el sonido calidad Cd es de 44100Hz pero para grabar sonido es mejor utilizar una más alta 48000Hz 88000Hz etc.

Cantidad de bits: pueden ser 8 bits, 16 bits (calidad DC), pero para grabar, como antes, es mejor utilizar una mayor cantidad de bits 24 o 32.

Tarjetas de sonido:

Una tarjeta de sonido o placa de sonido es una tarjeta de expansión para computadoras que permite la entrada y salida de audio bajo el control de un programa informático. El uso típico de las tarjetas de sonido es proveer a las aplicaciones multimedia del componente de audio. Estas aplicaciones multimedia engloban composición y edición de video o audio, presentaciones multimedia y entretenimiento (videojuegos).

Una tarjeta de sonido típica, incorpora un chip de sonido que por lo general contiene el Conversor digital-analógico, el cual cumple con la importante función de "traducir" formas de ondas grabadas o generadas digitalmente en una señal analógica y viceversa. Esta señal es enviada a un conector (para audífonos) en donde se puede conectar cualquier otro dispositivo como un amplificador, un altavoz, etc. Para poder grabar y reproducir audio al mismo tiempo con la tarjeta de sonido debe poseer la característica "full-duplex" para que los dos conversores trabajen de forma independiente.

Los diseños más avanzados tienen más de un chip de sonido, y tienen la capacidad de separar entre los sonidos sintetizados (usualmente para la generación de música y efectos especiales en tiempo real utilizando poca cantidad de información y tiempo del microprocesador y quizá compatibilidad MIDI) y los sonidos digitales para la reproducción.

Frecuencia de muestreo:

Las tarjetas de sonido y todos los dispositivos que trabajan con señales digitales lo pueden hacer hasta una frecuencia límite, mientras mayor sea esta mejor calidad se puede obtener, las tarjetas de sonido que incluían las primera computadoras Apple Mac Intosh tenían una frecuencia de muestreo de 22050 Hz (22,05 KHz)de manera que su banda de frecuencias para grabar sonido y reproducirlo estaba limitada a 10 KHz con una precisión de 8 bits que proporciona una relación señal sobre ruido básica de solo 40 dB, las primeras tarjetas estereofónicas tenían una frecuencia de muestreo de 44100 Hz (igual que los reproductores de CD) con lo que la banda útil se extendió hasta los 20 KHz (alta calidad) pero se obtiene un sonido más claro cuando se eleva un poco esta frecuencia pues hace que los circuitos de filtrado funcionen mejor, por lo que los DAT (digital audio tape) tienen una frecuencia de conversión en sus convertidores de 48 KHz, con lo cual la banda se extiende hasta los 22 KHz.

Debe recordarse que la audición humana está limitada a los 16 ó 17 KHz, pero si los equipos se extienden más allá de este límite se tiene una mejor calidad, también que la frecuencia de muestreo (del convertidor) debe ser de más del doble que la banda que se pretende utilizar (teorema de Nyquist en la práctica).

Finalmente los nuevos formatos de alta definición usan frecuencias de muestreo de 96 KHz (para tener una banda de 40 KHz) y hasta 192 KHz, no porque estas frecuencias se puedan oír, sino porque así es más fácil reproducir las que si se oyen.

Tipos de síntesis

Síntesis substractiva

Es un método de síntesis donde una señal es generada por un oscilador y después filtrada. Esta señal puede tener diferentes tipos de forma, por lo tanto varia en su contenido armónico.

Anteriormente se lograba gracias a los circuitos electrónicos de los sintetizadores analógicos. Con el paso del tiempo la técnica se ha ido sofisticando y actualmente en prácticamente cualquier ordenador se puede realizar este procedimiento.

Formas de onda base

Las señales base de la síntesis substractiva, deben ser ricas en armónicos. Estas pueden tener cualquier forma de onda (o cualquier espectro), aunque las llamadas formas básicas -menos la senoidal, por su espectro pobre-, como triángulo, diente de sierra, cuadrada o pulso se usan con frecuencia. A la señal emitida por el oscilador se le aplica un filtro para eliminar (substraer) cierta gama de frecuencias y lograr así sonidos diferentes.

Filtros

La síntesis substractiva depende de los filtros, justamente a través de estos se produce un cambio en la señal. Las características de los filtros se determinan por su función de transferencia y su orden. La primera determina la forma en que la señal aplicada cambia en señal y amplitud al pasar por el filtro, la segunda describe el grado de aceptación o rechazo de frecuencias por encima o por debajo de la respectiva frecuencia de corte.

En la práctica, para poder conseguir gamas más o menos amplias de sonidos mediante la variación del filtrado, es necesario que la onda de base sea rica en armónicos.

En el caso de las formas de onda mencionadas, la que contiene más armónicos es la cuadrada, por lo que con frecuencia es la más empleada en este tipo de síntesis. Las ondas cuadrada y diente de sierra producen sonidos ásperos y agresivos, pero la aplicación de un filtro paso bajo consigue sonidos de diferentes colores. La mayoría de los sonidos electrónicos que imitan conjuntos de metales o cuerdas son generados mediante este método, variando, según el caso, la frecuencia de corte del filtro para conseguir sonidos con más o menos brillo.

Los tres tipos de filtros más conocidos y utilizados son:

Paso bajo (Low Pass): Permite el paso de frecuencias bajas y atenúa las frecuencias altas.

Paso alto (High Pass): Permite el paso de frecuencias altas y atenúa las frecuencias bajas.

Paso banda (Band Pass): Permite pasar solo un rango determinado de frecuencias.
Ruido filtrado:

Otro procedimiento para filtrar las ondas utiliza el ruido rosa y el ruido blanco, filtrados por medio de un filtro paso-banda de frecuencia central y ancho de banda variable.

Síntesis aditiva:

La síntesis aditiva es una técnica de síntesis de sonido para crear timbres.

Los timbres están formados por cantidades variables de armónicos o parciales que cambian a lo largo del tiempo con respecto a un tono o frecuencia fundamental. Los parciales son las ondas que complementan a la onda fundamental para crear un timbre, si las frecuencias de los parciales son múltiplos enteros de la frecuencia fundamental son denominados parciales armónicos, y si son múltiplos reales son denominados no armónicos.

En la síntesis aditiva es muy importante la utilización diferentes envolventes que se encargan del manejo la amplitud sobre cada parcial y es lo que estructura el comportamiento del sonido en el tiempo.

Para realizar el proceso se hace necesario disponer de un banco de osciladores para que generaran las diferentes ondas que complementan la onda fundamental cada una con amplitudes y frecuencias diferentes además de su propia envolvente configurable de volumen, creándose un sonido dinámico y realista.

Síntesis granular:

La Síntesis de sonido basada en granos o Síntesis granular es una técnica de producción de sonidos que se basa en una concepción del sonido en términos de partículas o cuantos, pequeñas explosiones de energía encapsuladas en una envolvente agrupados en conjuntos mayores, cuya organización será determinada por dos métodos principales de distribución temporal: Sincrónico y asincrónico.

El método sincrónico, en la que los granos son disparados a frecuencias más o menos regulares para producir sonidos con un periodo de altura particular. Por su parte, el método asincrónico aleatoriza las distancias entre los granos para producir una nube sonora (Dodge & Jerse, 262).

Síntesis mediante Tablas de ondas:

La tabla de ondas, conocido con el anglicismo Wavetable es una técnica de síntesis de sonido utilizado principalmente para producir música digitalmente. Los sistemas de muestreo digital almacenan sonido de alta calidad digitalmente y reproducen estos sonidos bajo demanda. Dado que la cantidad de memoria que se necesita para obtener alta fidelidad es bastante grande, suelen utilizarse técnicas de compresión de datos tales como looping, pitch-shifting, interpolación matemática y filtrado digital.

Tal y como se ha comentado, la mayoría de los sintetizadores modernos utiliza alguna forma de síntesis Wavetable, cuando no recurre directamente a un muestreo completo del sonido a emitir.

Síntesis de Amplitud Modulada (AM):

Amplitud modulada (AM) o modulación de amplitud es un tipo de modulación no lineal que consiste en hacer variar la amplitud de la onda portadora de forma que esta cambie de acuerdo con las variaciones de nivel de la señal moduladora.

Síntesis por modulación de frecuencias (FM):

La modulación es una de las formas de hacer síntesis de sonido, y consiste en variar determinado aspecto de una señal (denominada portadora) con respecto a una segunda (denominada moduladora), generando finalmente una “onda modulada”. En el caso de la Frecuencia Modulada (FM), se oscila la frecuencia de la onda portadora.

La síntesis por modulación usa usualmente de dos a seis osciladores mientras que la síntesis aditiva o la síntesis substractiva requieren de un oscilador por cada variación de onda. Esto quiere decir que la síntesis por modulación es más efectiva. La FM puede generar salidas de señal complejas que contengan múltiples frecuencias con sólo dos osciladores. Este método de síntesis se hizo famoso dentro del ámbito académico gracias al compositor John Chowning y posteriormente en el mundo gracias a “Yamaha” pues compro los derechos de la FM y realizó grandes series de sintetizadores basados en este proceso.

La diferencia entre FM y AM (Modulación de amplitud) es que en vez de simplemente sumar o restar bandas laterales (sidebands), la modulación de Frecuencias de dos ondas sinusoidales genera una serie de bandas laterales alrededor de una frecuencia portadora (P). Cada banda lateral aparece a una distancia igual al múltiplo de la frecuencia moduladora (M ).

La cantidad de bandas laterales depende del Índice de modulación (I ). Si I (en Hz) es igual a cero, no hay modulación. Si I es mayor que cero, la modulación ocurre tanto arriba como abajo de la frecuencia portadora P en intervalos iguales a la frecuencia moduladora M. Las bandas laterales pueden tener una amplitud positiva o negativa, dependiendo del valor de I. Cuando la amplitud es positiva, se dice que el componente está en fase. En el caso contrario, se dice que el componente está fuera de fase, y se representa gráficamente con las amplitudes hacia abajo.

Síntesis por Modelos Físicos:

La síntesis se hace a partir de la simulación en una computadora de un objeto físico y sus características. Se imita mediante ecuaciones matemáticas el comportamiento de las ondas sonoras a través de los mecanismos del instrumento real que se trata de imitar. Una flauta, una guitarra, etc. Es la técnica más vanguardista.

MIDI

MIDI son las siglas de Musical Instrument Digital Interface (Interfaz Digital de Instrumentos Musicales). Se trata de un protocolo industrial estándar que permite a las computadoras, sintetizadores, secuenciadores, controladores y otros dispositivos musicales electrónicos comunicarse y compartir información para la generación de sonidos.

Esta información define diversos tipos de datos como números que pueden corresponder a notas particulares, números de patches de sintetizadores o valores de controladores. Gracias a esta simplicidad, los datos pueden ser interpretados de diversas maneras y utilizados con fines diferentes a la música. El protocolo incluye especificaciones complementarias de hardware y software.

Los dispositivos MIDI son capaces de enviar y recibir información, pero desempeñan un papel diferente dependiendo de si están recibiendo o enviando información, también depende de la configuración del programa o programas que se puede usar dicho dispositivo. El que envía los mensajes de activación se denomina Maestro (del inglés master, o ‘amo’) y el que responde a esa información Esclavo (slave).

Los aparatos MIDI se pueden clasificar en tres grandes categorías:

Controladores: generan los mensajes MIDI (activación o desactivación de una nota, variaciones de tono, etc). El controlador más familiar a los músicos tiene forma de teclado de piano, al ser este instrumento el más utilizado a la hora de componer e interpretar las obras orquestales; sin embargo, hoy día se han construido todo tipo de instrumentos con capacidad de transmisión vía interfaz MIDI: guitarras, parches de percusión, clarinetes electrónicos, incluso gaitas MIDI.

Unidades generadoras de sonido: también conocidas como módulos de sonido, reciben los mensajes MIDI y los transforman en señales sonoras (recordemos que MIDI no transmite audio, sino paquetes de órdenes en formato numérico).

Secuenciadores: no son más que aparatos destinados a grabar, reproducir o editar mensajes MIDI. Pueden desarrollarse bien en formato de hardware, bien como software de computadora, o bien incorporados en un sintetizador.

Software Musical

En un principio, y no hace tanto, los programas para la creación musical estaban basados en un secuenciador midi, con su clásica pianola, con sonidos sacados de las tarjetas de sonido.

Ahora se sigue utilizando el midi y esta notación en pianola, pero la diferencia aparte de que añadimos pistas o sampler de sonido grabado, es que se utilizan unidades generadoras de sonido o efectos (plugins) que son programas independientes y que se alojan o introducen en el programa secuenciador (host).

Los “plugins” son programas (DSP) digital signal processing que sintetizan sonidos (sintetizadores), o leen muestras (samplers), o pasan la señal a través suyo añadiendo algún tipo de efecto (efectos).

Existen varios tipos de plugins y programas Host que los pueden utilizar:

VST (Windows y mac)

Adio Units (formato de mac)

LADSPA / DSSI (formato de Linux)

RTA (Real Time Audio Suite) formato de plugin creado por la empresa Digidesign para sus sistemas de producción musical ProTool.

Virtual Studio Technology

Virtual Studio Technology (Tecnología de Estudio Virtual) ó VST es una interfaz estándar desarrollada por Steinberg para conectar sintetizadores de audio y plugins de efectos a editores de audio y sistemas de grabación. Permite reemplazar el hardware tradicional de grabación por un estudio virtual con herramientas software.

Un VST es un programa de software que debe ser ejecutado mediante una aplicación que soporte esta tecnología. A esta aplicación se le llama VST Host, ejemplos de esto son Cubase y Ableton Live.

Los VSTs tienen la capacidad de procesar (llamados efecto VST) y generar (llamados VSTi por VST Instrument) audio, como también interactuar con interfaces MIDI.

La tecnología VST esta disponible para los sistemas operativos Windows y Mac OS. En el caso de Windows los VSTs son archivos DLLs. Como estos son un archivo binario son dependientes de la plataforma donde se ejecutan, por lo que un VST compilado para Mac OS no funcionará en Windows y recíprocamente. Para los sistemas Linux, se pueden utilizar las versiones de Windows con el Wine.

Existen muchos programas que pueden utilizar plugins VST:

Project5
FLStudio
Sonar7
Etc.

Audio y Síntesis

martes, 21 de julio de 2009

Tutorial rápido de sonido e informática musical

1 comentario:

Sintetizando una Sinusoide

Seguidores

Resumen