Producción musical: Conociendo el sonido digital

Aclarando conceptos básicos importantes a la hora de iniciarse en este campo

Por

31 diciembre, 2016

7517

Le he dado algunas vueltas a qué tema tratar en el segundo artículo. En un primer momento pensé en hacer un post presentando la interfaz de Ardour, pero al estar preparándolo me di cuenta de que a nivel didáctico es mejor primero asentar algunos conceptos más técnicos. Comencemos por el principio.

La onda sonora

La onda sonora es una onda longitudinal que si se propaga por un medio elástico y continuo genera una variación de presión y densidad. Cada molécula transmite la vibración a las que se encuentran a su alrededor, provocando un movimiento en cadena. Las diferencias de presión generadas por la propagación del movimiento de las moléculas del medio, producen en el oído humano una sensación que se conoce como sonido. Esa es la definición física, para que lo veas mucho más claro, piensa en las ondas de sonido como las ondas que se generan en un lago cuando tiramos una piedra a la superficie.

La onda de sonido que fluye a través del aire puede convertirse en una señal eléctrica y viceversa. Un micrófono captura las vibraciones del aire y las transforma en ondas eléctricas que fluyen por cables de cobre. Este proceso de digitalización se conoce como conversión analógico-digital. Por otro lado cuando esas señales eléctricas llegan a un altavoz se vuelven a convertir en variaciones de presión de aire gracias a la vibración mecánica del diafragma.

La conversión de ondas analógicas en digitales

La digitalización de una onda de sonido se obtiene mediante dos procesos: el muestreo y la cuantificación digital de la señal eléctrica.

La tasa o frecuencia de muestreo es el número de mediciones por unidad de tiempo que se toman de una señal continua para producir una señal discreta. Generalmente se expresa en kHz (kilohercios). A continuación os dejo las tasas de muestreo que tienen algunas señales de audio:

Teléfono: 8.000 mediciones/seg (8 kHz)
Radio: 22.000 mediciones/seg
CD: 44.100 mediciones/seg
Televisión Digital, DVD, DAT: 48.000 mediciones/seg
HD DVD, Blu-ray: 96.000 o 192.000 mediciones/seg

La cuantificación consiste en darle un valor entero y finito al nivel de las mediciones tomadas en el proceso de muestreo. Se expresa en bits. Una cuantificación a 8 bits tendría 2^8=256 niveles mientras que a 24 bits tendríamos 2^24=16.777.216 niveles.

Te preguntarás qué aplicación práctica tienen todos estos números. La tasa de muestreo y la cuantificación nos dan una idea de la calidad que tiene una señal digital. Como puedes apreciar en el diagrama anterior, la gráfica a 5 bit y 24 Hz se parece mucho más a la onda sonora original que la tomada a 3 bit y 5 Hz.

A la hora de trabajar, el nivel mínimo aceptable es calidad CD (44.1 kHZ). Si tienes recursos de procesador, interfaz de audio y almacenamiento suficientes es aconsejable que trabajes a 96 kHz. Ir a 192 kHz es un desperdicio de recursos ya que el incremento de calidad es inapreciable al oído humano. Sobre la cuantificación, saber que un CD está cuantificado a 16 bit, mientas que formatos de calidad superior suelen estar a 24 bit. Es mejor configurar la mezcla a 24 bit, si tu hardware te lo permite, y exportar el máster a 16 bit en el caso de que quieras que el fichero tenga menos tamaño. Una señal a 16 bit puede alojar 96db de rango dinámico mientras que a 24 bit caben 140 db. Como el ruido es una constante (en torno a 18 db) con 24 bit conseguimos una relación señal-ruido más pequeña y por ende una mejor calidad. El concepto de rango dinámico lo veremos en los capítulos dedicados a la mezcla.

Las propiedades del sonido

Las magnitudes que definen un sonido son: tono, intensidad, duración y timbre.

El tono o frecuencia es la magnitud que expresa la cantidad de vibraciones que emite una fuente sonora por unidad de tiempo. Se considera que el oído humano puede percibir aproximadamente ondas sonoras de frecuencias entre los 20 y los 20.000 Hz. Las frecuencias más bajas son las más graves y las más altas, las más agudas. Esos 20Hz corresponden aproximadamente con el C0 de un piano (la nota do más grave que está a 16Hz). La aplicación práctica del Teorema de Nyquist-Shannon implica que para cubrir esos 20.000 Hz audibles necesitaríamos el doble de tasa de muestreo, más un porcentaje de seguridad en torno al 10%, de ahí que los CDs tengan una frecuencia de muestreo de 44.1 kHz.

La intensidad es la cantidad de energía acústica que contiene un sonido, es decir, lo fuerte o suave de un sonido. Se registra en el proceso de cuantificación que hemos visto anteriormente.

La duración, lo has adivinado, es el tiempo durante el cual se mantiene un sonido.

El timbre es la cualidad del sonido que permite la identificación de su fuente sonora. Una misma nota suena distinta si la toca una flauta, un violín, una trompeta, etc. Los sonidos que escuchamos son complejos, es decir, están compuestos por varias ondas simultáneas, aunque nosotros las percibimos como una sola. El timbre depende de la cantidad de armónicos que tenga un sonido y de la intensidad de cada uno de ellos.

La latencia

La latencia es el retraso que existe entre el momento en que se produce un evento, tocar una nota en nuestro caso, y el momento en que tus oídos lo oyen. Los procesos más básicos apenas producen retraso en las máquinas actuales, pero cuando los procesos son complejos, con determinados efectos o instrumentos virtuales pesados, puede llegar a aparecer. Los microprocesadores DSP de las tarjetas de sonido especializadas son capaces de procesar mucha información y muy rápido, por lo que si no tienes uno de estos dispositivos el problema de latencia puede llegar a ser importante.

Nuestro cerebro solo distingue dos sonidos como diferentes cuando están separados aproximadamente 11 ms, y es capaz de trabajar con un pequeño nivel de latencia sin mayor problema, pero llegado un cierto punto se vuelve conflictiva. Ese nivel a partir del cual empezaríamos a tener dificultades rondaría los 20 ms, aunque cada persona tiene una tolerancia diferente. La latencia también se da en el mundo analógico: en las orquestas filarmónicas hay mucha distancia entre los músicos de los extremos de la formación, piensa que el sonido tarda unos 29 ms en cubrir 10m, una cifra que supera el margen admisible y pasa a ser problemática. ¿Cómo solucionan esto las orquestas? Pues, fundamentalmente, colocando a un director que organice la interpretación de manera visual. Puedes hacerte una idea de lo grande que puede ser la latencia solo debido a la distancia al escuchar los coros de un estadio de fútbol.

La ganancia y el clipping

El decibelio es la medida utilizada para expresar el nivel de potencia del sonido. Se utiliza una escala logarítmica porque la sensibilidad que tiene el oído humano a las variaciones de intensidad sonora sigue una escala más cercana a la logarítmica que a la lineal. Al igual que el tono, el oído humano solo puede medir la intensidad de un sonido de manera fiable por comparación con otro sonido previamente dado. Es por esto que se asigna el valor de 0 dB al umbral mínimo aproximado de audición del ser humano, que vienen a ser unos 20 µPa. El umbral de dolor está en torno a 140 db.

Onda con clipping y testigo — Onda con clipping y su testigo

Trabajando con audio la unidad de medida es el dBFS (Decibels relative to full scale), y representa los niveles de amplitud de decibelios disponibles. Al nivel máximo disponible se le asigna el valor 0 dBFS, y recibe el nombre de valor nominal. Si superamos esta marca la señal deja de registrarse y, por lo tanto, la forma de la onda quedaría cortada, produciéndose una pérdida de información. A este fenómeno se le llama clipping y hay que evitarlo a toda costa. Los programas de sonido tienen un testigo rojo en los niveles que se iluminarán si lo superamos. En grabación analógica, la resolución es óptima cerca del extremo superior de la escala, de ahí la práctica habitual en grabación analógica de establecer los niveles de grabación en torno a 0 dB para aprovechar la máxima resolución de la toma sonora. En grabación digital, por el contrario, lo recomendable es fijar los niveles de grabación entre -20 y -12 dBFS. Dichos niveles podrán ser levantados posteriormente durante el proceso de mezcla y masterización.

Formatos de audio

Acrónimo de «codificación/decodificación», un códec es un algoritmo especial que reduce el número de bytes que ocupa un archivo de audio. Los archivos codificados con un códec específico requieren el mismo códec para ser decodificados y reproducidos.

Formatos sin compresión

AIFF (Audio Interchange File Format) es un formato de audio abierto sin compresión, lo que ayuda a un rápido procesado de la señal pero tiene la desventaja de ocupar un gran espacio en disco. Este formato usa las extensiones .aiff o .aif.

Wav: Al igual que AIFF es un formato sin compresión. Es privativo.

Formatos con compresión y sin pérdida

FLAC (Free Lossless Audio Codec) es un códec de audio libre que permite que el audio digital sea comprimido sin pérdidas, de tal manera que el tamaño del archivo de audio se reduce sin que se pierda ningún tipo de información. El audio digital comprimido por el algoritmo de FLAC típicamente puede reducir de 50 a 60% su tamaño original.

TTA (True Audio) es un códec de audio libre en tiempo real sin pérdidas. Está basado en pronóstico de filtros adaptativos los cuales han mostrado resultados satisfactorios comparados con la mayoría de los análogos modernos. TTA ofrece niveles de compresión elevados, manteniendo la rapidez de operación. Hasta un 30 % de compresión sin pérdidas.

Formatos comprimidos con pérdida

Vorbis es a menudo conocido como Ogg-Vorbis debido al uso del contenedor Ogg. Usando este formato tenemos una pequeña pérdida de calidad a cambio de una gran reducción de tamaño. Deberíamos evitarlo siempre que sea posible y trabajar con formatos sin pérdidas.

Otros formatos comprimidos con pérdidas son MP3, WMA y AAC. Todos ellos privativos.

Las pistas: audio y MIDI

Los DAW pueden cargar dos tipos diferentes de pistas: MIDI y audio. En la imagen inferior vemos una pista estéreo de audio compuesta por varios samples que se repiten y una pista MIDI con algunas notas colocadas. Las pistas de audio las hemos tratado en los párrafos precedentes, vamos a ver ahora algo de MIDI.

Dos pistas en Ardour: midi y audio — Dos pistas en Ardour: audio y midi

MIDI (abreviatura de Musical Instrument Digital Interface) es un protocolo que permite que varios instrumentos musicales electrónicos, computadoras y otros dispositivos se comuniquen entre sí. El sistema MIDI transmite comandos que especifican el tono, la fuerza, el momento, el banco de sonidos con que se toca y señales de control para parámetros como dinámica, vibrato, paneo… Es importante tener presente que MIDI no transmite sonidos, sino información sobre cómo se ha de reproducir una determinada pieza musical. Los ficheros con extensión .midi cargarán en tu secuenciador las pistas que contengan con sus respectivos comandos. En internet podrás encontrar los ficheros midi de muchas canciones, te pueden servir para estudiarlas y ver cómo están hechas.

Hay diferentes tipos de controladores que pueden enviar notas MIDI: teclados, pads, baterías e incluso aparatos más exóticos como los de viento. Impagables los temazos de Hevia y su gaita MIDI. La información que envían estos controladores puede ser recogida por un sintetizador hardware para conformar un instrumento autónomo o enviarse a un secuenciador para ser grabado, manipulado y reproducido a través del instrumento virtual que queramos.

La imagen de cabecera: Abigail Keenan (CC0) | La onda de sonido (gif): Christophe Dang Ngoc Chan (GFDL) | Diagrama de conversión analógico-digital: xphnx (CC BY-NC-SA) | Diagrama clipping: David Batley (CC BY-SA) modificado por xphnx | Pistas de audio y midi en Ardour: xphnx (CC BY-NC-SA) | | Algunas partes de texto tomadas de wikipedia (CC BY-SA)

0 0 votos

Article Rating

This site uses Akismet to reduce spam. Learn how your comment data is processed.

10 Comments

más antiguo

más nuevo más votado

Reacciones en línea

Ver todos los comentarios

José GDF

31 diciembre, 2016 6:59 pm

Buena entrada de introducción. Creo que no te has dejado nada importante en el tintero, al menos en una primera lectura.

-2

Respuesta

Mostrar respuestas (1)

Juan

2 enero, 2017 2:48 pm

Gracias por esta excelente entrada! / Una pregunta un poco off-topic: Existe una manera de que ubuntu 16.04 + Audacity o Ardour reconozcan un multiefecto de guitarra POD HD500x de la marca Line 6 para grabar via usb? (Intenté sudo modprobe snd-usb-podhd sin resultados) En los foros recomiendan usar virtualbox o directamente windows (mediante virtualbox tampoco obtuve buenos resultados) Leí que una distro comercial llamada «studio 13.37» (no la he probado) ofrece soporte para este hardware lo cual me hace pensar que existe una forma de lograr que linux reconozca el mencionado multiefecto…

Respuesta

Mostrar respuestas (2)

char4n

3 enero, 2017 7:04 pm

muchas gracias, buena introducción de un tema muy interesante y complejo. conocí y comprendí algunas cosas de las que no tenía ni idea (nunca grabé más que una guitarra al aire con el audacity, jaja).
Espero más entregas! Saludos

Respuesta

Mostrar respuestas (3)

Javier

8 mayo, 2020 10:39 am

Muy buena introducción general, pues el asunto es complicado.
Solo un “pero” desde la experiencia de un audiófilo: aunque son formatos que raramente se usan en la producción de audio, sí se edita mucha música en otros formatos “sin pérdida”. A bote pronto, de entre los que yo uso habitualmente, .dsf y .dff (DSD audio) .wv (wavepack). Luego está el nuevo formato MQA, muy interesante técnicamente.
Eso sí: estos son formatos que usamos los escuchantes, los melómanos sibaritas, supongo. Y por supuesto, requieren software y hardware capaz de leerlos y aprovecharlos.