Así suena el

audio digital

Ya hablamos en un artículo anterior de cómo el sonido se produce por cambios de presión en el ambiente que nuestro oído codifica. Gracias al uso de micrófonos, podemos transformar estos cambios de presión en ondas electromagnéticas. La formación de un audio digital se llevará a cabo con la codificación de esta onda a parámetros binarios.

Básicamente se establecerán puntos de muestra de la onda sonora cada cierto tiempo para cuantificar la amplitud de la onda en ese momento y, de esta manera, reconstruirla de la manera más fiel posible. Podemos hablar de ciertas características comunes en todo archivo de audio digital:

Frecuencia de muestreo

Recordemos que la frecuencia es el número de ciclos por segundo que realiza una onda. Cuando pasamos una onda a formato digital debemos tomar muestras cada cierto tiempo que nos ayuden a entender cómo es esta onda en realidad. Estas muestras no nos indicarán únicamente la posición de la onda en un momento dado sino que, gracias a la periodicidad de la onda, será fácil predecir el recorrido que hace la misma entre ese punto de muestreo y el siguiente. Si muestreásemos toda la onda, el número de puntos sería infinito. Si muestreamos un porcentaje concreto de la onda, este número de puntos se puede cuantificar y la onda puede predecirse con exactitud.

Frecuencia de muestreo

Para saber el número de muestreos necesarios, se utiliza el criterio de Nyquist. Según este criterio, cualquier onda puede ser reproducida con exactitud si el muestreo se realiza a más del doble de frecuencia que la frecuencia de la onda original.

El oído humano percibe las frecuencias sonoras ubicadas entre 20Hz y 20kHz. Atendiendo al criterio de Nyquist, cualquier sonido registrado a una frecuencia de muestreo superior a los 40KHz captaría toda la calidad capaz de percibir el oído humano.

Es por esto que los CD de audio tienen una frecuencia de muestreo de 44.1kHz.

Número de bits por muestra

Número de bits por muestra

Dependiendo de este número, la muestra tendrá una precisión mayor o menor. Es decir, si establecemos una muestra de un bit, tendríamos un audio con sólo dos amplitudes (0 o 1). Con una muestra de 2 bits, tendremos cuatro niveles de audio (00,01,10 o 11). Con 3 bits, ocho valores: 000,001,011,111,110,100,010 o 101. Generalmente se utilizan niveles de 8 bits (256 valores), 12 bits (4.096 valores), 16 bits (65.536 valores) o 24 bits (16.777.216 valores).

Este rango de valores se denomina rango dinámico digital. Éste margen de registro actuará, en un audio de 8 bits, hasta el sonido más alto que será representado por un 255 en formato binario desde el sonido más leve representado con un 0 en formato binario.

La adaptación de este modelo a decibelios (dB) conlleva mayor complejidad. Dependiendo del sonido que quiera registrarse, puede ser interesante valorar el rango dinámico que soportará nuestro archivo. La percepción del sonido no es proporcional sino logarítmica. Además, esta percepción varía dependiendo de la sustancia que transporte el sonido y su baremo se establece respecto a niveles de referencia. Aún así, existe un truco no oficial, puesto que no vale para todos los casos, para encontrar el rango de decibelios de cada señal digital. Multiplicando el número de bits por seis se encuentra el rango dinámico aproximado de representación de la onda. Siendo así, un archivo de 8 bits registrará un rango de 48dB (8×6).

Bitrate (Tasa de bits por segundo)

Aunque parezca que esta cantidad viene dada por el número de bits utilizados en la muestra multiplicados por la frecuencia de muestreo (numero de muestras por segundo), no tiene porque ser así. El bitrate variará dependiendo del tipo de compresión que se utilice. Además, en algunos casos, se podrá establecer un bitrate constante (CBR), variable (VBR) o promediado (ABR).

Número de canales

El archivo podrá contener información de una única onda sonora, un canal de audio (mono), o varias: estéreo (2 canales), 5.1 (6 canales), 7.1 (8 canales), Dual (2 canales en diferente idioma), etcétera. El tamaño del archivo se incrementará en proporción al número de canales.

Códec

El códec de audio es el sistema encargado de los algoritmos de codificación y decodificación de la señal acústica. Se encargará de establecer los parámetros de frecuencia de muestreo, número de bits por muestra, bitrate, etcétera. Para su uso en registro o reproducción, se deberá tener el software o hardware compatible con el códec en cuestión.

Abordamos algunos de los códecs más conocidos:

PCM

Cuando un archivo de audio está en Pulse Code Modulation, contendrá la información de la onda de audio sin compresión. En castellano, también se utilizan las siglas MIC de Modulación por Impulsos Codificados.

AAC

Advanced Audio Coding utiliza un bitrate variable (VBR) que se adapta a las diferencias de complejidad del sonido. De esta forma, ahorra una gran cantidad de información en los silencios de la pista o en tonalidades monótonas. Realiza una compresión con pérdidas con lo que no es idóneo reconstruir el sonido original.

Acepta gran variedad de canales de audio, siendo muy atractivo para sistemas de proyección cinematográfica con altavoces 7.1, por ejemplo.
Está normalizado con el estándar de la Organización Internacional de Normalización (ISO) y la Comisión Electrotécnica Internacional (IEC) ISO/IEC 13818-7. Existe como formato contenedor con extensiones m4a, m4b, m4p, m4v, m4r, 3gp, mp4 y aac.

Su uso se ha extendido como códec de radio difusión digital así como formato de reproducción en iTunes, iPod, Nintendo DSi, Winamp, etcétera. Acepta información de metadatos capaces de restringir el uso por derechos de autor (DRM).

Códec AAC de audio digital

AC-3

También llamado Dobly Digital, realiza una compresión perceptual del sonido. Es decir, elimina aquellas frecuencias inferiores a los 20Hz o superiores a los 20kHz y todo aquello que el oído humano no perciba.

Se extendió por las salas de cine y los vídeos domésticos, principalmente en DVD, gracias a su versatilidad para contener hasta seis canales de audio.

Códec AC-3 de audio digital

ALAC

Apple Lossless Encoder se estandarizó desde 2004 en iTunes y iPod. Es un códec de la marca de Steve Jobs que comprime la información sin pérdidas. Su compresión se basa en algoritmos que eliminan la redundancia temporal de las pistas sonoras.

Su decodificación es muy rápida con lo que es bastante útil en sistemas de Streaming. Admite metadatos. Se utiliza en formatos contenedores con extensión mp4 y mov.

AMR

Adaptative Multi-Rate está optimizado para la compresión de voz. Se utiliza en la red de comunicación telefónica GSM. Tiene mucha compresión y poca calidad.

Como formato contenedor, su extensión es amr. No es reconocible por una gran variedad de reproductores de audio.

ATRAC

Adaptative Transform Acoustic Coding codifica el audio digital con pérdidas utilizando principios de psicoacústica. Estos principios restringirán de la copia los sonidos que el oído humano no suele percibir claramente.

Este códec de Sony se implementó en reproductores de su marca así como en los MiniDisc, en la videoconsola PlayStation 3, PlayStation Portable, etc.

ATRAC1 contiene hasta 8 canales e intenta competir con los sistemas AC-3 y DTS en los home cinema.

FLAC

Free Lossless Audio Codec realiza una compresión sin pérdidas, adecuado para copias de seguridad de archivos que conservarán toda su información. En su formato contenedor (de extensión flac y fla) puede albergar metadatos e imágenes del disco, por ejemplo.

Códec FLAC de audio digital

Monkey’s Audio

Su compresión sin pérdidas lo convierte en un códec adecuado para distribución, reproducción y archivado. Su formato contenedor almacena el audio en extensión ape y los metadatos en extensión api. Su compresión y descompresión de archivos es más lenta que la de formatos de similares características como FLAC y tiene peor compatibilidad con sistemas operativos. Como ventaja, el formato Monkey’s Audio logra un menor peso de sus archivos.

MP2

MPEG-1 Audio Layer 2 forma parte de los estándares de vídeo y audio normalizados por el Moving Picture Experts Group. En este caso se trata de una compresión con pérdidas que se utiliza en emisiones de audio. Su estándar viene definido en la norma ISO/IEC 11172-3.

MP3

El códec MPEG-1 Audio Layer 3 se popularizó con la piratería musical y se ha convertido en el formato contenedor de audio más conocido. Utiliza un algoritmo con pérdida con lo que no es conveniente si se quiere conservar el audio original.

Fue desarrollado para incluirlo en el estándar de vídeo MPEG-1. Al ser un estándar patentado, se debe pagar a sus propietarios para incluirlo en dispositivos digitales. Esto no ha frenado su enorme distribución.

Para su compilación, el códec MP3 usa diferentes herramientas. Por un lado, reduce el campo dinámico y lo varía en bloques en función de los requerimientos de la onda. Por otro lado elige factores de cuantificación de la onda para ajustar la asignación de bits a la amplitud del muestreo.

Códec MP3 de audio digital

Además, el códec MP3 cambia de la nomenclatura numérica estándar a la del sistema de codificación Huffman. El sistema Huffman etiqueta los números más utilizados con dos bits mientras que los de menor uso se codifican en cuatro bits. Por ejemplo, el número 1 en sistema binario se escribiría 001, en el sistema de Huffman se transcribe con un 10. En cambio, el número 4 del binario sería 100 y de Huffman sería 0110.

Musepack

Generalmente utilizado en archivos de extensión mpc, el códec Musepack utiliza compresión de audio con pérdida. Sus estándares de compresión están optimizados para bitrates medios y altos, consiguiendo muy poca pérdida de compresión comparado con otros códecs de similares características. Trabaja con código libre y licencias libres (LGPL o BSD)

Opus

Es un códec de compresión digital con pérdidas que combina los algoritmos de SILK y CELT. Su latencia es una cuarta parte de la habitual en otras compresiones. Es decir, el retraso entre la lectura y la transmisión es de sólo 22,5ms por defecto, cuando lo habitual es que sea de unos 100ms. Incluso, con una mayor compresión (menor bitrate) se puede reducir la latencia a 5ms.

Los archivos Opus no contienen los habituales códigos iniciales que definen las características del documento. Esto también facilita su velocidad de transmisión y lectura lo que lo convierte en un archivo ideal para comunicaciones de voz por internet. Las notas de voz de WhatsApp están comprimidas en Opus.

Opus soporta hasta 255 canales de audio. Permite tasas de bits variables y constantes.

TTA

True Audio utiliza pronóstico de filtros adaptativos para una compresión sin pérdidas. Además, comprime varios canales mediante ondas compuestas. Por ejemplo, mediante un canal de diferencia de dos ondas (canal 1 – canal 2) y otro de media de ambas ondas ([canal 1 + canal 2]/2).

Vorbis

El formato desarrollado por la Fundación Xiph.Org se almacena en un archivo contenedor de extensión ogg. Utiliza compresión con pérdidas con estructura muy versátil que permite elegir gran cantidad de bitrates, frecuencias de muestreo o número de bits por muestra, así como su capacidad para almacenar hasta 255 canales de audio digital discretos.

Cuando los dueños del formato MP3 comenzaron a cobrar por su patente en proyectos de bajo presupuesto, así como artísticos y/o gratuitos, la Fundación Xiph.Org empezó a desarrollar este códec. Vorbis es completamente libre y de código abierto.

Actualmente, plataformas como Spotify utilizan este formato.

VQF

TwinVQ (Transform-domain Weighted Interleaved Vector Quantization) utiliza un código de vectores que sustituye el rango de cuantificación de bits. Su codificación, aunque lenta, es muy efectiva, superando formatos como el MP3. En cambio, su decodificación, es rápida permitiendo, incluso, su decodificación en Streaming, es decir, comenzar la reproducción antes de obtener el archivo completo por Internet.

Pese a estar desarrollado por Yamaha se ha distribuido libremente, con lo que no hay que pagar por su implantación en dispositivos. Aún con esta ventajas, no ha logrado superar la extensa aplicación del audio en MP3.

WMA

Windows Media Audio también se utiliza como formato contenedor en extensión wma. Su tecnología está desarrollada por Microsoft y trabaja mediante compresión con pérdida de calidad. Podemos distinguir cuatro tipos de compresión: WMA, WMA Pro (soporta surround), WMA Lossless y WMA Voice.

Formatos de archivo de audio digital

Todas estas características deberán estar contenidas en un archivo en concreto. Existen multitud de formatos de audio que se pueden distinguir según sus características y extensiones. Hemos citado algunas importantes cuyos códecs corresponden al formato de audio digital en cuestión (MP3, AC-3, AAC, FLAC,…), pero existen muchos más.

AIFF

Audio Interchange File Format es el estándar acústico de los dispositivos Apple. Normalmente utiliza la codificación PCM, sin compresión, aunque existe una versión AIFC (AIFF-C) que si tiene compresión. A la hora de representar los datos binarios utiliza el criterio big-endian.

MIDI

Musical Instrument Digital Interface NO CONTIENE INFORMACIÓN DE LA ONDA SONORA. MIDI consiste en un estándar tecnológico que describe la acción musical de instrumentos electrónicos concretos. Contiene hasta 16 canales de información capaces de albergar distintos instrumentos en cada uno de los canales.

El formato MIDI contiene, de cada instrumento electrónico, su notación musical, tono, dinámica, vibrato, paneo, cues, tempo,… Para digitalizar los instrumentos es preciso utilizar hardware específico así como conexionado adecuado.

WAVE

Waveform Audio Format es conocido comúnmente por su extensión, WAV. Es el formato de audio digital de Microsoft. Normalmente utiliza codificación PCM, es decir, sin compresión. Admite hasta dos canales de audio a distintas resoluciones y velocidades de muestreo. En la cabecera de sus archivos, establece la duración del archivo en 32 bits, lo que limita su tamaño a un máximo de 4 GB.

El mundo de la compresión de audio digital puede ser muy amplio y existen gran cantidad de algoritmos y formatos implicados. Con este artículo se engloban algunos de los principios, pero la experiencia y la formación continua serán necesarias para comprender los avances en el campo.

Sobre el autor:

En esunvideo.com hablamos sobre la edición de video profesional. Repasamos las últimas noticias sobre sistemas de edición, cámaras de vídeo, formatos de grabación, festivales, tendencias artísticas, etcétera. Vive el mundo audiovisual con esunvideo.com