Compresión de imagen

más allá de la comprensión del color

La retina del ojo humano tiene más de 6 millones células que interpretan el color, conos, y unas 120 millones de células que analizan la luminosidad, bastones. Ambos tipos de célula traducen la información luminosa en estímulos que serán interpretados por el cerebro. Este tipo de codificación de la imagen inspira los parámetros fotográficos de registro analógico y digital. Es por ello que entender la compresión de imagen requiere abordar los principios de colorimetría.

¿Qué es la luz?

La luz es una radiación electromagnética compuesta por fotones y con características de onda. Sus parámetros de longitud de onda producen estímulos en nuestra visión. Cualquier radiación electromagnética está formada por una onda que fluctúa a una velocidad específica (frecuencia) y con parámetros de longitud de onda concretos.

La longitud de onda (λ) es la distancia entre el punto inicial y final de una fluctuación completa de la onda. En modo visual: el espacio que existiría entre dos crestas consecutivas de una ola, por ejemplo.

De esta manera, la radiación ultravioleta tiene una longitud de onda menor a los 380 nanómetros (nm), la radiación infrarroja tiene una longitud de onda mayor a los 720 nm o las ondas de radio superan los 100.000 nm. La luz que registra el ojo humano, el espectro visible, se encuentra entre longitudes de onda de 380 nm y 720 nm.

Espectro visible por el ojo humano

Los valores de este espectro los distinguimos mediante distintas tonalidades de color. Así, una radiación electromagnética con longitud de onda de 400 nm la veremos violeta y una de 700 nm la veremos roja. Entre ellas encontraremos naranjas, amarillos, verdes, etcétera.

Entonces, ¿por qué cuándo vamos por la calle no vemos colores en el aire? Básicamente porque el aire apenas rebota la luz. Percibimos la luz gracias al efecto de rebote que provoca en los objetos. La luz, muchas veces con todo su espectro, incide sobre un objeto en particular. Este objeto absorbe ciertas partes de la radiación transformándolas en calor y, el resto, las repele hasta, por ejemplo, nuestros ojos.

De esta manera, veremos que un objeto es de color verde cuando haya absorbido las frecuencias de colores azules y rojas.

Colores primarios y complementarios en RGB y CMYK

El color

Para escribir el tratado Opticks or, a Treatise of the Reflexions, Regractions, Inflexions and Colours of Light, Isaac Newton trabajó con prismas de cristal que refractaban la luz blanca en un abanico de colores que corresponden al espectro de luz visible. Uno de sus experimentos con dos prismas consistió en dividir la luz blanca en colores y volverla a componer, a partir de los colores, en luz blanca. En otro de sus experimentos, reflectó luz roja que no alteró su tonalidad al atravesar el prisma. De esta forma, Newton llegó a la conclusión de que la luz blanca contenía los colores.

Sería Thomas Young el que, además de confirmar que la luz era una onda mediante su experimento de doble rendija, establecería los tres colores primarios que componen los demás. Mediante la mezcla de luz roja, verde y azul, se puede recomponer la luz blanca así como conseguir cualquier color del espectro visible.

Ahora sabemos que tenemos tres tipos de conos receptores de color en la retina.

Los llamados conos L tienen fotopigmento eritropsina que capta las ondas de 650 nm, el color rojo.

Los denominados conos M, con cloropsina, actúan ante las ondas de 530 nm, el color verde.

Por último, los conos S utilizan cianopsina para registrar las ondas de 430nm, las azules.

Colores primarios y secundarios

Es por ello, que en síntesis aditiva (uniendo colores del espectro cromático), se considera que los colores primarios son el rojo, el verde y el azul. Cuyas mezclas equitativas forman los colores secundarios cian, magenta y amarillo.

En cambio, cuando se trata de pintura, la síntesis pasa a ser sustractiva. Es decir, cuando utilizamos tinta u otros componentes pictóricos estamos eliminando frecuencias de color (síntesis sustractiva). El color que vemos es aquel que el objeto no absorbe. Si unimos todos los colores no compondremos el color blanco, sino el negro. Es por esto, que los colores primarios en síntesis sustractiva serían los secundarios en la síntesis aditiva. El cian, el magenta y el amarillo son los primarios y el rojo, el verde y azul, los complementarios.

Esta diferenciación es clave a la hora de elegir modos de imagen en el ámbito digital. Cuando hablamos de archivos que vayan a ser destinados a impresión, se trabajará en modo CMYK: Cian, Magenta, Yellow (amarillo) y blacK (negro).

De otra forma, cuando hablamos de televisiones y monitores, puesto que funcionan con luz, el parámetro a elegir es RGB: Red (rojo), Green (verde) y Blue (azul).

El color en la cámara

A la hora de representar la imagen, las cámaras separan los tres colores primarios para captar la información de cada uno de sus haces. En un negativo fotográfico se haría mediante distintas capas con haluros de plata fotosensibles a cada una de las frecuencias. En el caso de las cámaras de televisión y digitales, generalmente las frecuencias se dividen mediante espejos dicroicos y de plata que desvían cada una de las frecuencias a su respectivo receptor.

De esta manera, la captación, emisión y recepción de video se podría realizar mediante la separación de estos tres colores. A su vez, el trio cromático formaría la intensidad lumínica de la imagen, es decir, la luminancia. Un fotograma en blanco y negro sólo estaría formado por la luminancia. Todos los colores compondrían la intensidad del blanco en la representación. Esto es lo que enuncian las leyes de Grassmann que establecen la equivalencia entre la suma de colores con la luminancia (Y).

Filtros dicroicos
Filtros dicroicos

La luminancia

Estas leyes ópticas fueron de suma importancia a la hora de establecer el funcionamiento de la televisión. Cuando la tecnología permitió la televisión en color, la emisión en blanco y negro estaba muy extendida por lo que implantar un nuevo sistema se hacía más complicado. Había que mantener el sistema de emisión y recepción de las ondas televisivas. Los televisores en blanco y negro debían seguir funcionando por lo que la señal de luminancia codificada en la amplitud de onda tenía que permanecer inalterable.

Este pequeño inconveniente, unido a la menor perspicacia del ojo humano a las variaciones cromáticas respecto a las de luminancia, llevo a implantar un sistema distinto al RGB. Actualmente, el sistema RGB se utiliza en informática y en algunos circuitos cerrados de televisión.

Como la señal de luminancia tenía que enviarse para adecuarse a las emisiones en blanco y negro, eliminar uno de los tres colores no causaba perjuicio informativo. Si se omite la información del color verde, ésta se puede averiguar restando a la luminancia la información de rojo y azul.

Llegando a esta conclusión, lo lógico era enviar la información de luminancia y de dos colores. Se prefirió eliminar el verde puesto que se encontraba en el centro del espectro visible, era más interesante conservar los vértices del mismo y, como veremos más adelante, es el color que más ocupa en la señal de luminancia. Pero ¿qué ocurriría si se enviaba un vídeo en blanco y negro mediante un sistema en color? Se enviaría información de los colores y esto sería un gasto innecesario de recursos.

Así que la convención se estableció restando la luminancia a los colores. Es decir, la señal de televisión alberga, en su amplitud, la información de luminancia (Y) y, en variaciones de fase y frecuencia (mediante modulación en cuadratura), las señales U y V. La señal U viene dada por restar, a la intensidad de azul, la luminancia total del contenido (B-Y) y la señal V por restarla al rojo (R-Y).

Onda electromagnética de la televisión en color

YUV

De aquí proviene el espacio de color YUV. Cuando encontramos una apóstrofe detrás de la Y (Y’UV) significa que existe una corrección de gamma para la correcta visualización. YPbPr, comúnmente llamado vídeo por componentes, utiliza el mismo principio en señal analógica y YCbCr en señal digital.

En alguna ocasión pueden ser útiles los cálculos matemáticos para transformar una señal RGB en YUV o a la inversa. Para eso existen las fórmulas representadas a la derecha de este párrafo.

Al interpretar las fórmulas se puede apreciar que la luminancia no está compuesta equitativamente por cada color. Aproximadamente un 30% es rojo, un 59% verde y un 11% azul.

Y=0,299R+0,587G+0,114B
U=0,492(B-Y)=-0,147R-0,286G+0,436B
V=0,877 (R-Y)=0,615R-0,515G-0,100B
R=Y+1,140V
G= Y-0,395U-0,581V
B= Y+2,032U
8 bits = 1 byte
1024 bytes = 1 Kilobyte
1024 Kilobytes = 1 Megabyte
1024 Megabytes = 1 Gigabyte
1024 Gigabyte = 1 Terabyte

El color digital

Adaptar la información cromática a digital requiere la conversión de la intensidad de cada patrón de color a escala numérica. De esta forma, por ejemplo, un color rojo intenso contendría una intensidad de 256 en rojo frente a dos 0 en verde y azul. Un blanco podría darse mediante una intensidad de 256 en todos los colores o un negro mediante un 0 en los tres parámetros.

Para hablar de color digital hay que entender bien el funcionamiento del código binario. Cada bit de información contiene o no contiene electricidad, lo que se traduce como un 1 o un 0. Un sistema de dos bits de información podría expresar hasta cuatro tipos de contenido: 00, 01, 10 o 11. En el caso de un patrón con ocho bits (8 ceros o unos) la estadística llegaría a 256. Esto aplicado a una información de color podría significar 256 variedades de color. Si aumentáramos tres veces el número de bits (24bits) conseguiríamos 256 intensidades por cada color (256 rojos, 256 verdes y 256 azules) que mezclados consiguen los más de 16 millones de colores que reproduce una tarjeta gráfica de 24bits.

Esta codificación del color se otorgaría a cada píxel de la imagen en un espacio de color RGB. Pero ¿qué ocurre cuando digitalizamos una señal de televisión? En ocasiones se convierte la información en YUV a RGB, pero, en muchas otras, se digitaliza la información YUV. Tener la señal cromática en YUV facilita la compatibilidad entre dispositivos analógicos y digitales.

4:2:2 CCIR 601

En 1982, el Comité Consultivo Internacional de Radio Comunicaciones (CCIR) estableció la norma 4:2:2 CCIR 601 de televisión digital en componentes. El estándar 4:2:2 establece las razones de muestreo a razón Y:U:V. Es decir, por cada cuatro muestras de luminancia, la señal de vídeo, contendrá dos muestras de diferencia de color azul y dos muestras de diferencia de color rojo.

En el caso de que el muestreo sea 4:1:1, se tomará una muestra de color por cada cuatro de luminancia. Si fuese 4:2:0, se tomarían cuatro muestras de luminancia y dos de color azul, otras cuatro de luminancia y dos de color rojo, y así sucesivamente. Equivaldría a un 4:2:0:4:0:2.

La compresión de imagen

Habiendo comprendido cómo se transforma la imagen analógica y digital podemos empezar a hablar de qué manera podemos comprimir esta información.

Intraframe

Hablamos de compresión de imagen intraframe cuando reducimos la información de un único fotograma. Por ejemplo, imaginemos que cada código de color corresponde a una letra y nuestra imagen está compuesta de la siguiente manera: ABBBBBCCDEEEFGGGGG. Este mismo enunciado podríamos escribirlo así: A5B2CD3EF5G. Esta manera de traducir la información nos ahorraría siete caracteres. Es difícil tener un texto legible con tanta repetición de caracteres, pero en imagen es muy probable que los colores se repitan de un pixel a otro. Agrupar esos píxeles reducirá bastante el peso de la imagen. Si se quiere una compresión sin pérdidas sólo agruparemos las informaciones equivalentes. Si nos podemos permitir una compresión con pérdidas, la agrupación de colores podría ser mayor, provocando una perdida en los degradados puesto que los colores similares se igualarían en mayor cantidad cuanto mayor sea la compresión.

Interframe

Por otro lado, la compresión de imagen interframe se produciría entre fotogramas consecutivos. Si nos fijamos en las series de animación orientales descubriremos que son auténticos maestros en el ahorro de dibujos. Un fondo fijo, personajes que no se mueven pero están rodeados de líneas que sí, expresiones sólo marcadas por un movimiento de ojos o boca,… Dibujar un fondo animado o un movimiento real de los personajes supone mucho más trabajo y, en ocasiones, no tiene porqué ser necesario. Muchos de los objetos que representamos en video son fijos y el movimiento no se desarrolla en todo el fotograma. La compresión interframe aprovecha esta cualidad. Informando únicamente de los píxeles que varían con respecto al fotograma anterior eliminaremos una gran cantidad de datos redundantes.

Este tipo de compresión es la culpable de estelas de cuadrados que persiguen la acción de un vídeo muy comprimido o de las sombras de píxeles que se quedan congeladas en la imagen en algunos cambios de plano cuando el reproductor está falto de memoria.

Estos tipos de compresión de imagen vendrán dados por el formato de vídeo que elijamos y el códec en cuestión. Además, podremos reducir más o menos el tamaño de un vídeo actuando sobre distintos parámetros:

Resolución

Tamaño en píxeles verticales y horizontales. A menor tamaño, menor peso. Tiene relación con el ratio de aspecto que vendrá dado por la proporción del tamaño vertical con el horizontal y el aspecto de los píxeles. (Se recomienda leer este artículo)

Compresión de imagen interframe

Número de fotogramas por segundo

A menor número de fotogramas por segundo, menor peso y menor sensación de movimiento.

Escaneado progresivo o entrelazado

Fotogramas completos o mediante un campo de líneas pares y otro impares. (Se recomienda leer este artículo)

Vídeo entrelazado

Bitrate

Establecerá el número de bites por segundo que ocupará el vídeo. A menor tasa de bitrate el vídeo tendrá menor peso y menor calidad. Podrá ser constante (CBR) o variable (VBR) estableciendo una tasa máxima y una mínima. El bitrate es un valor de suma importancia en compresiones para Internet puesto que la reproducción fluida de un vídeo dependerá de la conexión que tenga el espectador y del bitrate del vídeo. Si la persona que está viendo el vídeo por Internet tiene una velocidad igual o menor que el bitrate de nuestro vídeo, sufrirá interrupciones ocasionadas por la recarga de buffer a la espera de descargar un nuevo paquete de vídeo.

Distancia entre fotogramas clave

Los fotogramas clave son aquellos que se capturan por completo sin compresión interframe. Estos fotogramas servirán de referencia a los demás. En vídeos con mucho movimiento es interesante que la distancia entre fotogramas clave sea pequeña para que se haga un muestreo completo de la imagen cada poco tiempo. A menor distancia entre fotogramas clave, mayor número de fotogramas clave y, por lo tanto, mayor peso del archivo de vídeo.

Audio

Por otro lado, no hay que olvidar que los archivos audiovisuales se componen de vídeo y audio. Los parámetros de compresión de la onda sonora también serán relevantes a la hora de conseguir que un vídeo sea más o menos ligero.

Sobre el autor:

En esunvideo.com hablamos sobre la edición de video profesional. Repasamos las últimas noticias sobre sistemas de edición, cámaras de vídeo, formatos de grabación, festivales, tendencias artísticas, etcétera. Vive el mundo audiovisual con esunvideo.com