UNIVERSIDAD AUTONOMA DE TAMAULIPAS FACULTAD DE COMERCIO, ADMINISTRACIÓN Y CIENCIAS SOCIALES DE NUEVO LAREDO DIVISIÓN DE ESTUDIOS DE POSGRADO
TECNOLOGÍA DE MULTIMEDIA ING. BENJAMÍN ORTIZ SIMÓN, MS-IS
TAREA 2 ENSAYO COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
MANUEL DE JESÚS CHAVIRA TOVAR
21 DE OCTUBRE, 2009
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
Aunque la mayoría de la gente estamos muy familiarizados con el sonido como el elemento de mayor impacto en radio, televisión, cinematografía y multimedia, muy pocos tenemos experiencia con su edición y uso. El software de estudio de grabación digital, como el Cool Edit, facilita la grabación y el procesamiento de audio para crear, en forma sencilla, contenidos de sonido específicamente acondicionados a las necesidades concretas de calidad del sonido y espacio utilizado para su almacenamiento. En este planteamiento, el enfoque está orientado al ajuste y elección de las cualidades del sonido según la aplicación que se desarrolle, buscando el equilibrio entre un efecto vibrante y un tamaño manejable, tanto para reproducción como para almacenamiento. Es frecuente que el desarrollador se entusiasme al momento de producir audio para un trabajo editar multimedia, perdiendo entonces la perspectiva de la economía de almacenamiento y reproducción; sin embargo, es necesario cuidar este aspecto buscando que el tamaño final no sea mayor al estrictamente necesario de acuerdo a las características y objetivos de la información acústica dentro del concepto completo, ya que un mayor tamaño implica un mayor costo de almacenamiento, así como un mayor costo de distribución en medios físicos; asimismo, con archivos de mayor tamaño se incrementa la especificación del equipo requerido para la reproducción y, por último, mayor es el tiempo de descarga requerido para hacer llegar el producto a los usuarios, bajo un esquema de distribución en línea. En la historia de la materialización práctica del concepto de la multimedia, el audio digital fue apenas el segundo elemento que se incorporó, siguiendo a las imágenes estáticas, para enriquecer contenidos informativos. La carrera por el desarrollo de tecnologías de video digital acaparó rápidamente la atención y la energía de la industria, con lo que el sonido quedó relegando a un segundo plano, aún y cuando se trata del elemento de mayor impacto en el usuario que vive una experiencia multimedia. Por ello, es común descuidar la correcta selección de parámetros al momento de crear piezas de audio, optando por los valores predeterminados sin considerar su validez para el caso particular.
TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
Las características principales que se deben ajustar en una pieza de audio digital son el tamaño de la palabra digital, la tasa de muestreo y el número de canales, que se explican brevemente a continuación. El tamaño de la palabra digital, también llamado profundidad de bits, establece el número de bits que serán usados para representar el valor de una onda acústica en un instante. Un incremento de un bit duplica el rango de valores a utilizar, incrementando así la precisión potencial de cada muestra y, por lo tanto, la fidelidad de la grabación, pero también duplicando el espacio ocupado por el archivo digital sin compresión. Por lo general, se considera una profundidad de 24 bits como el límite máximo práctico, dado que permite una relación señal-ruido que excede a la de la mayoría de los circuitos analógicos de los elementos de reproducción y grabación comerciales. La tabla siguiente permite dimensionar el crecimiento en el rango de valores posibles (N), respecto al número de bits (n). n 1 2 3 4 5 6 7 8
N = 2n 2 4 8 16 32 64 128 256
n 9 10 11 12 13 14 15 16
N = 2n 512 1,024 2,048 4,096 8,192 16,384 32,768 65,536
n 17 18 19 20 21 22 23 24
N = 2n 131,072 262,144 524,288 1,048,576 2,097,152 4,194,304 8,388,608 16,777,216
n 25 26 27 28 29 30 31 32
N = 2n 33,554,432 67,108,864 134,217,728 268,435,456 536,870,912 1,073,741,824 2,147,483,648 4,294,967,296
La tasa de muestreo requiere una mayor consideración, ya que una tasa de muestreo demasiado baja ocasionará que al momento de la reproducción del audio, la señal analógica no corresponda con la
PROCESO DE MUESTREO
original; un proceso de muestreo pobre da como resultado un audio con distorsión estática (zumbido de fondo o aliasing), debido a que los componentes
Onda de audio original
del sonido de frecuencias altas están representadas deficientemente. Para evitar este defecto, la señal de audio debe ser muestreada con una frecuencia de por lo menos el doble de la frecuencia más alta que
Onda de audio digitalizada
contenga, de acuerdo con el teorema de muestreo de Nyquist-Shannon; un valor excesivo, obviamente generará un archivo de mayor tamaño. La mayoría de las aplicaciones de edición de audio ofrecen un rango más amplio de tasas TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
de muestreo, e incluso es posible especificar valores arbitrarios. Entre menor sea la tasa de muestreo, menores cantidades de memoria serán necesarios para almacenar los archivos de audio, pero la calidad del sonido sufrirá pérdidas importantes, por lo que es importante experimentar hasta encontrar el valor que permita el equilibrio óptimo entre calidad y tamaño. Las tasas de muestreo de audio más comunes en los codificadores (encoders) de MP3 son: Tasa de Muestreo Hz
Calidad
kHz
8,000
8
Calidad de teléfono o Lo-Fi
22,050
22
Calidad de radio AM
32,000
32
Calidad de radio FM
44,100
44
Calidad de CD de audio o Hi-Fi
48,000
48
TV digital, DVD, cinematografía, máxima calidad de sonido en las grabadoras de video digital y de la grabación de audio profesional
El número de canales de reproducción, uno para reproducción monoaural, dos para reproducción estereofónica o más para reproducción surround, también incide directamente en el tamaño del archivo resultante, por lo que resulta necesario definirlo de acuerdo al alcance del trabajo que se realice. La combinación de estos tres parámetros determina la calidad del audio durante su reproducción, al igual que el espacio que ocupará en disco. Utilice la ecuación siguiente para calcular el espacio que ocupa una pieza de audio digitalizado sin comprimir.
𝑇𝑘𝑏𝑖𝑡𝑠 = 𝑛 × 𝑓 × 𝑐 × 𝑑
𝑇𝐾𝐵 =
1000 𝑇𝑘𝑏𝑖𝑡𝑠 8×1024
𝑇𝑀𝐵 =
𝑇𝐾𝐵 1024
Donde: Tkbits = Espacio ocupado para almacenamiento, en kilobits TKB = Espacio ocupado para almacenamiento, en Kilobytes TMB = Espacio ocupado para almacenamiento, en Megabytes n = Tamaño de la palabra digital, en bits f = Frecuencia de muestreo, en kHz c = Número de canales de reproducción: 1=Monoaural, 2=Estereofónico d = Duración de la pista sonora, en segundos
Como ejemplo, considérese la digitalización a 8 bits de una grabación monoaural de voz, de 3 segundos de duración, con un muestreo de 32 kHz. 𝑇𝑘𝑏𝑖𝑡𝑠 = 8 × 32 × 1 × 3 = 768 𝑘𝑏𝑖𝑡𝑠
TECNOLOGÍA DE MULTIMEDIA
𝑇𝐾𝐵 =
1000 ×768 8×1024
= 93.75 𝐾𝐵
𝑇𝑀𝐵 =
93.75 1024
= 0.09 𝑀𝐵
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
La siguiente tabla presenta una comparación de varias combinaciones de parámetros con cuatro diferentes duraciones de la pista sonora: 1, 10, 60 y 3600 segundos; como puede observarse, una elección inadecuada puede generar un desperdicio de espacio. Palabra (bits) 8 8 8 8 12 12 12 12 16 16 16 16 16 16 16 16 24 24 24 24
Muestreo (kHz) 32 32 32 32 32 32 32 32 44.1 44.1 44.1 44.1 44.1 44.1 44.1 44.1 48 48 48 48
Canales Mono/Estéreo 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 1 = Mono 2 = Estéreo 2 = Estéreo 2 = Estéreo 2 = Estéreo 2 = Estéreo 2 = Estéreo 2 = Estéreo 2 = Estéreo
Duración (seg.) Total 1 1 seg. 10 10 seg. 60 1 minuto 3,600 1 hora 1 1 seg. 10 10 seg. 60 1 minuto 3,600 1 hora 1 1 seg. 10 10 seg. 60 1 minuto 3,600 1 hora 1 1 seg. 10 10 seg. 60 1 minuto 3,600 1 hora 1 1 seg. 10 10 seg. 60 1 minuto 3,600 1 hora
Espacio de almacenamiento kilobits KBytes MBytes 256.0 31.25 0.03 2,560.0 312.50 0.31 15,360.0 1,875.00 1.83 921,600.0 112,500.00 109.86 384.0 46.88 0.05 3,840.0 468.75 0.46 23,040.0 2,812.50 2.75 1,382,400.0 168,750.00 164.79 705.6 86.13 0.08 7056.0 861.33 0.84 4,2336.0 5,167.97 5.05 254,0160.0 310,078.13 302.81 1,411.2 172.27 0.17 14,112.0 1,722.66 1.68 84,672.0 10,335.94 10.09 50,80,320.0 620,156.25 605.62 2,304.0 281.25 0.27 23,040.0 2,812.50 2.75 138,240.0 16,875.00 16.48 8,294,400.0 1,012,500.00 988.77
Una vez establecidas las consideraciones teóricas, es recomendable tomar en cuenta las siguientes recomendaciones prácticas. 1. Espacio de almacenamiento. Trabajar con audio digital en una computadora, requiere grandes cantidades de espacio disponible en disco duro. Si se planea crear nuevos archivos de audio asegúrese de tener suficiente espacio para su almacenamiento. Como regla general considere que cada minuto de sonido estereofónico digitalizado a 16 bits con un muestreo de 44.1 kHz requiere aproximadamente 10 Megabytes de espacio. Con esta previsión, un disco duro vacío de 120 GB permitirá grabar un poco más de 12,000 minutos, es decir, 204 horas de sonido. 2. Grabación del archivo maestro. Las clases más comunes de calidad en las señales de audio, según la aplicación que se tendrá durante su reproducción, son: conversación telefónica, conversación de banda ancha y audio de banda ancha; todas ellas difieren en su ancho de banda, su rango dinámico y en la expectativa de calidad por parte de quien la escucha. Las representaciones TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
del sonido de banda ancha, o sonido de alta fidelidad, que incluyen audio en múltiples canales, necesitan de al menos 20 kHz. El formato digital convencional, llamado PCM (pulse code modulation), utiliza muestreo a 32, 44.1 o 48 kHz y una resolución o tamaño de palabra digital de 16 bits. Independientemente de la calidad planeada para la reproducción, es necesario que la grabación se realice utilizando una tasa de muestreo alta (88.2, 96, 176.4 o 192 kHz) y un tamaño de palabra digital de 16, 24 o incluso 30 bits. Este archivo de alta calidad, y por supuesto, de alto tamaño, deberá ser tratado como archivo maestro, para almacenarse y procesarse con la misma tasa de muestreo elevada, dejando la conversión a un muestreo más bajo únicamente para generar el archivo final con la calidad de reproducción deseada. Para crear un archivo maestro con el cual comenzar a trabajar en Cool Edit: 1. Utilice el menú File > New. 2. Aparece el cuadro de diálogo New Waveform, que incluye las tres opciones de configuración del formato de audio: tasa de muestreo (Sample Rate), canales de audio (Channels) y tamaño de la palabra digital (Resolution).
3. De las opciones disponibles, elegir 44100Hz, Stereo y 16-bit respectivamente, que corresponde a la especificación vigente para discos compactos (CD) de audio, llamada “CD Red Book Standard”. 4. La selección inicial sugerida es una primera aproximación, por lo que durante la edición del archivo maestro, ponga atención a la calidad del audio. De ser necesario, vuelva a comenzar usando una tasa de muestreo más alta, preferentemente usando un múltiplo como 88200 (2x) o 176400 (4x); una ventaja de establecer estos valores es que si el audio final debe tener alta fidelidad o se debe generar audio en CD, la conversión de muestreo no agregará defectos por tratarse de una división de frecuencias exacta. Por el contrario, usar la frecuencia base de 48000Hz, o alguno de TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
sus múltiplos (96000 o 192000) no se considera como ideal porque la conversión a un archivo final con muestreo de 44.1 kHz no permite una división exacta de frecuencias de muestreo, con lo que se agrega un defecto al sonido. 3. Generación del archivo final. Una vez concluida la labor de edición y procesamiento del audio, es necesario modificar las características de muestreo para reducir la calidad del archivo final a la necesaria para su aplicación. Para modificar los parámetros de muestreo en Cool Edit: 1. Con el archivo maestro abierto, utilice el menú Edit > Convert Sample Type. 2. Aparece el cuadro de diálogo Convert Sample Type, que incluye múltiples opciones de configuración del formato de audio, los que deben modificarse con los valores óptimos para la aplicación.
2.1. Sample Rate (Tasa de muestreo). De las opciones disponibles, elegir un submúltiplo de 44100Hz, tomando en cuenta
la siguiente guía:
44100 es el valor para audio profesional con calidad de CD; 22050 establece una calidad aceptable para muchas aplicaciones interactivas de multimedia; 11025 implica una baja calidad, aunque suficientemente buena para narraciones de voz; por otra parte, el valor de 8000 Hz es muy utilizado para audio por Internet. El uso de frecuencias de muestreo bajas reduce significativamente el espacio de almacenamiento requerido, pero también reduce la respuesta del sonido del contenido a las altas frecuencias. Utilice el ajuste deslizable Low/High Quality para establecer la calidad de la conversión de muestreo. Los valores más altos retienen más frecuencias altas a la vez que evitan la distorsión estática (aliasing) de TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
las altas frecuencias a las bajas, pero el proceso de conversión toma más tiempo. Un valor de baja calidad requiere menos tiempo de procesamiento, pero los resultados en algunas frecuencias altas presentan un defecto de reverberación. Un valor entre 100 y 400 funciona bien para la mayoría de las necesidades de conversión. La opción Pre/Post Filter debe habilitarse para obtener mejores resultados; durante la conversión, el filtro apropiado evitará que se generen falsas frecuencias en el extremo bajo del espectro de audio. 2.2 Channels (Canales de audio). Seleccione si el nuevo formato de audio será monoaural (Mono) o estereofónico (Stereo). Si se desea convertir de estéreo a mono o viceversa, se habilita la opción para ajustar la forma en que se mezclarán ambos canales. Cuando se convierte de Mono a Estéreo es posible especificar la amplitud relativa, medida en porcentaje, con la cual la señal original monoaural será colocada en cada canal estéreo; de esta manera es posible colocar todo el audio original en un solo canal o balancearlo entre los dos. Cuando se convierte de Estéreo a Mono, este porcentaje controla la cantidad de señal del canal respectivo que será mezclada en el archivo final. Los métodos de mezcla más comunes son usar el 50% en ambos canales cuando se convierte a monoaural y 100% para ambos valores cuando se convierte a estéreo. Para eliminar todo o en parte las voces de cualquier grabación musical estereofónica, es posible convertirla a un archivo monoaural con una mezcla en el canal izquierdo de 100% y en el canal derecho de -100%; la mayoría de las pistas vocales están ubicadas en la parte central de la salida estereofónica, así que convertir la señal a un punto fuera del rango de la voz permitirá reducir significativamente o incluso eliminar el componente vocal. Cuando se convierta una grabación estereofónica de un material monoaural (con el mismo contenido en ambos canales) a un archivo monoaural, intente establecer cualquiera de los dos canales al 100% y el otro al 0%; con frecuencia el resultado de esto es una grabación monoaural con un sonido más nítido.
TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
2.3 Resolution (Tamaño de la palabra digital). Utilice este control para establecer la resolución a la que se convertirá el audio. Cuando se convierte a una resolución más baja se habilitan las opciones Dither. 2.4 Dither (Difuminación de audio). Este término se refiere a una forma de ruido que se genera intencionalmente utilizando diferentes funciones de densidad probabilística, el cual es aplicado intencionalmente al sonido original con la finalidad de ocultar algunos defectos del audio. Una breve explicación del principio de funcionamiento, ayuda a comprender el uso de estos parámetros: en un sistema analógico la señal es continua en todo momento, pero en un sistema digital PCM (pulse code modulation) la amplitud de la señal acústica de salida está limitada a un valor de entre un rango de valores discretos. Si una señal se reproduce sin usar la difuminación o dither, la reproducción del audio presentará una distorsión respecto al audio original; para reducir este defecto se utiliza el dithering, un proceso matemático que elimina las armónicas y otras distorsiones altamente indeseables, remplazándolas con un ruido constante de nivel fijo. Activando la casilla Dithering se habilita esta corrección, de lo contrario el Cool Edit trunca los valores, ocasionando que los bits no utilizados sean simplemente eliminados, provocando que el sonido se entrecorte en las porciones de audio en las que la intensidad del sonido es baja. El valor que se especifique en el parámetro Dither Depth (bits) establece la cantidad de bits de difuminación que serán aplicados, siendo los valores de entre 0.2 y 0.7 los que dan los mejores resultados sin agregar demasiado ruido. Los controles p.d.f. (función de distribución probabilística) determinan la distribución del ruido de difuminación alrededor del valor de audio de la muestra original, por medio de cinco tipos de algoritmos: Rectangular, Triangular,
Gaussian
(gaussiano),
Shaped
Triangular
(triangular
conformado) y Shaped Gaussian (gaussiano conformado). Usar la opción Triangular es lo mejor porque ofrece el mejor equilibrio entre SNR (relación señal-ruido), distorsión y modulación de ruido. Para detalles de cada tipo consulte la ayuda de la aplicación Cool Edit. TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
Finalmente, las opciones de Noise Shaping permiten seleccionar un valor predeterminado para que Cool Edit determine la colocación del ruido cuando se cambia a una frecuencia diferente. En este caso se tiene la misma cantidad total de ruido, pero el desarrollador puede elegir que menos ruido sea colocado en una frecuencia en particular, agregándolo en otra diferente; también es posible poner esta función sin efecto en el procesamiento del audio. 4. Compresión del archivo final. Modificados los atributos del contenido de audio, el paso restante es generar el archivo que será usado, mediante el códec de compresión que mejor se adecúe a las necesidades. La aplicación Cool Edit soporta una amplia variedad de formatos para exportar el audio procesado, así que el desarrollador debe elegir aquel que mejor se adecúe a las condiciones de uso y/o distribución que tendrá el producto terminado. Los archivos sin compresión y sin pérdidas, producen una representación del dato digital que es casi perfecta respecto al audio original, aunque a costa de un alto espacio para almacenamiento, ya que la tasa de compresión varía entre un 50 y un 60% del tamaño original. Dado que los codecs de audio sin pérdidas (lossless) no tienen problemas de calidad, su usabilidad puede estimarse considerando la velocidad de compresión y descompresión, el grado de compresión, la robustez ante errores y la corrección de los mismos. En contraste, los formatos que incluyen métodos de compresión, como Vorbis y MP3, ofrecen un buen equilibrio entre calidad y tamaño, generando archivos de entre el 5 y el 20% del tamaño original, con degradación casi imperceptible en la calidad del audio. La usabilidad de este tipo de códec está determinada por la calidad percibida del audio, el factor de compresión, la velocidad de compresión y descompresión, así como la latencia inherente del algoritmo, que puede llegar a ser crítica en aplicaciones en las que el audio se transmite en tiempo real (streaming). Es importante no perder de vista que no se deben utilizar formatos de compresión de audio durante los procesos intermedio de edición del sonido, porque la calidad del mismo se deteriora cuando un archivo es descomprimido y vuelto a comprimir, lo que se conoce como “pérdida por generación digital”.
TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR
COMPRESIÓN Y DIGITALIZACIÓN DE AUDIO. IMPACTO DEL AUDIO EN TUTORIALES Y PRESENTACIONES
La conclusión a la que se llega a partir de este trabajo, es que conforme las computadoras y el software han evolucionado, han adquirido mayor poder de procesamiento
con
lo
que
cualquier
equipo
comercial
puede
utilizarse
perfectamente para grabar y editar texto, sonido, imágenes estáticas y videos, así como para sintetizar todo ello en una sola página, pantalla o vista, para crear nuevas formas de composición. La computación personal moderna coloca en manos de cualquier usuario la creación de multimedia, de la que el audio es parte fundamental; en este caso, la aplicación Cool Edit ofrece amplias capacidades de edición para modificar las características básicas de la voz de una narración: tono, ritmo y velocidad, así como para crear fondos musicales que incida en el ánimo del espectador y también para incorporar efectos de sonido que enriquezcan la presentación, cuidando al mismo tiempo la economía en el espacio ocupado por el producto final.
Bibliografía 1. Arboretum Systems. (2009). Hyperprism manual. Estados Unidos: Eastman School of Music. University of Rochester. http://ecmc.rochester.edu/ecmc/docs/hyperprism1.5.5/digaudio.htm 2. Currier, Robert. (1995). Digital audio for Multimedia. Estados Unidos. http://www.syntheticap.com/digaudio/digaud1.html 3. Morris, Tee; Terra, Evo. (2006). Podcasting for Dummies. Estados Unidos: Wiley Publishing. 4. Noll, Peter. (1999). Digital audio for multimedia. Alemania: Technische Universität Berlin. 5. Pohlman, Ken. (2005). Principles of digital audio. 5th Ed. Estados Unidos: Mc Graw Hill. 6. Russ, Martin. (2004). Sound synthesis and sampling. 2nd Ed. Estados Unidos: Elsevier. 7. Wikipedia. (2009). Digital recording.
Estados Unidos. http://en.wikipedia.org/wiki/Digital_
recording. 8. Wikipedia. (2009). Dithering. Estados Unidos. http://en.wikipedia.org/wiki/Dithering 9. Wikipedia. (2009). Multimedia literacy. Estados Unidos. http://en.wikipedia.org/wiki/Multimedia_ literacy.
TECNOLOGÍA DE MULTIMEDIA
MANUEL DE JESÚS CHAVIRA TOVAR