Características Perceptuales del Audio

20/03/2013

★★★★★Valoración: 4.81 (3987 votos)

Más allá de ser simplemente vibraciones en el aire, el sonido posee cualidades complejas que nuestro sistema auditivo interpreta para darnos la rica experiencia que conocemos. Cuando hablamos de frecuencia, no solo nos referimos a una medida física, sino también a cómo esta medida influye en nuestra percepción. En este artículo, exploraremos diversas características perceptuales basadas en la frecuencia, desentrañando qué aspectos del sonido describen y cómo se relacionan con nuestra audición.

¿Cómo elegir la armónica? — Cómo elegir tu primera armónica: La mayoría de los estudiantes encuentran la armónica diatónica más fácil para empezar, en comparación con la cromática o la de trémolo . Sin embargo, cada una tiene sus ventajas según el tipo de música que se quiera tocar. Por ejemplo, la música blues, country, fork y gospel utilizan ampliamente la diatónica.

Las características de frecuencia perceptual buscan simular o describir aspectos del sonido tal como los experimentamos los humanos. Estas cualidades nos permiten distinguir entre diferentes tipos de sonidos, entender la música y procesar el habla. Se organizan a menudo según la cualidad auditiva que describen.

El Brillo del Sonido: ¿Agudo o Grave?

El brillo de un sonido caracteriza la distribución espectral de las frecuencias y describe si una señal está dominada por frecuencias bajas o altas. Un sonido se vuelve más brillante a medida que el contenido de alta frecuencia se vuelve más dominante y el contenido de baja frecuencia se vuelve menos dominante. El brillo a menudo se define como el punto de equilibrio del espectro.

El brillo está estrechamente relacionado con la sensación de nitidez. Una aproximación común del brillo es el Centro Espectral (CE), también conocido como centroide de frecuencia. Se define como el centro de gravedad del espectro de magnitud (primer momento). El CE determina el punto en el espectro donde se concentra la mayor parte de la energía y se correlaciona con la frecuencia dominante de la señal. Existen diferentes definiciones de centro espectral, como las proporcionadas por el estándar MPEG-7, que pueden emplear un espectro de potencia en una escala de frecuencia de octava o definirse para señales completas en lugar de fotogramas individuales. A pesar de estas variaciones, las diferentes definiciones de centro espectral son muy similares en la práctica.

La nitidez, como mencionamos, está estrechamente relacionada con el brillo. Es una dimensión del timbre influenciada por la frecuencia central de los sonidos de banda estrecha. La nitidez aumenta con la fuerza de las altas frecuencias en el espectro. Puede calcularse de manera similar al centro espectral, pero basándose en la sonoridad específica en lugar del espectro de magnitud. Existen modelos matemáticos para describir la nitidez, y se emplea en el análisis de similitud de audio.

Otro concepto relacionado es el Centro Espectral. Este es la frecuencia donde la mitad de la energía en el espectro está por debajo y la otra mitad está por encima de esa frecuencia. Describe la distribución de energía y se correlaciona con el centro espectral (centroide) y, por lo tanto, con la frecuencia dominante de una señal. Se utiliza junto con otras características para tareas como el seguimiento rítmico.

La Tonalidad: Distinguiendo Tonos del Ruido

La tonalidad es la propiedad del sonido que distingue los sonidos que se asemejan al ruido de los sonidos tonales. Los sonidos tipo ruido tienen un espectro continuo, mientras que los sonidos tonales suelen tener espectros de líneas (picos discretos de frecuencia). Por ejemplo, el ruido blanco tiene un espectro plano y, en consecuencia, una tonalidad mínima, mientras que una onda sinusoidal pura resulta en una alta tonalidad.

La tonalidad está relacionada con la fuerza del tono, que describe la intensidad del tono percibido de un sonido. Los sonidos con componentes distintos (sinusoidales) tienden a producir una mayor fuerza de tono que los sonidos con espectros continuos. Distinguimos entre dos clases de características que miden (parcialmente) la tonalidad: medidas de planitud y medidas de ancho de banda.

El ancho de banda se define generalmente como el promedio ponderado por magnitud de las diferencias entre los componentes espectrales y el centro espectral. Es la estadística de segundo orden del espectro. Los sonidos tonales suelen tener un ancho de banda bajo (un solo pico en el espectro), mientras que los sonidos tipo ruido tienen un ancho de banda alto. Sin embargo, esto no siempre es así para sonidos más complejos, como la música, donde podemos encontrar señales de banda ancha con características tonales, o tonos complejos con un gran número de armónicos que pueden tener un espectro de líneas de banda ancha. En consecuencia, el ancho de banda puede no ser un indicador suficiente de tonalidad para ciertas tareas, requiriendo características adicionales como las de harmonicidad o planitud.

La dispersión espectral es una medida de la dispersión del espectro alrededor de su centro espectral. A diferencia del ancho de banda, su cálculo toma en cuenta el centro espectral en lugar del centroide espectral.

El punto de caída espectral es el percentil N% de la distribución de potencia espectral, donde N suele ser 85% o 95%. Es la frecuencia por debajo de la cual se concentra el N% de la distribución de magnitud. Aumenta con el ancho de banda de una señal y se utiliza ampliamente en la recuperación de información musical y en la segmentación de voz/música.

La planitud espectral estima en qué grado las frecuencias en un espectro están distribuidas uniformemente (tipo ruido). Es la relación entre la media geométrica y la media aritmética de una subbanda en el espectro de potencia. Los sonidos tipo ruido tienen un valor de planitud más alto (espectro plano), mientras que los sonidos tonales tienen valores de planitud más bajos. La planitud espectral se utiliza a menudo (junto con el factor de cresta espectral) para la identificación de audio.

El factor de cresta espectral es una medida de la 'picosidad' de un espectro y es inversamente proporcional a la planitud. Se utiliza para distinguir sonidos tipo ruido y sonidos tipo tono debido a sus formas espectrales características. Es la relación entre la potencia espectral máxima y la potencia espectral media de una subbanda. Para sonidos tipo ruido, la cresta espectral es menor que para sonidos tonales.

El flujo espectral de subbanda (SSF) mide la porción de parciales prominentes ('picosidad') en diferentes subbandas. Se calcula a partir del espectro de Fourier de tiempo corto logaritmizado. Es bajo para subbandas planas y alto para subbandas que contienen frecuencias distintas, siendo inversamente proporcional a la planitud espectral.

Otra medida que se correlaciona con la planitud de un espectro es la entropía. La entropía representa la uniformidad del espectro. Para una distribución plana en el espectro, la entropía es baja, mientras que un espectro con picos definidos (por ejemplo, formantes en el habla) tiene alta entropía. Esta característica captura la 'picosidad' de una subbanda y puede usarse para detección de voz/silencio y reconocimiento automático de voz.

La Sensación de Volumen

Las características de volumen buscan simular la sensación humana de sonoridad. El volumen es "ese atributo de la sensación auditiva en términos del cual los sonidos pueden ser ordenados en una escala que se extiende de suave a fuerte". El sistema auditivo incorpora una serie de mecanismos fisiológicos que influyen en la transformación de la intensidad física del sonido entrante en la sonoridad sensorial.

La sensación de sonoridad específica (sone) se aproxima por banda crítica del sistema auditivo humano. Se calcula a partir de un espectrograma en escala Bark, aplicando enmascaramiento espectral y contornos de igual sonoridad (expresados en fon). Finalmente, el espectro se transforma a sensación de sonoridad específica (en sone). Esta representación puede aplicarse a la recuperación de audio.

La sonoridad integral permite estimar la sonoridad de tonos más complejos mediante la integración espectral de la sonoridad en varias frecuencias. Un enfoque para calcular la sonoridad integral suma la sonoridad en diferentes grupos de frecuencia. Se ha demostrado empíricamente que este método se aproxima estrechamente a la sensación humana de sonoridad y se aplica en tareas como la segmentación de primer plano/fondo en audio.

El Tono Perceptual: Altura Sonora

El tono es una dimensión básica del sonido, junto con el volumen, la duración y el timbre. La sensación auditiva de tono se define como "ese atributo de la sensación auditiva en términos del cual los sonidos pueden ser ordenados en una escala que se extiende de bajo a alto". El término tono se utiliza ampliamente y puede referirse tanto a un parámetro del estímulo (frecuencia fundamental o frecuencia de oscilación glotal) como a una sensación auditiva (la frecuencia percibida de una señal), dependiendo del dominio de aplicación. Las características que describen el tono están correlacionadas con las características de croma y harmonicidad.

La frecuencia fundamental es la frecuencia más baja de una serie armónica y es una aproximación gruesa del tono psicoacústico. La estimación de la frecuencia fundamental emplea una amplia gama de técnicas, como autocorrelación temporal, métodos espectrales y cepstrales, y combinaciones de estas. El estándar MPEG-7 propone un descriptor para la frecuencia fundamental definido como el primer pico de la función de autocorrelación espectro-temporal normalizada local.

El histograma de tono describe el contenido de tono de una señal de manera compact. Se ha introducido para la clasificación de géneros musicales. En el análisis musical, el tono generalmente corresponde a notas musicales. El histograma de tono es una representación global que agrega la información de tono de varios fotogramas de audio cortos. En consecuencia, representa la distribución de las notas musicales en una pieza musical.

El tono psicoacústico modela la percepción humana del tono. Un método para modelarlo aplica primero un filtro paso banda a la señal de entrada para enfatizar las frecuencias relevantes para la percepción del tono. Luego, la señal se descompone con un banco de filtros gammatone que modela la selectividad de frecuencia de la cóclea. Para cada subbanda, un modelo de célula ciliada interna transforma las amplitudes instantáneas en probabilidades de disparo continuas. Se calcula una función de autocorrelación continua a partir de las probabilidades de disparo en cada subbanda. Las funciones de autocorrelación resultantes se suman a través de los canales para obtener la característica final. A diferencia de otras técnicas de detección de tono, la salida de este algoritmo es una serie de valores en lugar de un único valor de tono. Estos valores representan un rango de frecuencias relevantes para la percepción del tono, reconociendo que una única frecuencia de tono no es suficiente para aproximar la percepción de tono de sonidos complejos.

El Croma Musical: Octava Invariante

Según Shepard, la sensación de tono musical puede caracterizarse por dos dimensiones: la altura del tono y el croma. La dimensión de la altura del tono se divide en las octavas musicales. El rango del croma se divide generalmente en 12 clases de tono, donde cada clase de tono corresponde a una nota del temperamento igual de 12 tonos. Por ejemplo, la clase de tono Do contiene todos los Dos de todas las octavas posibles (Do₀, Do₁, Do₂, ...). Los tonos (notas musicales) de la misma clase de tono comparten el mismo croma y producen una sensación auditiva similar. Las representaciones basadas en el croma se utilizan principalmente en el análisis y la recuperación de información musical, ya que proporcionan una representación de la señal invariante a la octava.

El cromagrama es un espectrograma que representa la energía espectral de cada una de las 12 clases de tono. Se basa en un espectro de Fourier de tiempo corto logaritmizado. Las frecuencias se mapean (cuantizan) a las 12 clases de tono mediante una función de agregación. El resultado es un vector de 12 elementos para cada fotograma de audio. El cromagrama mapea todas las frecuencias en una octava, lo que resulta en una compresión espectral que permite una descripción compacta de señales armónicas. Las series armónicas grandes pueden representarse por solo unos pocos valores de croma, ya que la mayoría de los armónicos caen dentro de la misma clase de tono. El cromagrama representa un espectrograma (comprimido) invariante a la octava que tiene en cuenta las propiedades de la percepción musical.

Las características CENS (Chroma Energy Distribution Normalized Statistics) son otra representación del croma, robustas contra variaciones de tempo y diferentes timbres, lo que las hace adecuadas para comparar diferentes interpretaciones de la misma pieza musical.

El perfil de tono es una representación más precisa del contenido de tono que las características de croma tradicionales. Tiene en cuenta la desafinación del tono (introducida por instrumentos desafinados) y es robusto contra sonidos percusivos ruidosos (por ejemplo, sonidos de tambores que no tienen tono). El perfil de tono se aplica en la detección de tonalidad musical y supera a las características de croma tradicionales en esta tarea.

Tabla Comparativa de Características Perceptuales Clave

A continuación, presentamos una tabla simple que resume algunas de las características perceptuales discutidas, basadas en la información proporcionada:

Característica	Descripción Principal	Relacionado Con
Brillo	Dominancia de altas vs. bajas frecuencias	Nitidez, Centro Espectral
Tonalidad	Distinción entre sonidos tipo ruido y tonales	Fuerza del tono, Planitud Espectral, Ancho de Banda
Volumen	Sensación de suave a fuerte	Intensidad física, Sonoridad Específica, Sonoridad Integral
Tono	Sensación de bajo a alto	Frecuencia Fundamental, Tono Psicoacústico, Croma
Croma	Clase de tono musical (invariante a la octava)	Tono, Series Armónicas, Notas Musicales

Preguntas Frecuentes sobre Frecuencias Perceptuales

¿Qué es el brillo en el sonido?: El brillo describe si un sonido tiene más energía en frecuencias altas (brillante) o bajas (opaco). Se relaciona con la nitidez y se aproxima comúnmente mediante el centro espectral.
¿Cómo se mide la tonalidad?: La tonalidad, que distingue tonos de ruido, se mide a menudo mediante características como la planitud espectral (qué tan uniforme es el espectro) o el ancho de banda (qué tan disperso está el espectro alrededor de su centro), entre otras.
¿Qué es la frecuencia fundamental?: Según el texto, la frecuencia fundamental es la frecuencia más baja de una serie armónica. Es una aproximación básica del tono percibido de un sonido complejo.
¿Qué son los armónicos según este texto?: El texto menciona los armónicos como componentes de una serie armónica que se construye sobre una frecuencia fundamental. Los tonos complejos pueden tener un gran número de armónicos. En el contexto del croma, las series armónicas grandes pueden representarse de forma compact porque la mayoría de los armónicos caen dentro de la misma clase de tono.
¿Qué es el croma musical?: El croma es una dimensión del tono musical que se refiere a la clase de tono (como Do, Re, Mi, etc.), independientemente de la octava en la que se encuentre. Permite comparar notas que suenan 'igual' pero están en diferentes rangos de frecuencia.
¿Qué diferencia hay entre volumen e intensidad física?: La intensidad física es una medida objetiva de la energía del sonido. El volumen es la sensación perceptual subjetiva de 'suave' a 'fuerte' que experimentamos, influenciada por la intensidad física pero también por cómo nuestro oído y cerebro procesan el sonido a diferentes frecuencias e intensidades.

Comprender estas características perceptuales nos ofrece una visión más profunda de la rica y compleja naturaleza del sonido. Nos ayuda a apreciar cómo las propiedades físicas de las ondas sonoras se traducen en las cualidades que percibimos, desde el brillo de un platillo hasta la tonalidad clara de una voz o el volumen de una orquesta. Estas características son fundamentales no solo para nuestra experiencia auditiva diaria, sino también para el desarrollo de tecnologías de procesamiento de audio que buscan interactuar con el sonido de una manera más humana y significativa.

Si quieres conocer otros artículos parecidos a Características Perceptuales del Audio puedes visitar la categoría Audio.