En los años 60, los científicos descubrieron que las ballenas jorobadas no sólo hacían ruidos, sino que ‘cantaban’. Y, desde entonces, esas canciones han suscitado el interés de investigadores y público. Sin embargo, el significado de los singulares patrones y estructuras de la mismas han sido un misterio.
Por ello el año pasado Google AI decidió unir fuerzas con la NOAA (Agencia Nacional Oceánica y Atmosférica de EE.UU.) y recurrir a la inteligencia artificial para comprender mejor los motivos del canto de las ballenas jorobadas que nadan en aguas hawaiianas. Y es que, si bien otras ballenas (como las azules) cuentan con llamadas relativamente fáciles de reconocer a partir de unos pocos ejemplos, la vocalización de las jorobadas es extremadamente variable.
Tanto, que los científicos hablan de canciones compuestas de «frases», que van intercambiando su orden o incorporando nuevos sonidos con el tiempo; a lo que se suma que distintas poblaciones de ballenas parece usar canciones diferentes. Esto no representa un reto únicamente para los humanos: ¿cómo enseñarle a un algoritmo a reconocer una canción de ballena cuando éstas destacan por su gran variabilidad?
‘Pattern Radio: Whale Songs’
Durante los últimos 14 años, uno de los centros científicos de la NOAA en la zona ha grabado más de 170.000 horas de grabaciones (en las que el sonido de las ballenas se mezcla con los de peces, barcos e incluso fuentes de origen desconocido), de las cuales 8.000 fueron seleccionadas para subirlas al sitio web Pattern Radio: Whale Songs.
Dicha web permite a los navegantes explorar visualmente y repasar todas esas horas de audio (que se muestran con forma de espectrograma) para ayudar a identificar cantos no detectados previamente, al tiempo que la IA integrada facilita la exploración del material y ayuda a destacar los elementos que considera más relevantes.
Si el usuario entiende que necesita más contexto para poder interpretar lo que está oyendo, la web ofrece ‘visitas guiadas’ por expertos de ámbitos como la oceanografía, la bioacústica, la informática o la música.
La idea es facilitar que todos puedan escuchar los audios recopilados, y compartir con otros el enlace a fragmentos concretos si estos resultan ser de interés. Los usuarios notarán que pueden hacer zoom en el espectrograma, y que al reproducir ciertos sonidos la visualización resalta otros similares.
Bajo el espectrograma se muestra un mapa de calor, en el que las barras más brillantes indican los lugares donde el modelo de machine learning ‘confía’ en un mayor grado en que lo que suena sea una canción de ballena. Es habitual encontrar barras más claras cuando mayor es la concentración de ballenas en Hawaii (es decir, en los meses de invierno).
En un primer momento, el sistema analizó datos etiquetados de los cantos de ballena usando una arquitectura de red neuronal convolucional ResNet-50, muy usada en la clasificación de imágenes y que ha demostrado ser muy útil en la clasificación de audio sin voz (al fin y al cabo, representable como una imagen en forma de espectrograma).
Más tarde se optimizaron las cifras de detección recurriendo al aprendizaje no supervisado, donde era el propio sistema quien establecía qué patrones valorar a la hora de diferenciar sonidos.
Vía | News Cornell
Imagen | Christopher Michel