TECNOLOGIA

Una foto fija y un clip de audio: todo lo que necesitas para crear vídeo hiperrealistas gracias esta IA desarrollada por Microsoft

Por

abril 18, 2024

Y
si
no
era
suficiente
con
que
hoy
Meta
hubiera
lanzado
su
nuevo
modelo
de
IA
rival
de
GPT,
ahora
sabemos
también
que
los
investigadores
de
Microsoft
han
estado
desarrollando
un
nuevo
modelo
de
IA,
VASA-1,

capaz
de
crear
avatares
hiperrealistas
a
partir
de
una
imagen
estática
y
un
clip
de
voz…
una
noticia
que
destaca
no
sólo
a
nivel
técnico,
sino
por
sus
potenciales
implicaciones
sociales.

Pero
no
sólo
estamos
ante
una
IA
capaz
de
crear
vídeos
en
los
que
las
expresiones
faciales
y
los
movimientos
de
los
labios
están
sincronizados
de
manera
realista
con
el
audio
proporcionado
(ya
hay
varias
capaces
de
hacer
eso),
sino
que
VASA-1
también

captura
emociones
y
movimientos
naturales
de
la
cabeza.

Esto
añade
una
capa
adicional
de
realismo
a
los
vídeos
generados,
ya
que
los
personajes
pueden
expresar

una
gama
más
amplia
de
emociones
y
reacciones
más
naturales.

Sumemos
a
eso
que
los
usuarios
de
VASA-1
tienen
la
capacidad
de
manipular
varios
aspectos
del
vídeo
generado,
como
la

dirección
de
la
mirada
del
personaje,
la
distancia
percibida
y
el
estado
emocional;
todo
ello
permite
personalizar
los
videos
para
adaptarlos
a
necesidades
específicas
o
efectos
deseados.

Y
no
menos
importante:
VASA-1
es
eficiente
para
usos
en
tiempo
real
que
requieran
respuesta
inmediata
y
alta
calidad
de
imagen,
siendo
capaz
de
generar

vídeos
de
alta
resolución
(512×512
píxeles)

a
velocidades
de
fotogramas
muy
altas
(hasta
45
fps
en
modo
offline
y
40
fps
online).

Así de increíble ha sido la evolución de la IA para generar vídeos en solo un año: Sora vuelve a repetir lo que hizo ChatGPT

Buenos
y
malos
usos

Algunos
medios
estadounidenses
han
expresado
su
preocupación
por
el
momento
elegido
para
lanzar
esta
IA,
«justo
antes
de
las
elecciones»,
en
referencia
a
las
presidenciales
estadounidenses
(parecen
olvidar
que
siempre
hay
elecciones
en
algún
otro
lugar
del
mundo).

Y
es
que,
como
ocurre
desde
que
empezaron
a
lanzarse
los
primeros
deepfakes,
se
teme
que
esta
tecnología
pueda
ser
mal
utilizada
(para
generar

contenido
desinformador
y
extremadamente
difícil
de
distinguir
de
vídeos
reales).

Sin
embargo,
los
investigadores
que
han
creado
VASA-1
también
destacan
las

aplicaciones
positivas
del
modelo:

En

educación,
podría
mejorar
la
experiencia
de
aprendizaje
mediante
tutores
virtuales
que
interactúan
de
manera
más
natural
con
los
estudiantes.
En
el

ámbito
de
la
salud,
podría
ofrecer
compañía
y
apoyo
emocional
a
personas
con
problemas
de
comunicación
o
aislamiento
social.
Esta
tecnología
tiene
potencial
para
mejorar
la

accesibilidad,
proporcionando
avatares
que
pueden
actuar
como
intérpretes
para
personas
con
discapacidad
auditiva.