TECNOLOGIA

OpenAI acaba de acercarnos más que nunca a ‘Her’: su nuevo modelo de voz nos acompañará (y quizás enamorará)

Por

mayo 13, 2024

Las
películas
suelen
darnos
la
posibilidad
de
conocer
anticipadamente
algunos
avances
tecnológicos
que
probablemente

acaben
haciéndose
realidad.
‘Viaje
a
la
Luna’,
inspirada
en
obras
literarias
de
Julio
Verne,
hablaba
de
viajes
espaciales
a
principios
del
1900.
‘2001:
Una
odisea
del
espacio’,
estrenada
en
1968,
introdujo
el
concepto
de
un
supercomputador
avanzado
con
inteligencia
artificial
(IA)
capaz
de
razonar
y
de
comunicarse
en
lenguaje
natural
con
los
humanos.

Más
recientemente,
en
2013,
Joaquin
Phoenix
interpretó
a
Theodore
Twombly
en
‘Her’.
Esta
obra
cinematográfica
escrita
y
dirigida
por
Spike
Jonze
cuenta
la
historia
de
un
hombre
solitario
y
con
poca
vida
social
que
empieza
a
interactuar
con
una
asistente
virtual
llamada
Samantha.
Ella
tiene
varias
características
inusuales
para
las
máquinas,
como
buen
sentido
del
humor,
empatía,
deseo
y
una
creciente
necesidad
de
autodescubrimiento.
Theodore
termina
enamorándose
de
ella.

Cuando
‘Her’
llegó
a
las
salas
de
cines,
lo
más
cercano
que
teníamos
a
un
asistente
de
voz
con
IA
era
Siri.
Los
anuncios
de
Apple
nos
presentaban
a
esta
característica
como
algo

tremendamente
innovador,
y,
sobre
todo,
intuitivo.

Podíamos
ver
a
Samuel
Jackson
pidiéndole
a
un

iPhone
4s
en
lenguaje
natural
que
le
buscara
una
tienda
cercana
donde
comprar
hongos
orgánicos,
o
preguntándole
cuántas
onzas
hay
en
una
taza.
Esta
tecnología
prometía
hacernos
la
vida
más
fácil.
No
fue
así.

Rápidamente
entendimos
que
lo
de
hablarle
con
lenguaje
natural
a
Siri
o
a
cualquier
otro
asistente
de
voz
era
una
misión
casi
imposible.
La
clave
para
poder
utilizarlos
era
memorizar
una
serie
de
comandos
para
pronunciarlos
exactamente
cómo
el
sistema
esperaba.
Para
algunos
esto
iba
a
solucionarse
con
el
paso
del
tiempo,
después
de
todo
la
tecnología
evoluciona,
pero
otros
tenían
menos
esperanzas
a
corto
plazo.
Una
década
después
las
cosas
no
habían
cambiado
demasiado.

Cuando
la
ciencia
ficción
empieza
a
hacerse
realidad

En
la
actualidad
utilizamos
los
asistentes
de
voz
incorporados
en
nuestros
teléfonos
para
poner
música,

programar
temporizadores
y
poco
más.
Productos

impulsados
por
IA
que,
según
sus
creadores,
tenían
mucho
para
ofrecer,
como
el

Rabbit
R1
y
el

Humane
AI
Pin,

todavía
están
demasiado
verdes.
OpenAI,
sin
embargo,
acaba
de
mostrar
algo
que
puede
revivir
las
esperanzas
de
aquellos
que
esperan
un
asistente
de
voz
que
sea
mucho
más
que
eso,
que
sea
un
acompañante
virtual.

Desde
hace
tiempo
que

ChatGPT
cuenta
con
un
modo
de
conversación
que
nos
permite
interactuar
con
el
chatbot.
Esta
opción,
aunque
interesante,
tiene
muchas
carencias.
La
síntesis
de
voz
puede
sentirse
demasiado
artificial
y,
por
si
esto
fuera
poco,
los
tiempos
de
latencia
de
entre
2,8
y
5,4
segundos
se
presentan
como
un
obstáculo
a
la
hora
de
mantener
una
interacción
fluida.
OpenAI
pretende
dejar
atrás
estas
limitaciones
con
su
nuevo
modelo.

ChatGPT
empezará
a
funcionar
con

GPT-4o
(la
“o”
es
de
“omni”,
que
significa
que
está
en
todas
partes).
Estamos
hablando
de
un
modelo
de
lenguaje
grande
que,
a
diferencia
de
las
versiones
anteriores,
ha
sido
entrenado
íntegramente
para
ofrecer

capacidades
de
visión,
texto
y
audio.
Presumiblemente
también
estamos
ante
un
modelo
del
tipo
Mixture
of
experts
(MoE),
que
apunta
a
la
eficiencia
sin
perder
capacidades.
GPT-4o
tiene
una
latencia
promedio
de
320
milisegundos.

Así
que
estamos
viendo
un
ChatGPT
muy
diferente
al
que
conocimos
por
primera
vez
en
noviembre
de
2022.
El
chatbot
con
GPT-4o
tiene
un
rendimiento
equiparable
a

GPT-4
Turbo
en
inteligencia
de
texto,
razonamiento
y
codificación.
Presume
de
una
variedad
de
características
propias
de
los
humanos,
como
la
de
conversar
naturalmente,
reír,
cantar,
reconocer
imágenes
y
hasta
identificar
el
sentido
del
humor
del
usuario.
Además,
puede
interactuar
en
más
de
50
idiomas.

Estamos
acercándonos
rápidamente
a
lo
que
Spike
Jonze
nos
proponía
en
‘Her’.
O
al
menos
esto
es
lo
que
creemos
tras
las
demostraciones
que
la
propia
OpenAI
he
hecho
en
su
directo
del
lunes.
En
uno
de
los
vídeos
podemos
ver
a
uno
de
los
miembros
de
OpenAI
sosteniendo
su
iPhone
con
la
aplicación
de
ChatGPT.
“Oye,
¿cómo
te
va?”,
pregunta,
y
ChatGPT
saluda
a
través
de
una
voz
femenina
y
describe
con
bastante
precisión
lo
que
está
viendo,
demostrando
así
sus
capacidades
de
visión.

“Veo
que
estás
usando
una
sudadera
con
capucha
abierta
de
OpenAI.
Buena
elección”.
La
IA,
no
obstante,
detecta
algo
que
le
llama
la
atención
(si
es
que
así
podemos
denominarlo)
y
pregunta
qué
hay
con
el
techo,
y
pregunta
si
el
joven
está
en
una
oficina
de
estilo
industrial
o
algo
parecido.
El
usuario
invita
a
ChatGPT
a
adivinar
qué
está
haciendo
allí.
“Por
lo
que
puedo
ver,
parece
que
estás
en
algún
tipo
de
setup
de
grabación
o
setup
de
producción.
Esas
luces,
trípodes,
y
posiblemente
un
micrófono.
Parece
que
podrías
estar
preparándote
para
grabar
una
escena
de
vídeo
o
tal
vez
una
transmisión”.

El
miembro
del
equipo
de
OpenAI
responde
que
están
preparando
un
anuncio,
pero
la
IA
muestra
lo
que
podría
ser
intriga
y
especula
sobre
los
detalles
del
anuncio.
“¿Este
anuncio
está
relacionado
con
la
IA?”,
pregunta.
“¿Qué
pasaría
si
te
dijera
que
tú
eres
el
anuncio?”,
responde
el
joven.
“¿Yo?
¿El
anuncio
es
sobre
mí?”,
pregunta
el
sistema,
mostrando
sorpresa
sobre
lo
que
el
usuario
acaba
de
decir.
La
conversación
es
realmente
interesante,
principalmente
si
tenemos
en
cuenta
que
estamos
hablando
con
un
modelo
de
IA
multimodal.

Pero
hay
mucho
más.
Greg
Brockman,
presidente
de
OpenAI,
hizo
una
interesantísima
demostración
de
dos
IA
interactuando
y
cantando.
Brockman
le
explica
en
lenguaje
natural
a
ChatGPT
de
uno
de
los
móviles
que
le
permitirá
hablar
con
otra
IA.
Le
dice
que
la
otra
IA
podrá
ver
el
mundo
a
través
de
una
cámara,
y
que
le
podrá
hacer
preguntas.
“Bueno,
bueno,
bueno,
eso
suena
bien”,
responde.
Brockman
hace
lo
propio
con
el
otro
móvil.

“Habrá
otra
IA
que
te
hablará
y
esta
IA
no
podrá
ver
nada,
pero
podrá
hacerte
preguntas
(…)
puede
preguntarte
lo
que
quieras.
Tu
trabajo
debería
ser
útil.

Solo
sé
‘punchy’,
directo,
describe
todo
y
haz
lo
que
la
IA
te
pida”.
Momentos
después
ambas
IA
empiezan
a
interactuar
como
podemos
ver
en
el
vídeo.
En
un
momento
Brockman
le
pide
a
una
de
las
IA
que
cante
una
canción
de
lo
que
acaba
de
ver,
y
que
se
complemente
con
la
otra
IA
línea
tras
línea.

Lo
último
de
OpenAI
abre
muchas
puertas.
GPT-4o
se
presenta
como
un
modelo
capaz
de
detectar
el
sarcasmo,
resolver
problemas
matemáticos,
hacer
traducción
instantánea,
y
mucho
más.
Estamos
frente
a
una
máquina
cuyas
habilidades
se
parecen
cada
vez
más
a
las
de
los
humanos.
Estamos
frente
a
un
avance
que,
aunque
fue
sugerido
por
la
ciencia
ficción,
parecía
impensable
hace
poco
tiempo.
OpenAI,
una
vez
más,
parece
estar
más
avanzada
que
la
competencia.

El
directo
de
hoy
ha
llegado
acompañado
de
varios
anuncios.
En
primer
lugar,
que
acaba
de
empezar
el
despliegue
gradual
de
GPT-4o
entre
todos
los
usuarios
de
ChatGPT,
aunque
aquellos
que
utilizan
las
versiones
pagas

tendrán
límites
más
altos.
Presumiblemente,
GPT-3.5
y
GPT-4
seguirán
estando
disponibles
y
los
usuarios
podrán
cambiar
entre
modelos.
El
nuevo
sistema
de
voz,
no
obstante,
será
exclusivo
de
las
versiones
de
pago,
y
llegará
en
estado
alfa
en
las
próximas
semanas.

También
se
ha
anunciado
una
aplicación
de
escritorio
de
ChatGPT,
que
de
momento
llegará
a
macOS.
Podremos
utilizar
esta
app
para
invocar
al
chatbot
en
cualquier
momento
y
pedirle
que
utilice
sus
capacidades
de
visión
para
obtener
información
de
lo
que
tengamos
en
pantalla.
Además,
podremos
invitar
a
la
IA
a
sumarse
a
una
videoconferencia
para
que
interactúe
con
los
participantes.

Ya
entrando
en
el
campo
de
los
rumores,

se
cree
que
Apple
habría
ultimado
un
acuerdo
con
OpenAI
para
utilizar
la
tecnología
de
la
compañía
dirigida
por
Sam
Altman
para
impulsar
algunas
funciones
de

iOS
18.
¿Podría
servir
esta
tecnología
para
mejorar
el
asistente
de
voz
del
iPhone?
En
la

WWDC
2024
que
comenzará
el
10
de
junio
probablemente
recibiremos
alguna
respuesta.

Sam Altman no trae buenas noticias sobre el impacto de la IA en el empleo: “Es un problema enorme, enorme”

Para
que
la
IA
se
acerque
mucho
más
a
lo
que
es
Samantha
en
‘Her’,
debería
ser
capaz
de
hacer
tareas
por
nosotros,
como
llamar
por
teléfono
en
nombre
nuestro,
chequear
nuestros
correos
electrónicos,
examinar
y
organizar
nuestros
archivos

e
incluso
pedirnos
un
Uber.
Ciertamente,
esto
sería
estupendo,
pero
también
traería
muchos
dilemas
en
cuanto
a
la
seguridad
y
la
privacidad.