Unos
investigadores
de
la
Universidad
de
California
afirman
que
dos
modelos
de
lenguaje
—GPT-4.5
y
LLaMa-3.1-405B—
han
superado
el
Test
de
Turing,
la
famosa
prueba
ideada
por
Alan
Turing
para
evaluar
la ‘humanidad’
de
la
inteligencia
artificial.
Pero,
¿eso
significa
que
estamos
frente
a
un
verdadero
salto
en
la
cognición
de
la
IA?
¿O
es
un
mero
indicador
de
un
experimento
mal
diseñado
y/o
ejecutado?
La
idea
original
Hace
75
años,
Alan
Turing
propuso
su
test
como
un
experimento
para
determinar
si
las
máquinas
podían
ser
consideradas ‘inteligentes’.
En
esta
prueba,
un
interrogador
humano
interactúa
simultáneamente
con
un
humano
y
una
máquina
a
través
de
una
interfaz
de
texto,
y
debe
identificar
cuál
de
los
dos
es
el
humano.
Si
la
máquina
logra
engañar
al
interrogador,
se
considera
que
ha
pasado
la
prueba.
Aunque
esta
idea
ha
sido
objeto
de
intensos
debates
y
múltiples
intentos
a
lo
largo
de
las
décadas,
hasta
ahora
ningún
sistema
había
logrado
superar
este
desafío
en
su
formato
original.
El
experimento
Pero
el
estudio
que
nos
ocupa,
desarrollado
por
Cameron
R.
Jones
y
Benjamin
K.
Bergen,
sometió
a
varios
LLMs
(los
dos
ya
mencionados,
junto
a
ELIZA
y
GPT-4o)
a
una
versión
rigurosa
del
test
original.
Así,
se
basó
en
conversaciones
simultáneas
de
cinco
minutos
entre
un
interrogador
humano,
otro
humano
y
un
modelo
de
IA,
a
través
de
una
interfaz
de
chat.
La
sorpresa
fue
que,
en
muchos
casos,
los
interrogadores
eligieron
a
la
IA
como
el
interlocutor
humano.
Cuando
a
los
chatbots
se
les
dotó
de
una «personalidad»
específica
(la
de
jóvenes
introvertidos
interesados
en
la
cultura
de
internet),
el
modelo
GPT-4.5
fue
identificado
como
humano
en
el
73%
de
los
casos,
mientras
que
LLaMa-3.1
alcanzó
un
56%
(de
nuevo,
cuando
se
le
dotó
de ‘personalidad’)…
…mientras
que,
cuando
esos
mismos
modelos
carecían
de ‘personalidad’
añadida,
lograron
tasas
mucho
más
bajas
(36%
y
38%,
respectivamente).
Los
otros
dos
modelos,
que
sólo
fueron
probados ‘sin
personalidad’,
obtuvieron
tasas
significativamente
inferiores
al
mero
azar
(un
21%
GPT-4o,
y
un
23%
ELIZA).
¿Es
el
Test
de
Turing
a
prueba
de
perezosos?
Sin
embargo,
este
resultado
ha
sido
recibido
con
reservas:
un
análisis
más
detallado
de
las
conversaciones,
(que
los
propios
autores
han
hecho
públicas),
revela
interacciones
muchas
veces
banales
y
poco
inquisitivas,
en
las
que
predominan
preguntas
simples
sobre
programas
de
televisión
favoritos
o
actividades
diarias.
Un
comentarista
de
Hacker
News
sintetizó
así
qué
opinaba
tras
leer
las
conversaciones:
«Los
participantes
no
intentaron
realmente
desenmascarar
a
una
IA.
Querían
su
crédito
académico
y
listo».
Otros
señalan
que
el
problema
podría
haber
sido
otro:
que
la
predisposición
a
tratar
a
los
interlocutores
con
cortesía
o
evitar
preguntas
incómodas
pudo
haber
favorecido
a
las
IA.
Ambas
críticas
plantea
un
debate
crucial:
si
los
interrogadores
no
aplican
estrategias
verdaderamente
desafiantes,
¿es
válido
decir
que
los
modelos ‘engañaron’
a
humanos?
Aquí
se
reabre
un
debate
filosófico
sobre
la
naturaleza
del
test
de
Turing.
¿Debe
ser
una
prueba
donde
los
humanos
hagan
todo
lo
posible
por
detectar
a
la
máquina,
o
basta
con
que
el
modelo
no
se
destaque
como
artificial
en
una
conversación
típica?
Algunos
usuarios
argumentan
que
si
se
exige
un
interrogatorio
extremadamente
sofisticado
(como
pedir
explicaciones
de
chistes
o
razonamiento
lógico
profundo)
estamos
alejándonos
del
test
de
Turing
y
acercándonos
más
a
un
test
de
IA
general
(AGI).
Sin
embargo,
como
sostienen
otros
usuarios,
asumir
un
criterio
menos
exigente
pone
en
duda
la
relevancia
de
este
famoso
test,
porque «siempre
se
puede
engañar
a
un
humano
lo
suficientemente
perezoso».
60
años
confundiendo
personas
y
chatbots
Muchos
participantes
afirmaron
haberse
guiado
por ‘corazonadas’,
antes
que
por
el
análisis
lógico,
las
estrategias
más
exitosas
fueron
las
menos
frecuentes:
hacer
afirmaciones
inusuales
o
tratar
de «romper»
al
modelo
con
comandos
propios
de
jailbreaks.
Pero,
¿esta
pereza
es
atribuible
sólo
a
los
participantes
del
experimento,
o
es
algo
más
generalizado
en
la
especie
humana?
Como
medida
de
control,
se
incluyó
ELIZA,
que
ni
siquiera
es
técnicamente
un
LLM,
aunque
sí
el
primer
chatbot
jamás
creado
y
un
ejemplo
de
la
rudimentaria
IA
de
los
años
60.
Sus
datos
fueron
bastante
pobres,
siendo
confundido
con
un
humano
sólo
en
el
23%
de
las
ocasiones.
No
obstante,
el
hecho
de
que
algunos
aún
creyeran
que
este
chatbot
era
humano
evidencia
un
fenómeno
psicológico
conocido
como
el
‘efecto
ELIZA’,
por
el
cual
las
personas
tienden
a
antropomorfizar
a
las
máquinas.
Su
creador,
Joseph
Weizenbaum,
descubrió
hace
ya
casi
60
años
que
incluso
sus
propios
colaboradores
atribuían
inteligencia
y/o
sentimientos
humanos
a
ELIZA:
«No
me
había
dado
cuenta
de
que
las
exposiciones
extremadamente
cortas
a
un
programa
informático
relativamente
simple
podrían
inducir
un
poderoso
pensamiento
delirante
en
personas
bastante
normales».
Una
duda
final
Más
allá
de
debates
metodlógicos,
este
experimento
sigue
planteando
preguntas
relevantes:
si
una
IA
puede
hacerse
pasar
por
un
humano
sin
ser
detectada
—incluso
si
es
sólo
por
un
público
poco
exigente—,
¿qué
riesgos
plantea
esto
a
efectos
de
manipulación
(estafas,
desinformación)
o
de
cara
al
futuro
del
empleo?
Imagen
|
Marcos
Merino
mediante
IA
En
Genbeta
|
Qué
es
el
test
de
la
manzana
y
por
qué
es
muy
útil
para
ver
cómo
de
potente
es
una
inteligencia
artificial