El nuevo «test» para descubrir si un modelo de IA o no es verdaderamente inteligente: ponerle a jugar a Pokémon

0
114

El
psicólogo
suizo
Jean
Piaget
tenía
una
definición
de
inteligencia
especialmente
interesante.
Él
decía
que «la
inteligencia
es
lo
que
usas
cuando
no
sabes
qué
hacer».
Ese
puede
ser
un
elemento
clave
de
una
nueva
tendencia
para
medir
la
capacidad
de
la
inteligencia
artificial.
Una
que
pone
a
la
IA
a
jugar
a
Pokémon.


¿Cómo
de
inteligente
es
la
inteligencia
artificial?

Ya
hay
pruebas
que
permiten
valorar
la
capacidad
de
la
IA
a
la
hora
de
resolver
problemas
científicos,
matemáticos
o
de
programación.
Todo
eso
ayuda
a «medir»
el
progreso
de
estos
modelos,
pero
frente
a
todas
esas
técnicas
hay
una
idea
singular:
la
de
medir
la
citada
capacidad
de
la
IA
jugando
a
Pokémon.


Claude
inició
la
tendencia
.
Los
responsables
de
Anthropic
tuvieron
la
ocurrencia
de
probar

cómo
se
comportaría
su
modelo
de
IA,
Claude
3.7,
al
jugar
a
Pokémon
Red
.
Así
que
hicieron
uso
de
su
herramienta
de
navegación
automática
para
ver
cómo
utilizaba
sus
capacidades
para
ir
jugando
al
videojuego.
Crearon

un
canal
de
Twitch

e
incluso
hay
un
seguimiento
de
cómo
le
está
yendo

en
Reddit
.


Y
ahora
Gemini
Pro
recoge
el
guante
.
Un
desarrollador
que
no
tiene
afiliación
alguna
con
Google
ha
decidido
aplicar
la
misma
idea,
pero
con
Gemini
Pro
2.5
Experimental
como
modelo
de
IA
para
probarla.

En
su
canal
de
Twitch

está
mostrando
una
partida
de
Pokémon
Blue
(era
el
que
conocía
más
este
desarrollador)
ejecutándose
en
un
emulador
de
la
Game
Boy
Advance.


¿Quién
gana?

De
momento
Gemini
Pro
2.5
Experimental
parece
estar
haciéndolo
algo
mejor.
Claude
se
quedó
atascado
en
una
fase
de
juego

un
par
de
veces
,
por
ejemplo,
lo
que
ha
obligado
a
volver
a
iniciar
sus
partidas.
Gemini
parece
estar
avanzando
sin
tantos
problemas,
aunque
no
juega
de
la
misma
manera
que
Claude
y
por
ejemplo
tiene
acceso
a
un
minimapa
que
según
su
creador
compensa
una
de
las
limitaciones
de
Gemini,
que
no
cuenta
con
herramientas
de
navegación
automática
como
Claude.

Captura De Pantalla 2025 04 16 A Las 11 54 48


Por
qué
Pokémon
para
la
Game
Boy
.
La
versión
de
Pokémon
para
la
Game
Boy
Advance
que
se
está
usando
en
estos
experimentos
es
perfecta
para
evaluar
esas
capacidades
de
los
LLM
por
varias
razones.
Por
ejemplo,
se
trata
de
un
videojuego
por
turnos,
lo
que
permite
a
la
IA «pensar»
su
siguiente
movimiento.
Pero
además
es
un
juego
gráficamente
simple,
lo
que
hace
más
sencillo
para
estos
modelos «ver»
la
pantalla
y
entender
lo
que
pasa
en
cada
momento
sin
que
eso
sea
muy
costoso
a
nivel
de
recursos.


Un
benchmark
sorprendentemente
útil
.
Esta
forma
de
evaluar
lo
inteligente
que
es
una
IA
puede
ser
tan
reveladora
como
las
pruebas
de
programación
o
de
matemáticas.
O
más,
incluso.
Si
alguien
le
da
a
un
niño
de
10
años
una
Nintendo
Switch,
ese
niño
aprenderá
a
jugar
a
cualquier
juego
en
minutos.
Sin
embargo
las
IAs
suelen
tenerlo
especialmente
difícil
en
este
escenario,
y
acaban
ejecutando
movimientos
ilegales.


Nada
de
memorización
.
Muchos
de
los
benchmarks
utilizados
para
medir
la
capacidad
de
los
modelos
de
IA
se
basa
en
su «memoria».
Cuando
resuelven
un
problema
es
normalmente
porque
la
solución
forma
parte
de
su
conjunto
de
datos
de
entrenamiento,
o
ya
había
un
problema
similar
solucionado
y
que
pueden «replicar»
o «regurgitar».
En
esta
aproximación
la
propuesta
es
algo
diferente,
y
exige
cierta
capacidad
de
adaptación
a
los
modelos
de
IA.


ARC-AGI
y
el
juego
Snake
.
En
febrero
la
ARC
Prize
Foundation,
que
desarrolla
un
benchmark
igualmente
llamativo
para
modelos
de
IA,

experimentó
con
otro
videojuego

sencillo:
una
versión
del

mítico
Snake

que
enfrentaba
a
diversos
modelos
de
IA
para
ver
cómo
se
comportaban.
Los
modelos
de
razonamiento
fueron
los
claros
ganadores
(el
78%
de
victorias),
y
de
nuevo
esto
les
mostró
la
relevancia
de
este
tipo
de
videojuegos
para
mejorar
los
modelos
de
IA
en
el
futuro.


La
IA
aprende
a
adaptarse
.
Como
veníamos
diciendo,
este
tipo
de
benchmarks
son
especialmente
interesantes
porque
nos
permiten
comprobar
si
un
modelo
de
IA
es
capaz
de
adaptarse
a
nuevas
situaciones
y
retos
y
de
superarlas.
Es
algo
que
empresas
como
DeepMind
llevan
tiempo
haciendo
con
algunos
de
sus
desarrollos,
y
sin
duda
es
una
alternativa
interesante
que
explorar
para
los
desarrolladores
de
estos
modelos.

En
Xataka
|

He
usado
Claude
3.7
durante
horas.
Es
lo
más
cercano
a
un
cerebro
humano
que
he
sentido
con
una
IA