La
Arc
Prize
Foundation,
una
organización
sin
ánimo
de
lucro
cofundada
por
el
investigador
en
IA
Francçois
Chollet,
ha
anunciado
el
lanzamiento
de
ARC-AGI-2,
un
nuevo
conjunto
de
pruebas
que
quieren
servir
para
evaluar
la
capacidad
de
los
modelos
de
IA
de
una
forma
singular.
Y
ahí
está
lo
llamativo
de
estas
pruebas.
Cómo
de
cerca
estamos
de
la
AGI.
Mientras
que
otros
benchmarks
miden
lo
bien
que
las
IAs
resuelven
problemas
matemáticos
o
de
programación,
las
pruebas
diseñadas
por
Chollet
y
su
equipo
tratan
de
evaluar
cómo
de
cerca
estamos
de
una
Inteligencia
Artificial
General
(AGI).
Y
para
ello
hacen
uso
de
pruebas
que
tratan
de
medir
la
capacidad
de
percepción
de
esos
modelos,
porque
precisamente
en
ese
ámbito
es
donde
entra
en
juego
una «vieja»
paradoja.

Con
ARC-AGI-2
los
modelos
que
antes
lograban
resolver
gran
parte
de
los
problemas
ahora
se
atascan,
y
la
métrica
de
la
eficiencia
(coste)
es
una
de
las
claves.
La
paradoja
de
Moravec.
En
1988
el
ingeniero
austríaco
Hans
Moravec
enunció
la
que
se
convertiría
en
la
paradoja
que
lleva
su
nombre.
La
inteligencia
artificial
es
capaz
de
hacer
fácil
lo
difícil,
pero
también
hace
difícil
lo
que
para
los
humanos
es
fácil.
Eso
se
demuestra
en
la
actualidad
con
una
prueba
muy
sencilla:
pon
a
un
modelo
de
IA
generativa
como
ChatGPT,
Claude,
DeepSeek
o
Gemini
a
contar
erres
y
lo
pasará
fatal.
¿Qué
mide
ARC-AGI?
La
idea
tras
las
pruebas
ARC-AGI
es
la
de
medir
la
capacidad
de
los
sistemas
de
IA
para
generalizar,
aprender
y
adaptarse
a
problemas
completamente
nuevos
y
de
los
que
no
se
conoce
la
respuesta.
Hay
mucho
enfoque
en
la
capacidad
de
razonamiento
abstracto
con
puzzles
visuales
en
los
que
la
IA
debe
observar
patrones
en
cuadrículas
de
colores
y
generar
soluciones
basadas
en
esos
patrones.
Además
estas
pruebas
permiten
saber
si
la
IA
puede
resolver
problemas
para
los
que
no
ha
sido
entrenada,
y
también
si
puede
generalizar
extrayendo
reglas
subyacentes
a
partir
de
ejemplos
simples
para
luego
aplicarlas
a
nuevas
situaciones.
No
vale
memorizarlo
todo.
En
otros
tipos
de
benchmarks
la
IA
tiene
la
ventaja
de
que «se
sabe
todo
el
temario
de
memoria«,
y
solo
necesita
aplicar
lo
que
sabe
dando
respuestas
que
incluso
puede
llegar
a
tener
memorizadas.
El
objetivo
aquí
es
razonar
y
extrapolar
como
lo
haría
un
humano,
y
de
ahí
ese
foco
en
evaluar
si
estamos
cerca
de
una
AGI
porque
si
lo
estamos
será
capaz
de
razonar
como
nosotros.
Eso
sí:
que
una
IA
supere
esta
prueba
no
significa
necesariamente
que
haya
alcanzado
la
AGI.

Este
es
uno
de
los
puzzles
visuales
que
deben
resolver
los
modelos
de
IA,
pero
para
esos
modelos
el
problema
es
complejísimo.
Para
los
humanos,
no
tanto.
Intentadlo
😉
ARC-AGI-1
sirvió
durante
un
tiempo.
Los
modelos
de
IA
de
principios
de
2024
se
estrellaban
con
la
primera
versión
de
ARC-AGI,
pero
a
finales
de
año
aparecieron
modelos
de
razonamiento
y
la
cosa
se
puso
interesante.
El
modelo
o1-mini
de
OpenAI
lograba
superar
el
7,80%
de
las
pruebas,
pero
o3-low
logró
el
76%
y
o3-high,
aun
siendo
carísimo,
demostró
llegar
al
87,5%.
Las
máquinas
estaban
a
punto
de
pasar
de
nivel,
y
hacía
falta
una
revisión
de
las
pruebas.
ARC-AGI-2
pone
las
cosas
mucho
más
difíciles
para
la
IA.
Las
nuevas
pruebas
consisten
también
en
problemas
similares
a
puzzles
visuales
que
hacen
que
las
IAs
tengan
que
identificar
patrones
visuales.
Los
modelos
de
razonamiento
como
o1-pro
y
DeepSeek
R1
apenas
superan
el
1,3%
de
ARC-AGI-2,
y
los
modelos
no-razonadores
(GPT-4.5,
Claude
3.7,
Gemini
2.0
Flash)
no
pasan
del
1%.
Y
o3-low,
que
en
la
primera
versión
de
ARC-AGI
lograba
casi
un
76%
de
las
respuestas,
apenas
llega
al
4%
en
ARC-AGI-2
y
lograrlo
cuesta
200
dólares
por
tarea.
Lo
curioso
es
que
de
media
los
seres
humanos
logran
acertar
el
60%
de
las
preguntas,
mucho
más
que
cualquiera
de
los
modelos
actuales.
Podéis «jugar»
a
intentar
resolver
esas
pruebas
en
el
sitio
web
del
proyecto.
Os
aseguramos
que
son
puzzles
singulares
y
que
desde
luego
os
harán
pensar
un
poco.
De
fuerza
bruta,
nada.
En
el
anuncio
los
responsables
de
este
benchmark
explican
que
los
modelos
no
pueden
ahora
recurrir
a
la
fuerza
bruta
para
encontrar
soluciones,
algo
que
era
un
pequeño
problema
en
ARC-AGI-1.
Para
evitarlo
se
introduce
la
nueva
métrica
de
eficiencia,
que
requiere
que
los
modelos
interpreten
lo
que
ven
en
tiempo
real,
que «perciban»,
no
que
respondan
en
base
a
la
memorización.
Los
modelos
de
IA
deben
esforzarse
más.
Mike
Knoop,
uno
de
los
responsables
del
desarrollo
de
estas
pruebas,
explicaba
cómo
ARC-AGI-2
es «el
único
benchmark
que
sigue
sin
haber
sido
superado
por
los
modelos
de
IA
pero
que
sigue
siendo
fácil
para
los
humanos».
En
las
nuevas
pruebas
se
ve
según
él
cómo
los
modelos
de
IA
no
asignan
la
semánica
a
estos
puzzles
—algo
que
los
humanos
hacemos
de
forma
intuitiva—
y
lo
pasan
mal
si
tienen
que
aplicar
simultáneamente
varias
reglas
para
resolver
el
problema.
Pros
y
contras
de
ARC-AGI.
Estas
pruebas
son
desde
luego
un
enfoque
singular
que
permite
tratar
de
evaluar
un
aspecto
de
los
actuales
modelos
de
IA
que
otras
pruebas
no
miden,
pero
hay
un
peligro
aquí:
que
quienes
desarrollan
estos
modelos
los «truquen»
o
personalicen
para
enfocarlos
a
resolver
precisamente
este
tipo
de
puzzles
visuales
aunque
luego
en
otros
tipos
de
generalización
los
modelos
fracasen.
Aun
así
representan
una
forma
llamativa
de
influir
en
el
desarrollo
de
nuevos
modelos
de
IA,
y
una
que
además
es
interesante.
Basta
de
IAs
sabelotodo:
lo
que
queremos
son
IAs
que
razonen
como
lo
hacemos
los
seres
humanos
y
se
adapten
a
situaciones
y
problemas
completamente
nuevos.
Necesitamos
IAs
que
pregunten
cosas
que
nadie
había
preguntado.
La
conversación
sobre
la
IA
en
los
últimos
tiempos
plantea
un
dilema:
las
IAs
tienen
todas
las
respuestas
para
problemas
sencillos,
pero
no
se
preguntan
cosas
que
nadie
había
pensado.
Los
críticos
de
los
actuales
modelos
destacan
cómo
las
IAs
no
generan
nuevo
conocimiento
—no
descubren
nuevos
medicamentos,
nuevos
materiales
o
la
solución
para
la
fusión
nuclear—
sino
que
se
limitan
a
combinar
lo
que
ya
sabemos
para
tratar
de
abrir
nuevos
caminos.
Eso
puede
ayudar
a
los
investigadores
humanos,
pero
no
es
ni
mucho
menos
lo
que
se
espera
de
la
gran
revolución
de
la
IA.
Imagen
|
Joshua
Hoehne



































