Cada
mes
de
junio,
los
focos
de
la
industria
tecnológica
se
dirigen
a
Cupertino:
su
evento
WWDC
(Apple
Worldwide
Developers
Conference)
no
sólo
define
tendencias
de
hardware
y
software,
sino
que
acostumbra
a
marca
una
pauta
cultural
y
económica
en
la
industria
tecnológica.
Este
año,
sin
embargo,
Apple
ha
hecho
algo
poco
habitual
en
la
misma
antesala
del
esperado
evento:
publicar
un
documento
de
investigación.
Un ‘paper’
que
además,
lejos
de
celebrar
avances
en
inteligencia
artificial,
pretende
desmontar
el
optimismo
que
rodea
a
los
modelos
actuales
de
IA
generativa
y
de
razonamiento.
El
artículo,
titulado
«The
Illusion
of
Thinking«,
ofrece
una
revisión
crítica
de
los
denominados
Large
Reasoning
Models
(LRMs),
una
nueva
categoría
de
modelos
de
lenguaje
diseñados
para
simular
procesos
de
razonamiento
humano.
Su
conclusión
es
tajante:
incluso
los
modelos
más
avanzados
colapsan
cuando
se
enfrentan
a
problemas
complejos,
poniendo
en
entredicho
la
idea
de
que
estemos
cerca
de
una
auténtica
revolución
cognitiva
artificial
que
nos
sitúe
a
las
puertas
de
la
AGI.
En
contraste
con
la
visión
crítica
de
Apple,
empresas
como
OpenAI
y
Anthropic
han
hecho
declaraciones
audaces
en
los
últimos
meses.
Sam
Altman
afirmaba
el
pasado
mes
de
septiembre
que
la
AGI
llegará «en
unos
pocos
miles
de
días».
Dario
Amodei,
CEO
de
Anthropic,
fue
más
lejos:
predijo
la
llegada
de
una
AGI
con
capacidades
superiores
a
las
humanas
entre
2026
y
2027.
Sin
embargo,
el
trabajo
de
Apple
ofrece
una
postura
contrapuesta,
en
lugar
de
acercarnos
a
la
AGI,
llevamos
tiempo
afinando
modelos
que
son
cada
vez
más
persuasivos,
pero
no
más
inteligentes.
DESINSTALAR
APPS
al
completo
en
un
Mac
GRATIS
Los
Tutoriales
de
Applesfera
¿Qué
son
los
LRMs
y
por
qué
son
relevantes?
En
los
últimos
dos
años,
hemos
presenciado
una
carrera
acelerada
hacia
la
inteligencia
artificial
general
(AGI),
esa
hipotética
forma
de
IA
capaz
de
realizar
cualquier
tarea
intelectual
humana.
Como
parte
de
esa
evolución,
las
grandes
tecnológicas
han
presentado
modelos
mejorados
que
no
sólo
generan
texto,
sino
que
intentan ‘pensar’
antes
de
responder.
Esto
ha
dado
lugar
al
auge
de
los
Large
Reasoning
Models,
como
Claude
3.7
Sonnet
Thinking
de
Anthropic,
o
los
modelos
de
la
serie ‘o-‘
de
OpenAI,
entrenados
para
desarrollar ‘cadenas
de
pensamiento’
antes
de
emitir
una
respuesta.
Estos
modelos
simulan
un
proceso
reflexivo:
generan
pasos
intermedios,
evalúan
sus
propias
ideas,
descartan
caminos
erróneos
y,
en
teoría,
convergen
hacia
una
solución
más
robusta.
Sin
embargo,
Apple
se
ha
encargado
de
desinflar
este
punto
de
vista.
Las
afimaciones
del
estudio
de
Apple
El
estudio
fue
desarrollado
por
investigadores
de
Apple,
incluyendo
a
Samy
Bengio,
Parshin
Shojaee
e
Iman
Mirzadeh,
y
se
basa
en
una
metodología
rigurosa:
en
lugar
de
utilizar
benchmarks
tradicionales
como
problemas
matemáticos
contaminados
por
datos
de
entrenamiento,
el
equipo
diseñó
entornos
de
rompecabezas
controlados,
donde
es
posible
aumentar
sistemáticamente
la
complejidad
sin
cambiar
la
lógica
interna
del
problema.
Los
resultados
son
reveladores:
-
Tres
fases
de
comportamiento:
a
baja
complejidad,
los
modelos
sin
razonamiento
(LLMs
estándar)
son
más
precisos
y
eficientes;
en
complejidad
media,
los
modelos
pensantes
(LRMs)
obtienen
mejores
resultados
gracias
a
sus
mecanismos
de
reflexión;
pero
en
tareas
altamente
complejas,
ambos
tipos
de
IA
colapsan
y
su
precisión
cae
a
cero. -
Paradoja
de
escalabilidad:
cuando
los
problemas
se
vuelven
más
difíciles,
los
modelos
reducen
—en
lugar
de
aumentar—
su
esfuerzo
de
razonamiento.
Es
decir,
gastan
menos
tokens
en
pensar,
aun
cuando
tienen
presupuesto
computacional
disponible.
Esta
anomalía
sugiere
una
limitación
estructural
en
su
diseño. -
Sobrepensamiento
y
errores:
en
problemas
simples,
los
modelos
a
menudo
llegan
a
una
solución
correcta
rápidamente,
pero
luego
continúan
explorando
alternativas
erróneas.
En
los
de
complejidad
media,
tardan
más
en
encontrar
la
respuesta
correcta.
Y
en
los
complejos,
simplemente
fallan
sistemáticamente.
Este
colapso,
incluso
cuando
se
les
proporcionan
algoritmos
explícitos
para
seguir
paso
a
paso,
indica
que
estos
modelos
no
razonan
de
forma
genuina:
replican
patrones
aprendidos
pero
no
comprenden
ni
internalizan
lógica
ni
causalidad.
«En
la
sección
4.4
del ‘paper’,
tenemos
un
experimento
donde
le
damos
el
algoritmo
de
solución
al
modelo,
y
todo
lo
que
tiene
que
hacer
es
seguir
los
pasos.
Sin
embargo,
esto
no
está
ayudando
en
absoluto
a
su
rendimiento».
La
crítica
a
Apple:
Prudencia
o
confesión
de
debilidad
La
publicación
del
estudio
no
ha
sido
bien
recibida
por
todos.
Stephen
E.
Arnold,
veterano
analista
tecnológico
y
financiero,
sugiere
que
Apple
utiliza
este
trabajo
como
coartada
para
justificar
su
posición
rezagada
en
el
campo
de
la
IA
(y,
previsiblemente,
su
ausencia
de
novedades
en
este
campo
en
el
propio
WWDC).
En
su
análisis,
señala
que
mientras
otras
empresas
ya
ofrecen
asistentes
con
razonamiento
avanzado,
Apple
aún
lidia
con
una
Siri
que
no
ha
mejorado
sustancialmente
desde
hace
años.
Arnold
ve
en
este
estudio
un
intento
de
encubrir
una
reorganización
interna
de
su
equipo
de
IA
y
el
fracaso
de
lanzamientos
previamente
anunciados
como ‘Apple
Intelligence’.
Desde
su
puntos
de
vista,
presentar ‘gráficos
en
tonos
pastel’
y
diagnósticos
técnicos
no
es
una
forma
válida
de
contrarrestar
el
hecho
de
que
los
usuarios
aún
no
tienen
acceso
real
a
innovaciones
palpables
desde
el
ecosistema
Apple.
Una
de
las
críticas
más
virales
provino
del
analista
Pierre
Ferragu,
de
New
Street
Research,
para
quien
el
documento
de
Apple
está
lleno
de «disparates
ontológicos»,
ya
que
intenta
cuantificar
el
razonamiento
humano
—un
fenómeno
inherentemente
subjetivo—
con
métricas
objetivas.
Para
Ferragu,
mientras
el
mundo
se
mueve
hacia
sistemas
de
IA
con
capacidades
cognitivas
emergentes,
Apple
corre
el
riesgo
de
quedarse
atrás
por
adoptar
una
visión
excesivamente
escéptica.
Incluso
cuestionó
la
validez
del
concepto
de ‘colapso
de
precisión‘,
insinuando
que
los
desafíos
planteados
por
Apple
no
reflejan
aplicaciones
reales,
donde
los
modelos
de
lenguaje
han
demostrado
una
utilidad
creciente.
Otras
voces
celebran
el
estudio
de
Apple
El
académico
y
divulgador
Gary
Marcus,
reconocido
por
su
postura
crítica
hacia
los
límites
del
aprendizaje
profundo,
sí
ha
dado
la
bienvenida
al
trabajo
de
Apple
como
un ‘golpe
demoledor’
contra
las
ilusiones
que
rodean
los
modelos
de
IA
actuales.
En
su
blog
Marcus
on
AI,
expone
que
estos
modelos
pueden
simular
razonamiento,
pero
no
son
capaces
de
abstraer
ni
generalizar
fuera
de
su
distribución
de
entrenamiento.
Marcus
advierte
que ‘las
cadenas
de
pensamiento’
generadas
por
los
LRMs
no
siempre
corresponden
con
lo
que
los
modelos
realmente
hacen.
A
menudo,
la
respuesta
final
es
incorrecta
aunque
el
razonamiento
parezca
lógico.
Esto,
para
él,
pone
en
evidencia
que
seguimos
en
una
etapa
donde
confundimos
generación
de
lenguaje
con
pensamiento
auténtico.
Imagen
|
Marcos
Merino
mediante
IA