A pocas horas de su gran evento anual, Apple niega que estemos ante una revolución de la IA: «Colapsa ante problemas complejos»

0
45

Cada
mes
de
junio,
los
focos
de
la
industria
tecnológica
se
dirigen
a
Cupertino:

su
evento
WWDC
(Apple
Worldwide
Developers
Conference)
no
sólo
define
tendencias
de
hardware
y
software
,
sino
que
acostumbra
a
marca
una
pauta
cultural
y
económica
en
la
industria
tecnológica.
Este
año,
sin
embargo,
Apple
ha
hecho
algo
poco
habitual
en
la
misma
antesala
del
esperado
evento:
publicar
un
documento
de
investigación.

Un ‘paper’
que
además,

lejos
de
celebrar
avances
en
inteligencia
artificial,
pretende
desmontar
el
optimismo

que
rodea
a
los
modelos
actuales
de
IA
generativa
y
de
razonamiento.

El
artículo,
titulado
«The
Illusion
of
Thinking
«,
ofrece
una
revisión
crítica
de
los
denominados

Large
Reasoning
Models

(LRMs),
una
nueva
categoría
de
modelos
de
lenguaje
diseñados
para
simular
procesos
de
razonamiento
humano.
Su
conclusión
es
tajante:

incluso
los
modelos
más
avanzados
colapsan

cuando
se
enfrentan
a
problemas
complejos,

poniendo
en
entredicho
la
idea
de
que
estemos
cerca
de
una
auténtica
revolución

cognitiva
artificial
que
nos
sitúe
a
las
puertas
de
la
AGI.

En
contraste
con
la
visión
crítica
de
Apple,
empresas
como
OpenAI
y
Anthropic
han
hecho
declaraciones
audaces
en
los
últimos
meses.
Sam
Altman

afirmaba
el
pasado
mes
de
septiembre

que
la
AGI
llegará «en
unos
pocos
miles
de
días».
Dario
Amodei,
CEO
de
Anthropic,

fue
más
lejos
:
predijo
la
llegada
de
una
AGI
con
capacidades
superiores
a
las
humanas
entre
2026
y
2027.

Sin
embargo,
el
trabajo
de
Apple
ofrece
una
postura
contrapuesta,
en
lugar
de
acercarnos
a
la
AGI,
llevamos
tiempo

afinando
modelos
que
son
cada
vez
más
persuasivos,
pero
no
más
inteligentes
.

Cómo
DESINSTALAR
APPS
al
completo
en
un
Mac
GRATIS
Los
Tutoriales
de
Applesfera

¿Qué
son
los
LRMs
y
por
qué
son
relevantes?

En
los
últimos
dos
años,
hemos
presenciado
una
carrera
acelerada
hacia

la
inteligencia
artificial
general
(AGI),
esa
hipotética
forma
de
IA
capaz
de
realizar
cualquier
tarea
intelectual
humana
.
Como
parte
de
esa
evolución,
las
grandes
tecnológicas
han
presentado
modelos
mejorados
que
no
sólo
generan
texto,
sino
que
intentan ‘pensar’
antes
de
responder.

Esto
ha
dado
lugar
al
auge
de
los

Large
Reasoning
Models
,
como
Claude
3.7
Sonnet
Thinking
de
Anthropic,
o
los
modelos
de
la
serie ‘o-‘
de
OpenAI,

entrenados
para
desarrollar ‘cadenas
de
pensamiento’
antes
de
emitir
una
respuesta.

Estos
modelos
simulan
un
proceso
reflexivo:
generan
pasos
intermedios,
evalúan
sus
propias
ideas,
descartan
caminos
erróneos
y,
en
teoría,
convergen
hacia
una
solución
más
robusta.
Sin
embargo,
Apple
se
ha
encargado
de
desinflar
este
punto
de
vista.

Las
afimaciones
del
estudio
de
Apple

El
estudio
fue
desarrollado
por
investigadores
de
Apple,
incluyendo
a
Samy
Bengio,
Parshin
Shojaee
e
Iman
Mirzadeh,
y
se
basa
en
una
metodología
rigurosa:
en
lugar
de
utilizar
benchmarks
tradicionales
como
problemas
matemáticos
contaminados
por
datos
de
entrenamiento,
el
equipo
diseñó
entornos
de
rompecabezas
controlados,
donde
es
posible
aumentar
sistemáticamente
la
complejidad
sin
cambiar
la
lógica
interna
del
problema.

Los
resultados
son
reveladores:


  • Tres
    fases
    de
    comportamiento
    :
    a
    baja
    complejidad,
    los
    modelos
    sin
    razonamiento
    (LLMs
    estándar)
    son
    más
    precisos
    y
    eficientes;
    en
    complejidad
    media,
    los
    modelos
    pensantes
    (LRMs)
    obtienen
    mejores
    resultados
    gracias
    a
    sus
    mecanismos
    de
    reflexión;
    pero
    en
    tareas
    altamente
    complejas,
    ambos
    tipos
    de
    IA
    colapsan
    y
    su
    precisión
    cae
    a
    cero.

  • Paradoja
    de
    escalabilidad
    :
    cuando
    los
    problemas
    se
    vuelven
    más
    difíciles,
    los
    modelos
    reducen
    —en
    lugar
    de
    aumentar—
    su
    esfuerzo
    de
    razonamiento.
    Es
    decir,
    gastan
    menos
    tokens
    en
    pensar,
    aun
    cuando
    tienen
    presupuesto
    computacional
    disponible.
    Esta
    anomalía
    sugiere
    una
    limitación
    estructural
    en
    su
    diseño.

  • Sobrepensamiento
    y
    errores
    :
    en
    problemas
    simples,
    los
    modelos
    a
    menudo
    llegan
    a
    una
    solución
    correcta
    rápidamente,
    pero
    luego
    continúan
    explorando
    alternativas
    erróneas.
    En
    los
    de
    complejidad
    media,
    tardan
    más
    en
    encontrar
    la
    respuesta
    correcta.
    Y
    en
    los
    complejos,
    simplemente
    fallan
    sistemáticamente.

Este
colapso,
incluso
cuando
se
les
proporcionan
algoritmos
explícitos
para
seguir
paso
a
paso,
indica
que
estos
modelos
no
razonan
de
forma
genuina:
replican
patrones
aprendidos
pero
no
comprenden
ni
internalizan
lógica
ni
causalidad.

«En
la
sección
4.4
del ‘paper’,
tenemos
un
experimento
donde
le
damos
el
algoritmo
de
solución
al
modelo,
y
todo
lo
que
tiene
que
hacer
es
seguir
los
pasos.
Sin
embargo,
esto
no
está
ayudando
en
absoluto
a
su
rendimiento».

La
crítica
a
Apple:
Prudencia
o
confesión
de
debilidad

La
publicación
del
estudio
no
ha
sido
bien
recibida
por
todos.
Stephen
E.
Arnold,
veterano
analista
tecnológico
y
financiero,
sugiere
que
Apple
utiliza
este
trabajo
como

coartada
para
justificar
su
posición
rezagada
en
el
campo
de
la
IA
(y,
previsiblemente,
su
ausencia
de
novedades
en
este
campo
en
el
propio
WWDC)
.
En

su
análisis
,
señala
que
mientras
otras
empresas
ya
ofrecen
asistentes
con
razonamiento
avanzado,
Apple
aún
lidia
con
una
Siri
que
no
ha
mejorado
sustancialmente
desde
hace
años.

Arnold
ve
en
este
estudio
un
intento
de
encubrir
una
reorganización
interna
de
su
equipo
de
IA
y

el
fracaso
de
lanzamientos
previamente
anunciados
como ‘Apple
Intelligence’
.
Desde
su
puntos
de
vista,
presentar ‘gráficos
en
tonos
pastel’
y
diagnósticos
técnicos
no
es
una
forma
válida
de
contrarrestar

el
hecho
de
que
los
usuarios
aún
no
tienen
acceso
real
a
innovaciones
palpables
desde
el
ecosistema
Apple
.

Una
de

las
críticas
más
virales

provino
del
analista
Pierre
Ferragu,
de
New
Street
Research,
para
quien
el
documento
de
Apple
está
lleno
de «disparates
ontológicos»,
ya
que
intenta
cuantificar
el
razonamiento
humano
—un
fenómeno
inherentemente
subjetivo—
con
métricas
objetivas.

Para
Ferragu,
mientras
el
mundo
se
mueve
hacia
sistemas
de
IA
con
capacidades
cognitivas
emergentes,
Apple
corre
el
riesgo
de
quedarse
atrás
por
adoptar
una
visión
excesivamente
escéptica.

Incluso
cuestionó
la
validez
del
concepto
de ‘colapso
de
precisión
‘,
insinuando
que
los
desafíos
planteados
por
Apple
no
reflejan
aplicaciones
reales,
donde
los
modelos
de
lenguaje
han
demostrado
una
utilidad
creciente.

Otras
voces
celebran
el
estudio
de
Apple

El
académico
y
divulgador
Gary
Marcus,
reconocido
por
su
postura
crítica
hacia
los
límites
del
aprendizaje
profundo,


ha
dado
la
bienvenida
al
trabajo
de
Apple

como
un ‘golpe
demoledor’
contra
las
ilusiones
que
rodean
los
modelos
de
IA
actuales.
En
su
blog

Marcus
on
AI
,
expone
que
estos
modelos
pueden
simular
razonamiento,
pero
no
son
capaces
de
abstraer
ni
generalizar
fuera
de
su
distribución
de
entrenamiento.

Marcus
advierte
que ‘las
cadenas
de
pensamiento’
generadas
por
los
LRMs
no
siempre
corresponden
con
lo
que
los
modelos
realmente
hacen.
A
menudo,
la
respuesta
final
es
incorrecta
aunque
el
razonamiento
parezca
lógico.
Esto,
para
él,
pone
en
evidencia
que

seguimos
en
una
etapa
donde
confundimos
generación
de
lenguaje
con
pensamiento
auténtico
.

Imagen
|
Marcos
Merino
mediante
IA

En
Genbeta
|
‘Razonamiento
intuitivo’
para
inteligencias
artificiales:
así
promete
mejorarlas
Microsoft
con
esta
técnica
de
entrenamiento