En
los
últimos
años,
la
inteligencia
artificial
(IA)
ha
estado
avanzando
a
pasos
agigantados,
pero
a
pocos
días
de
que
acabe,
2024
parece
haberse
convertido
en
un
punto
de
inflexión
crucial,
en
el
que
-en
muy
poco
tiempo-
OpenAI
y
otros
actores
clave
del
sector
han
presentado
modelos
que ‘amenazan’
con
redefinir
lo
que
entendemos
como
inteligencia
artificial.
Pero,
entre
todos
ellos,
el
nuevo
modelo
‘o3’
de
OpenAI,
presentado
hace
unos
minutos
como
traca
final
de
los
12
días
de
novedades
de
la
compañía,
podría
tener
un
lugar
destacado,
precisamente
cuando
Google
parecía
haber
batido
a
la
compañía
liderada
por
Altman
tanto
en
el
campo
de
los
chatbots
como
en
vídeo
e
imagen.
cuando
MICROSOFT
lanzaba
anuncios
ANTI-GOOGLE
¿Qué
es
o3
y
por
qué
es
revolucionario?
El
modelo
o3,
junto
con
su
variante
o3-mini,
ha
superado
ampliamente
a
su
predecesor,
o1,
en
tareas
de
programación
(según
Sam
Altman,
CEO
de
OpenAI,
o3
es «increíble
en
codificación»)…
pero,
aún
más
importante,
también
en
razonamiento
lógico.
Lo
que
diferencia
a
o3
de
sus
predecesores
es
su
enfoque
en
el
razonamiento
profundo.
Este
modelo
toma
más
tiempo
para
procesar
preguntas,
optimizando
así
sus
respuestas.
Se
busca
así
superar
los
límites
observados
en
el
entrenamiento
de
modelos
de
IA
basado
exclusivamente
en
el
aumento
de
datos
y
potencia
computacional.
ARC-AGI
es
un
estándar
que
mide
la
capacidad
de
los
modelos
de
IA
para
resolver
tareas
complejas
que
requieren
razonamiento
general
más
allá
de
patrones
preentrenados,
un
test «fácil
para
los
humanos
y
difícil
para
las
máquinas»,
que
es
reconocido
como
una
referencia
a
la
hora
de
medir
avances
hacia ‘IA
General’.
Pues
bien,
estos
son
los
resultados
de
la
familia
de
modelos
GPT:
-
GPT-2
(2019):
0% -
GPT-3
(2020):
0% -
GPT-4
(2023):
2% -
GPT-4o
(2024):
5% -
o1-preview
(2024):
21% -
o1
high
(2024):
32% -
o1
Pro
(2024):
~50% -
o3
(2024):
76% -
o3
[modo
de
alta
computación]
(2024):
87%
Las
versiones
de
la
arquitectura
o3
logran
un
desempeño
notablemente
alto,
acercándose
al
dominio
casi
completo
de
las
tareas
de
razonamiento
general
evaluadas.
Os
recordamos
que
la
puntuación
media
de
la
inteligencia
humana
en
este
test
es
del
85%.
Entonces,
¿o3
programa
bien?
Codeforces
es
una
plataforma
online
muy
popular
para
la
práctica
de
programación
competitiva,
usadas
por
desarrolladores
de
todo
el
mundo
para
mejorar
sus
habilidades
algorítmicas,
y
que
ofrece
un
sistema
de
rating
similar
al
utilizado
en
ajedrez
(Elo).
Pues
bien,
según
la
clasificación
de
Codeforces,
o3
ocupa
el
puesto
175
de
los
mejores
programadores
del
mundo:
Eficaz,
pero…
¿también
eficiente?
Según
Mike
Knoop,
un
destacado
impulsor
del
Premio
ARC,
la
configuración
de
alto
rendimiento
de
o3
utiliza
172
veces
más
potencia
de
cálculo
que
su
versión
básica.
Esto
subraya
la
necesidad
de
avanzar
en
la
eficiencia
computacional
para
alcanzar
objetivos
más
ambiciosos,
como
un
sistema
AGI
que
pueda
operar
con
recursos
limitados.
Por
su
parte,
François
Chollet,
el
creador
de
ARC-AGI,
valora
en
20
$
el
gasto
por
tarea
de
cómputo
de
la
configuración
básica
a
o3,
y
en
«miles
de
dólares»
su
gasto
por
tarea
en
el
modo
de
alto
cómputo
(miles
de
$
por
tarea):
«Es
muy
costoso,
pero
no
se
trata
solo
de
fuerza
bruta:
estas
capacidades
son
un
territorio
nuevo
y
requieren
atención
científica
seria».
¿Y
dónde
está ‘o2’?
Según
ha
explicado
el
propio
Sam
Altman
en
la
presentación
de
hoy,
la
compañía
decidió
saltarse
la
denominación «o2»
para
evitar
conflictos
legales
con «nuestros
amigos
de
Telefónica»:
la
compañía
homónima
(O2)
es
la
filial
británica
del
grupo.
Imagen
|
Marcos
Merino
mediante
IA