Durante
años
se
repitió
el
mantra:
a
medida
que
la
inteligencia
artificial
madurara,
su
uso
sería
progresivamente
más
y
más
barato…
pero
la
realidad
de
2025
está
resultando
bastante
menos
idílica:
cada
vez
más
desarrolladores
y
empresas
que «compran
IA
por
barriles»
—para
generar
código,
resumir
documentos
o
montar
sus
propios
agentes
de
IA—
descubren
que
sus
facturas
no
solo
no
están
bajando,
sino
todo
lo
contrario.
Y,
en
muchos
casos,
se
desbocan.
¿Qué
está
pasando
aquí?
Del
precio
por
token…
al
número
de
tokens
Conviene
separar
dos
conceptos:
entrenamiento
e
inferencia.
Entrenar
los
modelos
más
grandes
sigue
exigiendo
una
supercomputación
carísima.
La
inferencia
—conseguir
respuestas
de
un
modelo
ya
entrenado—
sí
se
está
abaratando
de
forma
sostenida:
el
coste
por
token
cae
de
manera
pronunciada.
Pero
lo
que
se
ahorra
por
aquí,
no
compensa
el
gasto
extra
que
ha
introducido
una
de
las
nuevas
funciones
estrella
de
la
IA:
los
nuevos
usos «con
razonamiento»
disparan
la
cantidad
de
tokens
que
se
gastan
por
tarea.
Por
decirlo
en
términos
gastronómicos:
entrenar
un
modelo
es
como
construir
un
horno
industrial,
pero
pedirle
respuestas
a
un
modelo
ya
entrenado
es
como
hornear
cada
bizcocho:
cada
uno
sale
más
barato
con
el
tiempo…
con
la
salvedad
de
que
ahora
usas
más
masa
que
antes,
porque
los
bizcochos
son
gigantes
y
con
varias
capas.
Traduciendo:
-
Ventanas
de
contexto
enormes.
En
vez
de
1–2
páginas,
ahora
volcamos
decenas
o
cientos. -
Varios
pasos
internos.
El
modelo
planifica,
escribe
borradores,
se
auto-revisa
y
compara
opciones
antes
de
dar
la
respuesta
final. -
Uso
de
herramientas.
Busca
en
la
web,
ejecuta
código
o
consulta
bases
de
conocimiento;
cada
ida
y
vuelta
añade
tokens
(instrucciones,
resultados,
resúmenes). -
Ensayo
y
voto.
A
veces
se
generan
varias
respuestas
y
se
elige
la
mejor;
útil
para
calidad,
caro
en
tokens.
Así,
los
modelos
hacen
mejor
su
trabajo…
a
costa
de
multiplicar
el
consumo.
Resultado:
la
unidad
es
barata,
pero
la
cesta
que
consumimos
es
cada
vez
más
voluminosa.
¿Cuántos
tokens
consume
cada
caso
de
uso?
Las
cifras
varían
por
modelo
y
configuración,
pero
el
orden
de
magnitud
ayuda
a
entender
las
cuentas:
-
Chat
básico
de
preguntas
y
respuestas:
~50
a
500
tokens. -
Resumen
breve
de
un
documento:
~200
a
6.000. -
Asistencia
de
código
básica:
~500
a
2.000. -
Escritura
de
código
complejo:
~20.000
a
100.000+. -
Análisis
jurídico
de
documentos:
~75.000
a
250.000+. -
Agentes
multi-paso:
~100.000
a
1.000.000+.
Con
estos
volúmenes,
no
sorprende
que
plataformas
que
prueban
muchos
modelos
constaten
que «la
carrera
por
la
respuesta
más
inteligente»
se
ha
convertido
en
garantía
de
gastos
extra.
Las
empresas
hacen
cuentas
Las
consecuencias
ya
son
visibles:
Notion
—un
ejemplo
representativo
del
SaaS
productivo—
explica
que,
frente
a
márgenes
cercanos
al
90%
de
hace
dos
años,
ahora
alrededor
de
10
puntos
se
van
en
costes
de
IA
que
sustentan
sus
nuevas
funciones.
Hace
unas
semanas,
salía
a
la
luz
un
estudio
del
MIT
que
afirmaba
que
el
95%
de
las
empresas
que
ofrecen
apps
de
IA
generativa
no
les
están
sacando
rentabilidad.
Pero
las
que
peor
lo
están
pasando
son
las
startups
que
venden
aplicaciones
de
vibe
coding:
cambios
de
precios
recientes
han
destapado
lo
fácil
que
es
que
un
usuario
queme
en
días
los
créditos
de
todo
un
mes
cuando
sube
la
complejidad
de
sus
peticiones.
Vía
|
WSJ
Imagen
|
Marcos
Merino
emdiante
IA





































