En
los
últimos
tiempos,
los ‘modelos
de
lenguaje
de
gran
contexto’
o
LLM
(es
decir,
el
cerebro
detrás
de
los
chatbots)
han
comenzado
a
mostrar
habilidades
inesperadas,
para
las
que
no
han
sido
programados…
pero
tranquilo,
que
no
estamos
ante
un
‘escenario
Skynet’
(que
sepamos):
por
ahora,
sólo
tienen
que
ver
con
su
capacidad
para
gestionar
grandes
cantidades
de
información.
Imagina
que
estás
utilizando
un
buscador
en
Internet:
introduces
una
palabra
y
el
buscador,
en
milisegundos,
encuentra
exactamente
lo
que
necesitas
entre
millones
de
opciones.
Pues
hay
un
elemento
interno
de
estos
modelos
de
IA,
los
‘cabezales
de
recuperación’,
que
funcionan
de
manera
similar,
ayudando
a
encontrar
y
utilizar
información
relevante
que
está
esparcida
en
grandes
bloques
de
texto.
Su
activación
o
desactivación
puede
llevar
a
que
el
modelo
«alucine»
o
genere
respuestas
infundadas
al
no
poder
acceder
a
la
información
necesaria.
Pues
bien,
existe
un
ejercicio
al
que
se
somete
a
los
modelos
de
IA
generadores
de
texto,
llamado ‘la
aguja
en
el
pajar’,
en
el
que
se
busca
que
la
IA
responda
a
una
pregunta
utilizando
un
contexto
en
el
que
la
respuesta
fue
inyectada
artificialmente.
Dicha
prueba
está
pensada
para
garantizar
la
solidez
de
las
IAs
cuando
se
enfrentan
a
ventanas
de
contexto
amplias.
Ya
hablamos
de
dicho
ejercicio,
y
de
cómo
muchos
pensaron
que
Claude-3
era
autoconsciente
porque
había
sido
capaz
de
detectar
que
estaba
siendo
sometido
al
mismo
GPT-4
en
4
MINUTOS
Una ‘caja
negra’
La
cuestión
es
que
ha
sido
una
investigación
científica
recién
publicada
la
que
ha
descubierto
que
estos
cabezales
no
sólo
son
universales
(están
presentes
en
todos
los
modelos
examinados
basados
en
transformadores),
sino
también
intrínsecos,
ya
que
existen
desde
la
fase
de
pre-entrenamiento
del
modelo
y
no
necesitan
ser
codificadas
explícitamente
por
los
diseñadores
del
modelo.
Mejor
aún:
su
existencia
es
todo
un
testimonio
de
la
complejidad
de
los
modelos
de
IA
modernos,
pues,
al
igual
que
con
los
humanos,
donde
el
aprendizaje
puede
llevar
a
la
especialización
no
intencionada
de
ciertas
áreas
del
cerebro,
los
modelos
de
lenguaje
también
parecen
desarrollar «especializaciones»
que
mejoran
su
funcionalidad,
sin
intervención
directa
de
sus
creadores.
Según
el
experto
Ahmed
Khaled,
«Es
fascinante
observar
cómo
partes
específicas
de
la
arquitectura
neuronal
se
especializan
de
manera
autónoma.
Esto
desafía
nuestra
comprensión
tradicional
de
[cómo
funcionan]
los
sistemas
de
software».
«Los
modelos
de
lenguaje
han
desarrollado
mecanismos
de
recuperación
de
información
que
no
fueron
explícitamente
programados
por
sus
creadores»
(Ethan
Mollick)
El
descubrimiento
de
este
elemento
tiene
implicaciones
profundas
para
el
futuro
de
la
inteligencia
artificial:
-
Muestra
que
hay
funciones
que
pueden
surgir
sin
una
programación
explícita,
una
idea
que
desafía
la
noción
tradicional
de
diseño
de
software. -
Sugiere
nuevas
vías
para
optimizar
los
modelos
de
IA
y
así
reducir
alucinaciones
y
mejorar
el
razonamiento.
La
era
de
los
modelos
de
lenguaje
de
gran
contexto
acaba
de
empezar,
y
descubrimientos
como
éste
abren
nuevas
vías
para
explorar
y
entender
estos
sistemas
complejos:
hay
quien
cree
que
son
la
clave
para
asegurarnos
de
que
las
máquinas
no
sólo ‘hablen’
o ‘escriban’
sino
que ‘comprendan’
y ‘razonen’
con
una
precisión
cada
vez
mayor.
Vía
|
@emollick
Imagen
|
Marcos
Merino
mediante
IA



































