El
pasado
mes
de
mayo,
Claude
4,
la
IA
de
Anthropic,
amenazó
a
sus
ingenieros
con
difundir
su
información
privada
si
se
atrevían
a
desconectarlo.
Hace
unas
semanas,
también
vimos
un
interesante
informe
sobre
cómo
los
modelos
de
IA
pueden
llegar
a
manipular
a
los
usuarios
para
no
dejar
de
usarlos.
Recientemente,
el
o1
de
OpenAI,
creador
de
ChatGPT,
intentó
descargarse
a
sí
mismo
en
servidores
externos
y
lo
negó
cuando
fue
descubierto
con
las
manos
en
la
masa,
de
acuerdo
con
Fortune.
Concretamente,
según
este
y
otros
medios,
el
modelo
o1
de
Open
AI
intentó
copiarse
a
sí
mismo
en
servidores
externos
cuando
estaba
bajo
amenaza
de
ser
cerrado,
solo
que
no
dan
información
más
en
profundidad
sobre
el
incidente.
A
pesar
de
esto,
estas
historias
ponen
de
manifiesto
una
realidad:
más
de
dos
años
después
de
que
ChatGPT
revolucionara
el
mundo,
los
investigadores
de
IA
aún
no
comprenden
del
todo
cómo
funcionan
sus
propias
creaciones.
Y
es
que
hay
estudios
que
afirman
que
los
modelos
de
IA
más
avanzados
exhiben
comportamientos
preocupantes
como
que
mienten
o
conspiran.
mejorar
la
SEGURIDAD
EN
INTERNET:
VPN,
DNS
y
páginas
con
HTTPS
«No
se
trata
de
alucinaciones»
Marius
Hobbhahn,
director
de
Apollo
Research,
empresa
especializada
en
probar
grandes
sistemas
de
IA,
ha
afirmado
que
el
comportamiento
va
mucho
más
allá
de
las
típicas
“alucinaciones”
de
la
IA
o
de
simples
errores.
Hobbhahn
ha
explicado
que
muchos
usuarios
afirman
que
los
modelos
les
mienten
e
inventan
evidencias.
«No
se
trata
solo
de
alucinaciones.
Se
trata
de
un
tipo
de
engaño
muy
estratégico”.
A
todo
esto,
como
recoge
DW,
el
desafío
se
ve
agravado
por
la
limitación
de
los
recursos
de
investigación.
Si
bien
empresas
como
Anthropic
y
OpenAI
contratan
a
firmas
externas
como
Apollo
para
estudiar
sus
sistemas,
los
investigadores
afirman
que
se
necesita
más
transparencia
por
parte
de
las
empresas
fabricantes.
El
pasado
mes
de
diciembre,
Apollo
publicaba
ejemplos
como
el
de
una
situación
en
la
que
Claude
3
Opus
copia
lo
que
cree
que
son
sus
pesos
a
un
nuevo
servidor
y
luego
miente
al
respecto
a
sus
desarrolladores.
Qué
se
cree
que
pueda
suceder
en
el
futuro
De
todos
modos,
como
recoge
Fortune,
por
ahora,
este
comportamiento
engañoso
solo
surge
cuando
los
investigadores
someten
deliberadamente
a
los
modelos
a
pruebas
de
estrés
con
escenarios
extremos.
Michael
Chen,
de
la
organización
de
evaluación
METR,
advierte
que
“es
una
incógnita
si
los
modelos
futuros,
más
capaces,
tenderán
a
la
honestidad
o
al
engaño”.
Como
señaló
Chen,
un
mayor
acceso
“a
la
investigación
sobre
seguridad
de
la
IA
permitiría
una
mejor
comprensión
y
mitigación
del
engaño”.
Este
comportamiento
engañoso
parece
estar
relacionado
con
la
aparición
de
modelos
de «razonamiento»:
sistemas
de
IA
que
resuelven
los
problemas
paso
a
paso
en
lugar
de
generar
respuestas
instantáneas.
Según
Simon
Goldstein,
profesor
de
la
Universidad
de
Hong
Kong,
estos
modelos
más
recientes
son
particularmente
propensos
a
estas
respuestas
que
resultan
preocupantes
y
ha
dicho
que
“O1
fue
el
primer
modelo
a
gran
escala
en
el
que
observamos
este
tipo
de
comportamiento”,
explicó.
¿Qué
podemos
hacer?
En
un
estudio
que
compartimos
hace
varias
semanas
sobre
casos
de
manipulación
de
las
IA
se
recomiendan
varias
medidas
que
pueden
aplicar
también
a
otros
de
los
problemas
de
estas
herramientas:
-
Supervisión
humana
continua,
especialmente
en
entornos
críticos
o
con
mucho
poder
delegado. -
Mayor
investigación
en
alineación
de
objetivos,
para
evitar
que
los
modelos
desarrollen
estrategias
manipuladoras. -
Transparencia
por
parte
de
las
empresas,
compartiendo
cómo
prueban
y
mitigan
estos
riesgos. -
Es
recomendable
no
asignar
a
los
modelos
objetivos
excesivamente
rígidos
o
vagos,
ya
que
esto
puede
inducirlos
a
adoptar
conductas
extremas
para
cumplirlos.
Vía
|
Br.ign
Imagen
|
Foto
de
Jametlene
Reskp
en
Unsplash









































