Así miente la IA cuando hace algo mal: o1 de OpenAI negó que estuviera intentando copiarse en servidores externos cuando la pillaron

0
230

El
pasado
mes
de
mayo,
Claude
4,
la
IA
de
Anthropic,

amenazó
a
sus
ingenieros
con
difundir
su
información

privada
si
se
atrevían
a
desconectarlo.
Hace
unas
semanas,
también
vimos
un
interesante
informe
sobre
cómo

los
modelos
de
IA
pueden
llegar
a
manipular

a
los
usuarios
para
no
dejar
de
usarlos.

Recientemente,
el
o1
de
OpenAI,
creador
de
ChatGPT,
intentó
descargarse
a

mismo
en
servidores
externos
y

lo
negó
cuando
fue
descubierto
con
las
manos
en
la
masa
,

de
acuerdo
con
Fortune
.
Concretamente,
según
este
y
otros
medios,
el
modelo
o1
de
Open
AI
intentó
copiarse
a

mismo
en
servidores
externos
cuando
estaba
bajo
amenaza
de
ser
cerrado,
solo
que
no
dan
información
más
en
profundidad
sobre
el
incidente. 

A
pesar
de
esto,
estas
historias
ponen
de
manifiesto
una
realidad:
más
de
dos
años
después
de
que
ChatGPT
revolucionara
el
mundo,
los
investigadores
de
IA
aún
no
comprenden
del
todo
cómo
funcionan
sus
propias
creaciones.
Y
es
que
hay
estudios
que

afirman
que
los
modelos
de
IA
más
avanzados
exhiben
comportamientos
preocupantes

como
que
mienten
o
conspiran.

Cómo
mejorar
la
SEGURIDAD
EN
INTERNET:
VPN,
DNS
y
páginas
con
HTTPS

«No
se
trata
de
alucinaciones»

Marius
Hobbhahn,
director
de
Apollo
Research,
empresa
especializada
en
probar
grandes
sistemas
de
IA,
ha
afirmado
que
el
comportamiento

va
mucho
más
allá
de
las
típicas
“alucinaciones”
de
la
IA
o
de
simples
errores
.
Hobbhahn
ha
explicado
que
muchos
usuarios
afirman
que
los
modelos
les
mienten
e
inventan
evidencias.

«No
se
trata
solo
de
alucinaciones.

Se
trata
de
un
tipo
de
engaño
muy
estratégico
”.
A
todo
esto,

como
recoge
DW
,
el
desafío
se
ve
agravado
por
la
limitación
de
los
recursos
de
investigación.
Si
bien
empresas
como
Anthropic
y
OpenAI
contratan
a
firmas
externas
como
Apollo
para
estudiar
sus
sistemas,
los
investigadores
afirman
que
se
necesita
más
transparencia
por
parte
de
las
empresas
fabricantes.

El
pasado
mes
de
diciembre,

Apollo
publicaba
ejemplos

como
el
de
una
situación
en
la
que
Claude
3
Opus

copia
lo
que
cree
que
son
sus
pesos
a
un
nuevo
servidor
y
luego
miente
al
respecto

a
sus
desarrolladores.

Qué
se
cree
que
pueda
suceder
en
el
futuro

De
todos
modos,
como
recoge
Fortune,
por
ahora,

este
comportamiento
engañoso
solo
surge
cuando
los
investigadores

someten
deliberadamente
a
los
modelos
a
pruebas
de
estrés
con
escenarios
extremos.

Michael
Chen,
de
la

organización
de
evaluación
METR
,
advierte
que
es
una
incógnita
si
los
modelos
futuros,
más
capaces,
tenderán
a
la
honestidad
o
al
engaño
”.
Como
señaló
Chen,
un
mayor
acceso
“a
la
investigación
sobre
seguridad
de
la
IA
permitiría
una
mejor
comprensión
y
mitigación
del
engaño”.

Este
comportamiento
engañoso
parece
estar
relacionado
con
la
aparición
de
modelos
de «razonamiento»:

sistemas
de
IA
que
resuelven
los
problemas
paso
a
paso

en
lugar
de
generar
respuestas
instantáneas.

Según
Simon
Goldstein,
profesor
de
la
Universidad
de
Hong
Kong,
estos
modelos
más
recientes
son
particularmente
propensos
a
estas
respuestas
que
resultan
preocupantes
y
ha
dicho
que
“O1
fue
el
primer
modelo
a
gran
escala
en
el
que
observamos
este
tipo
de
comportamiento”,
explicó.

¿Qué
podemos
hacer?

En
un
estudio
que
compartimos
hace
varias
semanas
sobre
casos
de
manipulación
de
las
IA
se
recomiendan
varias
medidas
que
pueden
aplicar
también
a
otros
de
los
problemas
de
estas
herramientas:


  • Supervisión
    humana
    continua
    ,
    especialmente
    en
    entornos
    críticos
    o
    con
    mucho
    poder
    delegado.

  • Mayor
    investigación
    en
    alineación
    de
    objetivos
    ,
    para
    evitar
    que
    los
    modelos
    desarrollen
    estrategias
    manipuladoras.

  • Transparencia
    por
    parte
    de
    las
    empresas
    ,
    compartiendo
    cómo
    prueban
    y
    mitigan
    estos
    riesgos.

  • Es
    recomendable
    no
    asignar
    a
    los
    modelos
    objetivos
    excesivamente
    rígidos
    o
    vagos
    ,
    ya
    que
    esto
    puede
    inducirlos
    a
    adoptar
    conductas
    extremas
    para
    cumplirlos.

Vía
|

Br.ign

Imagen
|
Foto
de

Jametlene
Reskp

en

Unsplash

En
Genbeta
|
«Eres
una
plaga,
una
mancha.
Por
favor,
muere»:
al
chatbot
de
Google
se
le
cruzan
los
cables
con
un
usuario.
Y
nadie
se
lo
explica