TECNOLOGIA

Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA

Por

febrero 7, 2025

208

En
el
proceso
legal

Kadrey
contra
Meta
se
acusa
a
la
empresa
de
Mark
Zuckerberg
de
haber
utilizado
obras
protegidas
por
los
derechos
de
autor
para
entrenar
sus
modelos
de
inteligencia
artificial.
Hace
unas
semanas
ya
se
desveló
que

Zuckerberg
había
dado
el
visto
bueno
para
usar
libros
pirateados,
pero
ahora
llegan
nuevas
y
potentes
evidencias
de
este
saqueo.

Correos
desvelados.
El «apéndice
A»
del
caso
incluye
varios
mensajes
de
correo
electrónico
de
empleados
de
Meta
en
los
que
se
revela
que,
en
efecto,
hubo
descargas
masivas
de
datos
en
forma
de
libros
protegidos
por
derechos
de
autor.
Una
de
las
empleadas,
Melanie
Kambadur,
mostraba
su
rechazo
a
hacer
esa
recolección
de
datos
en
octubre
de
2022.

Google tiene claro cómo va a entrenar sus modelos de IA. Cogiendo todo lo que publiquemos en internet

«Descargar
con
torrents
desde
un
portátil
de
la
empresa
no
parece
buena
idea».
En
abril
de
2023
Nikolay
Bashlykov,
uno
de
los
responsables
de
llevar
a
cabo
esta
recolección
de
datos,
bromeaba
incluyendo
emojis
e
indicaba
que
la
empresa
tendría
que
tener
cuidado
con
la
IP
desde
la
que
descargaban
los
datos.

Meta
conocía
los
riesgos.
En
septiembre
de
ese
año
Bashlykov
ya
dejaba
de
usar
emoticonos
y
avisaba
de
que
usar
torrentes
implicaría
actuar
como «semillas»
para
que
otros
también
los
descargasen,
y «eso
podría
no
estar
bien
legalmente».
Estos
debates
son
una
prueba
de
que
Meta
sabía
que
este
tipo
de
actividad
era
ilegal,
según
los
autores
que
han
demandado
a
la
compañía.

Borrando
las
huellas.
En
un

mensaje
interno
el
investigador
de
Meta
Frank
Zhang
indicó
cómo
la
empresa
evitó
usar
sus
servidores
al
descargar
este
conjunto
de
datos
para «evitar» «el
riesgo
de
que
cualquiera
pueda
trazar
a
la
semilla»
y
a
quien
descargaba
esos
datos.

81,7
TB
de
datos.
Como
señalan

en
Ars
Technica,
las
pruebas
muestran
que
Meta
descargó
vía
torrent
al
menos
81,7
terabytes
de
datos
de
diversas
bibliotecas
que
ofrecen
esos
libros
protegidos
por
derechos
de
autor.
En
un

nuevo
documento
del
proceso
legal
se
indicaba
que
al
menos
35,7
TB
se
habían
descargado
de
sitios
como
Z-Library
o
LibGen
(que

acabó
cerrándose
el
verano
pasado).

Meta
quiere
desestimar
esos
cargos.
Meta
ha
presentado
una
moción
para
desestimar
esas
acusaciones
indicando
que
no
había
evidencias
de
que
ningún
libro
fuera
descargado
por
empleados
de
Meta
a
través
de
Torrent
o
que
fueron
distribuidos
luego
por
Meta.
En
Xataka
nos
hemos
puesto
en
contacto
con
la
compañía,
y
actualizaremos
esta
noticia
si
recibimos
comentarios
sobre
el
caso.

Saqueo
a
fuego
de
internet.
Estos
datos
vuelven
a
incidir
en
las
discutibles
prácticas
que
las
empresas
de
IA
están
utilizando
para
entrenar
sus
modelos.
Lo
vimos

con
Google,
y
desde
luego
también
con
OpenAI,
que
usó
millones
de
textos
para
entrenar
a
ChatGPT,
y

muchos
de
ellos
tenían
copyright.
Perplexity
estuvo
en
el
punto
de
mira
tras
descubrirse
que

se
saltaba
a
la
torera
las
reglas
de
internet
para
evitar
muros
de
pago
y
alimentar
su
modelo
de
IA.

Se
están
normalizando
los
robos
de
internet.
Lo
asombroso
de
todo
esto
es
que
el
hecho
de
que
todas
las
empresas
estén
saltándose
las
normas
y
violando
los
derechos
de
autor
parece
estar
normalizando
el
saqueo
de
internet.
Casi
no
da
tiempo
a
escandalizarse
y
lo
damos
casi
ya
como
una
política
de
hechos
consumados
para
poder
seguir
a
lo
nuestro.

¿De
verdad
esto
es
un «uso
justo»?
Todas
las
empresas
se
escudan
en
el
concepto
del «uso
justo»
(«fair
use»).
Este
concepto
desarrollado
en
el
derecho
anglosajón
permite
el
uso
limitado
de
material
protegido
sin
que
sea
necesario
pedir
permiso
por
hacerlo.
Las
demandas
por
violaciones
de
copyright
no
han
parado
de
llegar
en
el
mundo
de
la
IA
generativa,
pero
parecen
estar
quedando
en
un
segundo
plano
mientras
estos
gigantes
prosperan.