Un célebre vídeo de DeepMind mostraba en 2015 cómo su motor para jugar al mítico Breakout (el Arkanoid de toda la vida) logró descubrir algo asombroso. Tras 240 minutos de entrenamiento detectó que si lograba «colar» la pelota en la parte superior de la barrera de ladrillos, lograr mejores puntuaciones era pan comido.
Aquel truco ha sido uno de tantos que han demostrado cómo esas máquinas que juegan a videojuegos buscan todo tipo de trampas para lograr su objetivo, que a menudo es obtener la mayor puntuación. Eso ha llevado a descubrimientos alucinantes en los que la IA ha demostrado una pillería digna de los seres humanos, aunque esas trampas a menudo hagan que las IAs no puedan ver el bosque (el objetivo final, ganar el juego) porque están centradas en los árboles (sacar la mayor puntuación).
Máquina, eres un poco tramposa
Aquel agente de inteligencia artificial desarrollado por DeepMind lograba aplicar redes neuronales y aprendizaje por refuerzo —aquí explican bien cómo se implementan estos sistemas— para construir esos motores que por ejemplo también vimos aprendiendo a conducir en Mario Kart o, ya puestos, en GTA V.
Para aprender a jugar a las máquinas se les ponen retos —muchos de ellos en juegos retro—, y normalmente uno de ellos es el de conseguir la máxima puntuación. Hay hasta eventos creados para demostrar la capacidad de los nuevos desarrollos en este ámbito, y hace unos meses se celebró el OpenAI Retro Contest en la que varios desarrollos demostraron ser singularmente creativos a la hora de obtener las mejores puntuaciones.
En Sonic, por ejemplo, la máquina se aprovechaba de un error de programación en las paredes de las zonas acuáticas, lo que le permitía terminar más rápido. A estos motores se les entrena con partidas jugadas por humanos, y aunque los algoritmos replican esas mecánicas, también experimentan con movimientos propios que hacen que a menudo dichos desarrollo vayan más allá y nos descubran formas sorprendentes de jugar estos juegos… y superarlos.
Una de las investigadoras de DeepMind llamada Victoria Krakovna ha compilado una lista de logros que los motores de inteligencia artificial han descubierto en distintos juegos antiguos. En ‘Qbert’ se descubrió un error en ciertas condiciones que hace que no se pase a la segunda fase y que el agente gane puntos de forma rápida mientras los cubos de la pantalla empieza a parpadear en distintos colores. En ‘Boat race’ el agente acaba yendo en círculos y golpeando sus objettivos en lugar de acabar la carrera, lo que también favorece una mayor puntuación.
Como indican en Kotaku, esa potencial para la autoexperimentación hace que estos motores se conviertan en competidores temibles en todo tipo de disciplinas en las que el descubrimiento de atajos y trucos para lograr las mejores puntuaciones funcionan sin que los jugadores humanos puedan superar esos retos.
Los avances en esta disciplina podrían hacer que por ejemplo el motor de DeepMind desarrollado para jugar a StarCraft II acabe batiendo a los mejores jugadores humanos, y lo mismo con DOTA 2, otro de los retos actuales de quienes trabajan en estos agentes de inteligencia artificial. Eso todavía no ha ocurrido, pero habrá que darle tiempo al tiempo, sobre todo si las máquinas, tramposillas ellas, siguen encontrando valiosos trucos para lograr ventajas competitivas. O para encontrar a los humanos que las hacen, que tampoco es mala cosa.