Cómo los videojuegos se convirtieron en el motor de la IA moderna
Ciudad de México, 13 de enero del 2025.- En 2012, la nueva edición de la célebre competición “reto de reconocimiento visual a larga escala” (ImageNet Large Scale Visual Recognition Challenge), donde se presentaban innovaciones dentro del campo de la visión por ordenador que debían ser capaces de reconocer millones de imágenes de mil categorías diferentes, marcó un hito tecnológico. Allí, el científico Geoffrey Hinton, premio Nobel de Física en 2024, anunció junto con sus colaboradores Alex Krizhevsky e Ilya Sutskever un nuevo modelo de red neuronal, al que bautizaron como AlexNet.
Lo impactante del nuevo modelo es que era capaz de obtener unos rendimientos muy por encima de lo esperado a partir de los resultados que se habían producido en ediciones anteriores. El grupo de Hinton había sido capaz de reducir el error de reconocimiento a tan solo el 15 %.
Este fue el punto de inflexión que lanzó la popularidad de modelos del tipo AlexNet, llamados redes de neuronas convolucionales (CNN), que tan importantes están siendo en el actual impacto de las redes de neuronas en la inteligencia artificial. También catapultó la invención de posteriores modelos, basados en las ideas aportadas por las CNN.
Pero ¿Qué motivó la aparición repentina de estos nuevos modelos?
La universalidad de los datos
La fuente principal de aprendizaje de las redes de neuronas son los datos. Para poder desarrollar modelos capaces de realizar tareas muy complejas, generales y de manera eficiente, de manera similar a como lo haría un ser humano, se necesitan modelos con muchos parámetros.
Pero para que dichos modelos, que reciben el nombre de “profundos”, sean capaces de aprender, se necesita una enorme cantidad de datos. Esto no era posible hasta la aparición de las redes sociales y otras plataformas digitales.
Facebook, Twitter, Instagram, YouTube y TikTok generan diariamente volúmenes inmensos de información en forma de texto, imágenes, vídeos y metadatos. Ello hace posible la recopilación y almacenamiento de datos de manera masiva, como hasta ahora era impensable imaginar.
Según Statista, en 2024, la cantidad total de datos creados, capturados, copiados y consumidos a nivel global alcanzó la cifra de 149 zettabytes (ZB; la unidad es equivalente a 1 180 591 620 717 411 303 424 bytes). Y se espera que se incremente hasta los 394 ZB en los próximos cinco años.
Unidad de proceso gráfico de Nvidia, uno de sus mayores fabricantes. Wikimedia Commons., CC BY
El desarrollo de la industria del videojuego
Desde finales del siglo pasado, la industria de los videojuegos ha ido generando más y más beneficios. En tan solo una década, el incremento en la facturación fue exponencial, llegando a superar a la del cine y la música juntos, lo que impulsó la competitividad entre las empresas desarrolladoras. En una carrera hacia la generación de juegos con gráficos más realistas, las necesidades de potencia de cálculo aumentaron radicalmente.
De esta necesidad surgió el desarrollo de un nuevo módulo de proceso llamado “unidad de procesado gráfico” (GPU). Las GPU se diseñaron específicamente para optimizar operaciones matriciales, que son las que se realizan en entornos gráficos, ya que las imágenes están almacenadas en forma de enormes matrices de píxeles.
Además están pensadas para ser manejadas de forma paralela, utilizando varias GPU al mismo tiempo. Esto permitió que los juegos pudieran contar con imágenes de cada vez mayor resolución, sin verse alterada la velocidad de movimiento. Las imágenes aparecen en el juego de manera natural, sin saltos, produciendo una apariencia parecida a la de un vídeo.
Resulta que los modelos de redes neuronales también tienen una representación matricial de sus parámetros. Es decir, las operaciones a realizar son matriciales y las matrices utilizadas, al igual que en los entornos gráficos, son muy grandes.
Por lo tanto, gracias al auge de la industria de los videojuegos, la comunidad científica disponía de un nuevo dispositivo capaz de operar con la capacidad suficiente para diseñar redes neuronales con cientos de millones de parámetros.
La complejidad de los modelos
Los ingredientes estaban servidos. Por un lado, la necesidad de modelos más complejos para poder gestionar la ingente cantidad de datos existentes, con el fin de extraer información relevante de datos no estructurados. Por otro, el desarrollo de un dispositivo capaz de entrenar modelos complejos con un enorme número de ejemplos.
Es a partir de este momento que Hinton y su equipo pudieron diseñar un modelo complejo, la citada red AlexNet, compuesta por once capas de células de diferente complejidad, incluyendo más de 60 millones de parámetros. Además, utilizaron la nueva tecnología de GPU para poder entrenarlo con los millones de imágenes disponibles, hasta alcanzar unos resultados sin precedentes.
Lo que vino después era inimaginable. Aparecieron nuevos modelos de redes profundas con rendimientos cada vez más grandes, como ResNet y VGG. Nacieron los modelos generativos –capaces de imitar voces, producir imágenes y vídeos de forma indistinguible a las creaciones humanas–, las redes generativas antagónicas y los autocodificadores variacionales.
Surgieron al mismo tiempo modelos capaces de procesar el lenguaje natural como nunca había sido posible. Y, por último, nacieron los modelos llamados transformer y de atención, que han sido pieza clave en el desarrollo de modelos de lenguaje como ChatGPT y Gemini, que tanto impacto están teniendo en la implantación de la IA en todo el mundo.
Con información de: https://www.eleconomista.com.mx/