Inteligencia Artificial (IA) de Microsoft puede dibujar objetos en base a descripciones de texto detalladas

Inteligencia Artificial (IA) de Microsoft puede dibujar objetos en base a descripciones de texto detalladas

Google puede haberle enseñado a una IA a hacer garabatos, pero dibujar algo más complejo es difícil para una computadora. Imagine pedirle a una computadora que dibuje un «pájaro amarillo con alas negras y un pico corto»; suena un poco complicado. Los investigadores de Microsoft, sin embargo, han estado desarrollando una tecnología basada en la inteligencia artificial para hacer precisamente eso. Genera imágenes a partir de descripciones de texto con una sorprendente cantidad de precisión, según el documento más reciente publicado por el equipo.

 

El sistema no encuentra una imagen existente basada en su entrada de texto, pero crea un dibujo real. «Si vas a Bing y buscas un pájaro, obtienes una imagen de pájaro. Pero aquí, las imágenes son creadas por la computadora, píxel por píxel, desde cero», dijo el investigador principal Xiaodong He en un comunicado. «Es posible que estas aves no existan en el mundo real, son solo un aspecto de la imaginación de las aves de nuestra computadora».

 

Si bien la forma actual de esta tecnología de dibujo no es perfecta, no es difícil imaginar un futuro en el que pueda funcionar como asistente de dibujo para pintores y diseñadores de interiores o una herramienta para refinar fotos en función de la entrada de voz. Más lejos, el investigador imagina películas animadas generadas a partir de un guión escrito.

 

El equipo comenzó su investigación sobre visión artificial y procesamiento del lenguaje natural con CaptionBot, un sistema de inteligencia artificial que escribe automáticamente subtítulos para las fotos, luego creó un sistema para responder preguntas que las personas hacen sobre imágenes llamadas SeeingAI, que pueden ser útiles si estás ciego . La tecnología actual consta de dos partes: una que genera imágenes conocidas como Red de Adversarios Generativos (GAN) y otra que juzga la calidad de las imágenes generadas, conocida como discriminador. El robot de dibujo fue entrenado en pares de imágenes y leyendas, que enseñan a la IA a aprender qué palabras van con qué imágenes. El equipo también creó una representación matemática de la atención humana, que es lo que todos usamos cuando dibujamos imágenes de descripciones complejas: un ala roja, un pico afilado, un ala amarilla. «La atención es un concepto humano; utilizamos las matemáticas para hacer que la atención sea computacional», dijo He.

Otro ejemplo:

Fuente:

TechCrunch.com

Engadget.com

Dejar comentario