Este proyecto con Raspberry Pi genera imágenes de IA en la TV mediante voz

Enrique Peñalver Publicado el 06 de febrero, 2024 • 17:00

Las Raspberry Pi ofrecen una cantidad de personalización sin igual, ya que al final se tratan de dispositivos que tienen la arquitectura de un PC en un diminuto tamaño, pero que además permiten a las personas modificarlas como quieran. Hemos podido ver las creaciones que ha hecho la gente con estas Raspberry, desde consolas de juegos hasta robots en miniatura gracias a estos dispositivos, pero ahora también podríamos utilizarlas para generar imágenes IA en nuestra TV tan solo con nuestra voz.

Las imágenes mediante IA se generan mediante una serie de parámetros que establece la persona que la utiliza, permitiendo, a base de palabras, crear una imagen sin tener que dibujar absolutamente nada. Esto se puede llevar a otro nivel, permitiendo que la inteligencia artificial genere la imagen con tan solo escuchar las palabras que le indiquemos, de forma que ya no sería necesario ni escribir el prompt, si no que directamente se podría generar una imagen con decir una frase.

Proyecto Lumina imagen IA mediante voz TV

¿Una Raspberry Pi es capaz de generar imágenes IA en una TV?

Técnicamente estamos hablando de un dispositivo que se asemeja a un ordenador, por lo que efectivamente, si lo conectamos a un monitor y le instalamos un sistema operativo que cuente con una aplicación que permite utilizar una IA de generación de imágenes, es posible. Pero el dato importante, realmente no está en que sea posible, ya que como bien hemos indicado, es posible hacer esto en cualquier dispositivo que se asemeje a un PC.

Aquello que merece la pena comentar, es el hecho de que se puede hacer directamente mediante voz, ya que esto si que resulta un avance, principalmente esto se debe a que a la hora de generar una imagen, tenemos que utilizar un prompt con una serie de palabras específicas para que la inteligencia artificial sea capaz de reconocer qué es lo que queremos hacer, ya que en muchas ocasiones si utilizamos frases o palabras muy complejas es posible que genere algo que no queremos.

Si al avance que están teniendo las IA, le incorporamos los avances tecnológicos que tenemos gracias a las personas que tienen como hobby trastear con todo aquello que tiene circuitos, vemos como suceden cosas como esta. Y es que realmente generar la imagen no es complicado, ya que al final la persona que utiliza la IA no tiene que hacer prácticamente nada, lo complicado reside en intentar generarla mediante una frase, por cómo están hechas las IAs.

¿Cómo funciona?

El proyecto llevado a cabo por DevMiser, se trata de la incorporación de un software open source que ha denominado como Lumina a una Raspberry Pi, siendo la función de este, el uso de herramientas de reconocimiento de voz fusionadas con otras de generación de imágenes mediante IA. En este caso, el creador ha incorporado un script de Python personalizado que permite unir la aplicación Picovoice (reconocimiento de voz) con la IA DALL-E 3.

Esto permite que mediante un micrófono conectado mediante USB, la Raspberry Pi sea capaz de hacer una conversión de voz a texto, y que tras esto, se genere la imagen que hayamos indicado en nuestra TV, ya que tan solo es necesario conectar el dispositivo mediante HDMI para que este funcione.