La Inteligencia Artificial y sus aplicaciones más disruptivas en la actualidad (parte 3)

12 marzo, 2024

8 minutos de lectura

“La verdad os hará libres; la mentira os hará creyentes”: Pepe Rodríguez (filósofo, psicólogo y escritor español)

🖋 David Moisés Terán Pérez *

Buenos días estimadas(os) lectoras(es) de esta columna invitada. Como ya es nuestra costumbre, deseo que tengan un grandioso, feliz, productivo y extraordinario martes. En esta ocasión, continuaremos desarrollando contenido para la saga que se inició hace ya dos semanas, con un tema bastante interesante y sumamente actualizado: “La Inteligencia Artificial (IA)”. Comenzamos: En esta ocasión, continuaremos con la explicación del funcionamiento de los modelos generativos sobre datos, para generar video a través de éstos; es decir, continuaremos explicando el formato de operación de SoraAI™, y también continuaremos ofreciendo un estado del arte o estado del conocimiento sobre este tema, a través de las referencias que se incluyen:

RED DE COMPRESIÓN DE VÍDEO

SoraAI™, entrena una red que reduce la dimensionalidad de los datos visuales [(Kingma & Welling, 2013)] Esta red toma video sin procesar como entrada, y genera una representación latente que se comprime tanto temporal, como espacialmente. SoraAI™, se entrena, y posteriormente genera videos dentro de este espacio latente comprimido. También se entrena un modelo decodificador correspondiente, que asigna las acciones latentes generadas, al espacio de píxeles.

PARCHES LATENTES DEL ESPACIO-TIEMPO: En SoraAI™, dado un vídeo de entrada comprimido, se extrae una secuencia de parches de espacio-tiempo que actúan como fichas (tokens) transformadoras. Este esquema también funciona para imágenes, ya que las imágenes son sólo videos con un solo cuadro. Nuestra representación basada en parches, permite a SoraAI™, entrenar en videos e imágenes de resoluciones, de duraciones y de relaciones de aspecto totalmente variables. En el momento de la inferencia, es posible controlar el tamaño de los videos generados, organizando parches inicializados aleatoriamente en una cuadrícula de tamaño adecuado.

TRANSFORMADORES DE ESCALADO PARA GENERACIÓN DE VIDEO

SoraAI™, es un modelo de difusión [(Ho; Jain & Abbeel, 2020); (Sohl-Dickstein, et. al., 2015); (Nichol & Dhariwal, 2021); (Dhariwal & Nichol, 2021); (Karras, et. al., 2022)]. Al recibir parches de entrada (e información condicionante como mensajes de texto), está entrenado para predecir los parches “limpios” originales (ver la Fig. 1). Es importante destacar que SoraAI™, es un transformador de difusión [(Peebles & Saining, 2023)]. Los transformadores de difusión, han demostrado notables propiedades de escala en una variedad de dominios, incluido el modelado del lenguaje [(Vaswani, et. al., 2017); (Brown, et. al., 2020)], la visión por computadora [(Dosovitskiy, et. al., 2020); (Arnab, et. al., 2021); (He, et. al., 2022); (Dehghani, et. al., 2023)], y la generación de imágenes [(Chen, et. al., 2020); (Ramesh, et. al., 2021); (Yu, et. al., 2022)].

En la Fig. 1, se puede visualizar que los transformadores de difusión, también se escalan efectivamente como modelos de video. La calidad de la muestra mejora notablemente, a medida que aumenta el cálculo en el entrenamiento de SoraAI™.

Fig. 1. Procesos en la transformación de video a partir del proceso de difusión.
Fuente: https://openai.com/research/video-generation-models-as-world-simulators

DURACIONES, RESOLUCIONES Y RELACIONES DE ASPECTO VARIABLES

Los enfoques anteriores para la generación de imágenes y de videos, generalmente redimensionan, o recortan videos a un tamaño estándar; por ejemplo, videos de 4 segundos con una resolución de 256*256 pixeles. Se descubre que en cambio entrenar la aplicación con datos en su tamaño nativo, proporciona varios beneficios, por ejemplo, maximizar el uso de la memoria RAM durante la ejecución de la aplicación.

FLEXIBILIDAD DE MUESTREO

SoraAI™, puede muestrear videos de pantalla ancha de 1 920*1 080 pixeles, videos verticales de 1 080*1 920 pixeles, y todo lo demás. Esto permite a SoraAI™, crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas. También permite crear rápidamente prototipos de contenido en tamaños más pequeños, antes de generarlo a resolución completa, todo con el mismo modelo.

ENCUADRE Y COMPOSICIÓN MEJORADOS

Empíricamente, puede encontrarse que entrenar videos en sus proporciones nativas, mejora la composición y el encuadre. Si se compara a SoraAI™, con una versión del modelo que recorta todos los videos de entrenamiento, para que sean cuadrados, lo cual es una práctica común al entrenar modelos generativos. El modelo entrenado en cultivos cuadrados, muchas veces genera videos donde un sujeto y/o un objeto, solamente se ve(n) parcialmente. En comparación, los vídeos de SoraAI™, tienen un encuadre mejorado.

COMPRENSIÓN DEL LENGUAJE

Entrenar los sistemas de generación de texto para transformarlo a video, requiere de una ingente cantidad de videos con los subtítulos de texto correspondientes. Para ello, se aplica a los vídeos la técnica de re-subtitulado, introducida en DALL E-3 (Betker, et. al., 2023). Primero, se entrena un modelo de subtítulos altamente descriptivo, y luego se usa para producir subtítulos de texto para todos los videos en el conjunto de entrenamiento. Con la acción anterior, se descubrió que la formación sobre subtítulos de vídeo altamente descriptivos, mejora la fidelidad del texto, así como la calidad general de los vídeos. Al igual que en DALL E-3, también se aprovecha GPT para convertir breves mensajes de usuario en subtítulos más largos y detallados que se envían al modelo de vídeo. Esto permite a SoraAI™, generar vídeos de alta calidad que siguen con precisión las indicaciones del usuario. A continuación, se explica más a detalle, el contenido de este párrafo, ya que es la esencia que explica el funcionamiento de SoraAI™; así como algunos ejemplos de su uso en la cotidianidad:

Comprensión del lenguaje: Se refiere al proceso de entrenar sistemas de inteligencia artificial para comprender y generar texto de manera efectiva.
Entrenar los sistemas de generación de texto para transformarlo a video: Este es el objetivo principal del proceso descrito, que implica entrenar modelos de IA para generar videos a partir de texto.
Re-subtitulado: Es una técnica que implica volver a generar subtítulos para videos existentes. En este contexto, se utiliza para generar una gran cantidad de subtítulos de texto para videos que se utilizarán en el proceso de entrenamiento.
DALL E-3: Es el nombre de un sistema o modelo específico que introdujo esta técnica de re-subtitulado. DALL E-3 es una versión específica del modelo DALL E, posiblemente una versión mejorada o iteración del mismo.
Modelo de subtítulos altamente descriptivo: Se refiere a un modelo de inteligencia artificial que ha sido entrenado para generar subtítulos de texto detallados y descriptivos para videos.
Producción de subtítulos de texto para todos los videos en el conjunto de entrenamiento: Este es el paso, en el que se utilizan los modelos entrenados para generar subtítulos de texto para todos los videos en el conjunto de datos de entrenamiento.
Mejora de la fidelidad del texto y la calidad general de los vídeos: Este es el resultado del proceso descrito, donde el uso de subtítulos de vídeo altamente descriptivos, mejora tanto la precisión del texto generado, como la calidad general de los videos producidos.

Y, para cerrar esta tercera entrega, se presentan algunos ejemplos de aplicación de DALL E-3 (herramienta de SoraAI™), en la cotidianidad:

Generación de imágenes a partir de texto: DALL-E puede generar imágenes realistas a partir de descripciones de texto. Por ejemplo, si le das una descripción como “un gato hecho de helado”, DALL-E podría producir una imagen que cumpla con esa descripción.
Edición de imágenes basada en texto: DALL-E puede utilizarse para realizar ediciones en imágenes basadas en descripciones de texto. Por ejemplo, podrías solicitar que cambie el color de un objeto en una imagen específica simplemente describiéndolo en palabras.
Creación de arte generativo: Los artistas y diseñadores pueden usar DALL-E como herramienta creativa para generar ideas visuales a partir de conceptos escritos. Por ejemplo, podrían alimentar al modelo con descripciones abstractas y explorar las imágenes generadas como inspiración para proyectos artísticos.
Ayuda en el diseño y la creación de contenido visual: DALL-E puede ser utilizado por diseñadores gráficos y creadores de contenido para generar rápidamente prototipos visuales o crear imágenes para ilustrar conceptos en presentaciones, publicaciones en redes sociales, blogs, etcétera.

La próxima semana, continuaremos desarrollando contenido para esta disruptiva herramienta. Ojalá que ustedes lectores(as), ya hayan tenido la oportunidad de descargar la herramienta SoraAI™ a sus equipos (computadora de escritorio, computadora portátil y tableta), para que comiencen a generar sus primeros videos a través de escribir textos, y de esa manera, aprendan y aprovechen esta herramienta, ya sea para su trabajo, para sus clases, o simplemente, para el entretenimiento. La descarga la pueden realizar con toda confianza, desde el siguiente sitio web: https://www.soradownload.com/es/ Muchas gracias, y saludos cordiales desde la por siempre sumamente Hermosa Bahía de Banderas (Puerto Vallarta y la Riviera Nayarit). (Continuará…)

Referencias:

Arnab, Anurag, et. al., (2021). Vivit: A video vision transformer. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Betker, James, et. al., (2023). Improving image generation with better captions. Computer Science. Disponible en: https://cdn.openai.com/papers/dall-e-3, pdf. 2.3: 8.

Brown, Tom, et. al., (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33: p.p. 1 877-1 901.

Chen, Mark, et. al., (2020). Generative pretraining from pixels. International Conference on Machine Learning. PMLR.

Dehghani, Mostafa, et. al., (2023). Patch n’pack: NaViT, a vision transformer for any aspect ratio and resolution. arXiv preprint arXiv:2307.06304.

Dhariwal, Prafulla & Alexander Quinn Nichol. (2021). Diffusion Models Beat GAN on Image Synthesis. Advances in Neural Information Processing Systems.

Dosovitskiy, Alexey, et. al., (2020). An image is worth 16*16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.

He, Kaiming, et. al., (2022). Masked autoencoders are scalable vision learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Ho, Jonathan; Ajay Jain, & Pieter Abbeel. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems 33: p.p. 6 840-6 851.

Karras, Tero, et. al., (2022). Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems 35: 26565-26577.

Kingma, Diederik P., & Max Welling. (2013). Auto-encoding variational Bayes. arXiv preprint arXiv:1312.6114.

Meng, Chenlin, et. al., (2021). Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

Nichol, Alexander Quinn & Prafulla Dhariwal. (2021). Improved denoising diffusion probabilistic models. International Conference on Machine Learning. PMLR.

Peebles, William & Saining Xie. (2023). Scalable diffusion models with transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Ramesh, Aditya, et. al., (2021). Zero-shot text-to-image generation. International Conference on Machine Learning. PMLR.

Ramesh, Aditya, et. al., (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125. 1.2: 3.

Sohl-Dickstein, Jascha, et. al., (2015). Deep unsupervised learning using nonequilibrium thermodynamics. International Conference on Machine Learning. PMLR.

Vaswani, Ashish, et. al., (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

Yu, Jiahui, et. al., (2022). Scaling autoregressive models for content-rich text-to-image generation. arXiv preprint arXiv:2206.10789. 2.3: 5.

* Ingeniero Mecánico Electricista por la UNAM. Especialidad en Habilidades Docentes por la UNITEC. Maestro en Microelectrónica por la Université Pierre et Marie Curie de París. Maestro en Alta Dirección por el IPADE. Maestro en Ciencias de la Educación por la UVM. Doctor en Educación por la UPN. Académico en la UNAM por 30 años; así como en otras importantes instituciones de educación superior (IES): Universidad del Valle de México (UVM), la Universidad Tecnológica de México (UNITEC), la Universidad del Pedregal, la Universidad ICEL, la Universidad Anáhuac del Sur, entre muchas otras. Fue Director de los Centros Autorizados de Servicio (CAS) en Hewlett-Packard de México. También fue Líder de Proyecto Eléctrico en Siemens México. Autor de siete libros publicados por Alfaomega Grupo Editor. Cuatro títulos más en la Editorial Umbral/PES. Y cinco títulos ya publicados directamente en la Plataforma de Amazon KDP. Y en este momento (2024), está desarrollando un texto para la editorial Springer-Nature de Alemania, cuyo título es: “Computación Biológica aplicada a la Cotidianidad” (“Computational Biology: Transforming Everyday Life”). Además de ser un reconocido conferencista nacional e internacional. Actualmente, es el CEO del Centro Evaluador en Competencias Laborales, y Centro de Evaluación Internacional en Microsoft: “Liderazgo en Certificación”, LICERT, S.A.S. de C.V., (www.licert.com.mx), avalado por el CONOCER y la SEP. Sus correos electrónicos son: atencionalcliente@licert.com.mx y dmtp040964@gmail.com

12 marzo, 2024

8 minutos de lectura

La Inteligencia Artificial y sus aplicaciones más disruptivas en la actualidad (parte 3)

“La verdad os hará libres; la mentira os hará creyentes”: Pepe Rodríguez (filósofo, psicólogo y escritor español)

🖋 David Moisés Terán Pérez *

Leer siguiente

Cuba, el fin de un sueño

Síntomas, transmisión y cómo prevenirlo: lo que debes saber sobre el sarampión

Los niños 2025: educando para los empleos que aún no existen (parte 10)

La brecha que suena en silencio

Deseos infinitos

“Casi el paraíso”, la novela cumbre de Luis Spota

Café, ¿aliado o enemigo de tu bienestar?

ARMY de BTS, una lección de participación ciudadana

Los niños 2025: educando para los empleos que aún no existen (parte 9)

El día que Muñoz Ledo cedió

Cuba, el fin de un sueño

Síntomas, transmisión y cómo prevenirlo: lo que debes saber sobre el sarampión

Los niños 2025: educando para los empleos que aún no existen (parte 10)

La brecha que suena en silencio

Deseos infinitos

“Casi el paraíso”, la novela cumbre de Luis Spota

Café, ¿aliado o enemigo de tu bienestar?

ARMY de BTS, una lección de participación ciudadana

Los niños 2025: educando para los empleos que aún no existen (parte 9)

El día que Muñoz Ledo cedió

Visitas:

“La verdad os hará libres; la mentira os hará creyentes”: Pepe Rodríguez (filósofo, psicólogo y escritor español)

🖋 David Moisés Terán Pérez *

Leer siguiente

Cuba, el fin de un sueño

Síntomas, transmisión y cómo prevenirlo: lo que debes saber sobre el sarampión

Los niños 2025: educando para los empleos que aún no existen (parte 10)

La brecha que suena en silencio

Deseos infinitos

“Casi el paraíso”, la novela cumbre de Luis Spota

Café, ¿aliado o enemigo de tu bienestar?

ARMY de BTS, una lección de participación ciudadana

Los niños 2025: educando para los empleos que aún no existen (parte 9)

El día que Muñoz Ledo cedió

Artículos relacionados