Columna invitada

La Inteligencia Artificial y sus aplicaciones más disruptivas en la actualidad (parte 5)

“La verdad os hará libres; la mentira os hará creyentes”: Pepe Rodríguez (filósofo, psicólogo y escritor español)


🖋 David Moisés Terán Pérez *

Buenos días estimadas(os) lectoras(es) de esta columna invitada. Como ya es nuestra muy sana costumbre, deseo que tengan un grandioso, feliz, productivo y extraordinario martes. En esta ocasión, continuaremos desarrollando contenido para la saga que se inició hace ya cuatro semanas (un mes), con un tema bastante interesante, así como perentorio por conocer, por dominar y por aprender, e igualmente muy actualizado: “La Inteligencia Artificial (IA) aplicada a la educación”. En esta ocasión, continuaremos con la explicación del funcionamiento de los modelos generativos basados en datos para generar video a través de éstos; es decir, continuaremos explicando el formato de operación de SoraAI™, y también se ofrecerá un estado del arte -o estado del conocimiento- sobre este tema, a través de las referencias que se han venido incluyendo -tanto en este, como en los cuatro anteriores artículos-. Esto representa una ventaja competitiva importante, porque el(la) lector(a) interesado(a) en ahondar sobre el tema podrá hacerlo de manera autónoma y bien fundamentada, ya que todas las referencias están validadas y actualizadas. Comenzamos.

  • Capacidades de simulación emergentes: Descubrimos que los modelos de vídeo, exhiben una serie de capacidades emergentes interesantes cuando se entrenan a escala. Estas capacidades permiten a SoraAI™, simular algunos aspectos de personas, de animales, y de entornos del mundo físico. Estas propiedades surgen sin ningún sesgo inductivo explícito para el entorno en 3D, para los objetos, u otras entidades: Ya que son puramente fenómenos de escala [(Dosovitskiy, et. al., 2020); (Arnab, et. al., 2021); (He, et. al., 2022); (Dehghani, et. al., 2023)].
  • Consistencia 3D: Actualmente, SoraAI™, puede generar videos con movimiento dinámico de la cámara. A medida que la cámara se desplaza y gira, las personas y los elementos de la escena se mueven consistentemente a través del espacio tridimensional [(Vaswani, et. al., 2017); (Brown, et. al., 2020)].
  • Coherencia de largo alcance, y permanencia del objeto: Un desafío importante para los sistemas de generación de video, ha sido mantener la coherencia temporal al muestrear videos largos. Descubrimos que SoraAI™ a menudo, aunque no siempre, es capaz de modelar eficazmente dependencias tanto de corto como de largo plazo. Por ejemplo, el actual modelo puede persistir en personas, animales y objetos, incluso cuando están ocluidos (obstruidos) y/o salen del marco. Asimismo, puede generar múltiples tomas del mismo personaje en una sola muestra, manteniendo su apariencia durante todo el vídeo [(Srivastava; Mansimov & Salakhudinov, 2015); (Chiappa, et. al., 2017); (Ha & Schmidhuber, 2018)].
  • Interactuando con el mundo: A veces, SoraAI™ puede simular acciones que afectan el estado del mundo de forma sencilla. Por ejemplo, un pintor puede dejar nuevos trazos a lo largo de un lienzo que persisten en el tiempo, y/o un hombre puede comerse una hamburguesa y dejar marcas de mordiscos [(Vondrick; Pirsiavash & Torralba, 2016); (Tulyakov, et. al., 2018); (Clark; Donahue & Simonyan, 2019); (Brooks, et. al., 2022)].
  • Simulando mundos digitales: También SoraAI™ es capaz de simular procesos artificiales; un ejemplo son los videojuegos. SoraAI™, puede controlar simultáneamente al jugador en “Minecraft” (que es un juego formado por bloques, criaturas y comunidades), con una política básica y al mismo tiempo representar el mundo y su dinámica en alta fidelidad. Estas capacidades se pueden obtener de manera inmediata al indicarle a SoraAI™, leyendas que mencionen “Minecraft”. Estas capacidades, sugieren que la ampliación continua de los modelos de vídeo es un camino prometedor hacia el desarrollo de simuladores altamente capaces del mundo físico y digital, y de los objetos, animales y personas que viven en ellos [(Yan, et. al., 2021); (Wu, et. al., 2022)].

Conclusiones preliminares:

Actualmente, SoraAI™, aún presenta numerosas limitaciones como simulador. Por ejemplo, no modela con precisión la física de muchas interacciones básicas, como la rotura de cristales. Otras interacciones, como comer, no siempre producen cambios correctos en el estado del objeto. Se enumeran otros modos de falla comunes del modelo, como incoherencias que se desarrollan en las muestras de larga duración, y/o en las apariciones espontáneas de objetos. Es posible considerar que las capacidades que SoraAI™ tiene en este momento, demuestran que el escalamiento continuo de modelos de video es un camino bastante prometedor hacia el desarrollo de simuladores sumamente capaces de representar objetivamente el mundo físico y digital; así como a los objetos, a los animales, y a las personas que viven dentro de dicho entornos físico y digital. Por lo que, aun con las restricciones que en este momento tiene SoraAI™, el futuro de la aplicación es realmente inmenso en el futuro cercano; sólo habrá que esperar el tiempo prudente, que los investigadores, los programadores y los desarrolladores requieren para desarrollar todo su espectro de potencial: ¡Tiempo al tiempo!

Hasta aquí, la fase teórica de SoraAI™, la próxima semana en la parte 6, comenzaremos a analizar algunas de las aplicaciones más importantes de esta Inteligencia Artificial en los siguientes rubros: Educación, Medicina, Administración, Ventas, Finanzas, entre muchas otras. Nuevamente, reciban un muy cordial saludo y un gran abrazo a la distancia, en esta ocasión desde la también muy Hermosa “Perla Tapatía” (Guadalajara Jalisco, México). Muchas gracias. (Continuará…)

Referencias:

Arnab, Anurag, et. al., (2021). Vivit: A video vision transformer. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Betker, James, et. al., (2023). Improving image generation with better captions. Computer Science. Disponible en: https://cdn.openai.com/papers/dall-e-3, pdf. 2.3: 8.

Brown, Tom, et. al., (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33: p.p. 1 877-1 901.

Chen, Mark, et. al., (2020). Generative pretraining from pixels. International Conference on Machine Learning. PMLR.

Dehghani, Mostafa, et. al., (2023). Patch n’pack: NaViT, a vision transformer for any aspect ratio and resolution. www.arXivpreprintarXiv:2307.06304 (Consultado en Marzo del 2024).

Dhariwal, Prafulla & Alexander Quinn Nichol. (2021). Diffusion Models Beat GAN on Image Synthesis. Advances in Neural Information Processing Systems.

Dosovitskiy, Alexey, et. al., (2020). An image is worth 16*16 words: Transformers for image recognition at scale. www.arXivpreprintarXiv:2010.11929 (Consultado en Marzo del 2024).

He, Kaiming, et. al., (2022). Masked autoencoders are scalable vision learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

Ho, Jonathan; Ajay Jain, & Pieter Abbeel. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems 33: p.p. 6 840-6 851.

Karras, Tero, et. al., (2022). Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems 35: 26565-26577.

Kingma, Diederik P., & Max Welling. (2013). Auto-encoding variational Bayes. www.arXivpreprintarXiv:1312.6114 (Consultado en Marzo del 2024).

Meng, Chenlin, et. al., (2021). Sdedit: Guided image synthesis and editing with stochastic differential equations. www.arXivpreprintarXiv:2108.01073 (Consultado en Marzo del 2024).

Nichol, Alexander Quinn & Prafulla Dhariwal. (2021). Improved denoising diffusion probabilistic models. International Conference on Machine Learning. PMLR.

Peebles, William & Saining Xie. (2023). Scalable diffusion models with transformers. Proceedings of the IEEE/CVF International Conference on Computer Vision.

Ramesh, Aditya, et. al., (2021). Zero-shot text-to-image generation. International Conference on Machine Learning. PMLR.

Ramesh, Aditya, et. al., (2022). Hierarchical text-conditional image generation with clip latents. www.arXivpreprintarXiv:2204.06125.1.2:3 (Consultado en Marzo del 2024).

Sohl-Dickstein, Jascha, et. al., (2015). Deep unsupervised learning using nonequilibrium thermodynamics. International Conference on Machine Learning. PMLR.

Vaswani, Ashish, et. al., (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

Yu, Jiahui, et. al., (2022). Scaling autoregressive models for content-rich text-to-image generation. www.arXivpreprintarXiv:2206.10789.2.3:5 (Consultado en Marzo del 2024).

* Ingeniero Mecánico Electricista por la UNAM. Especialidad en Habilidades Docentes por la UNITEC. Maestro en Microelectrónica por la Université Pierre et Marie Curie de París. Maestro en Alta Dirección por el IPADE. Maestro en Ciencias de la Educación por la UVM. Doctor en Educación por la UPN. Académico en la UNAM por 30 años; así como en otras importantes instituciones de educación superior (IES): Universidad del Valle de México (UVM), la Universidad Tecnológica de México (UNITEC), la Universidad del Pedregal, la Universidad ICEL, la Universidad Anáhuac del Sur, entre muchas otras. Fue Director de los Centros Autorizados de Servicio (CAS) en Hewlett-Packard de México. También fue Líder de Proyecto Eléctrico en Siemens México. Autor de siete libros publicados por Alfaomega Grupo Editor. Cuatro títulos más en la Editorial Umbral/PES. Y cinco títulos ya publicados directamente en la Plataforma de Amazon KDP. Y en este momento (2024), está desarrollando un texto para la editorial Springer-Nature de Alemania, cuyo título es: “Computación Biológica aplicada a la Cotidianidad” (“Computational Biology: Transforming Everyday Life”). Además de ser un reconocido conferencista nacional e internacional. Actualmente, es el CEO del Centro Evaluador en Competencias Laborales, y Centro de Evaluación Internacional en Microsoft: “Liderazgo en Certificación”, LICERT, S.A.S. de C.V., (www.licert.com.mx), avalado por el CONOCER y la SEP. Sus correos electrónicos son: atencionalcliente@licert.com.mx y dmtp040964@gmail.com

Artículos relacionados

Back to top button
error: Content is protected !!