Columna invitada

Inteligencia Artificial en acción (parte 6)

“La tecnología es mejor cuando junta a las personas”: Matt Mullenweg (programador estadounidense, conocido por crear el sistema de gestión de contenido WordPress)


🖋 David Moisés Terán Pérez *

Hoy continuaremos con esta saga que desarrolla el tema “Los diferentes tipos de Inteligencia Artificial y sus diversas aplicaciones en la cotidianidad”, con la finalidad de conocer esta herramienta tecnológica, así como sus implicaciones en nuestra cotidianidad. ¡Que la imaginación sea el límite! En esta ocasión -y para esta sexta entrega- se hará una descripción/comparativa de tres inteligencias utilizadas en aplicaciones muy específicas: Stable Difussion ®; NVIDIA Omniverse®; y Meta AI® (Facebook®). Comencemos.

Como ya lo hemos analizado en las primeras cinco entregas, la inteligencia artificial (IA) ha evolucionado rápidamente en los últimos años, con avances en la generación de imágenes, en la simulación 3D, en el procesamiento del lenguaje natural, entre muchas otras. En este documento, se desarrolla contenido para las siguientes tecnologías clave:

  • Stable Diffusion®: Un modelo de generación de imágenes a través de la inteligencia artificial (IA) de/con código abierto.
  • NVIDIA Omniverse®: Una plataforma de simulación y de colaboración en 3D, basada en la inteligencia artificial (IA).
  • Meta AI® (Facebook AI Research (FAIR)): Los desarrollos en la inteligencia artificial (IA) de Meta™, incluyendo modelos avanzados de lenguaje, y de visión computacional.

Cada una de estas herramientas tiene aplicaciones revolucionarias en industrias como el entretenimiento, la medicina, el diseño, y muchas más. A continuación, profundizaremos en sus fundamentos, y en sus casos de uso.

1. Stable Diffusion®: Generación de imágenes con el uso de la inteligencia artificial (IA).

¿Qué es Stable Diffusion®? Es un modelo de difusión estable (stable diffusion) desarrollado por Stability AI™, en colaboración con investigadores académicos, y la comunidad de código abierto. A diferencia de otros modelos como DALL-E® (de OpenAI™), Stable Diffusion® es de acceso abierto, lo que permite que cualquier persona lo use y lo modifique (Stability, 2022).

¿Cómo funciona? Stable Diffusion® utiliza un proceso llamado difusión latente, en donde:

  • El ruido aleatorio se genera en el espacio latente (una representación comprimida de las imágenes).
  • El modelo aprende a eliminar el ruido paso a paso, guiado por texto (prompts).
  • El resultado, es una imagen coherente con la descripción textual.

Este proceso se ejecuta en unidades de procesamiento gráfico (GPU), optimizando recursos computacionales. Ejemplos de aplicación (2023 a la fecha):

  • En el arte digital: Artistas como Greg Rutkowski, han usado Stable Diffusion®, para crear ilustraciones fantásticas.
  • En el diseño publicitario: Algunas empresas generan banners y prototipos rápidamente.
  • En la Medicina: La generación de imágenes sintéticas, para entrenar modelos de diagnóstico.

Finalmente, Stable Diffusion® ha experimentado mejoras significativas desde su lanzamiento, destacando Stable Diffusion XL (SDXL)®, una versión optimizada para mayor resolución y detalle en las imágenes generadas. A diferencia de su predecesor, SDXL utiliza un modelo de dos etapas: Primero genera una imagen base, y luego la refina, logrando resultados más coherentes con textos (prompts) complejos (como las descripciones de escenas con múltiples objetos).

Además, herramientas como LoRA® (Low-Rank Adaptation), permiten ajustes personalizados sin necesidad de reentrenar el modelo completo, facilitando su uso en nichos como el diseño de moda, o en la arquitectura. Sin embargo, su acceso abierto también ha generado polémica, especialmente por la creación de deepfakes o contenido no consentido, lo que ha llevado a implementar filtros éticos en las versiones recientes. Finalmente, otro desarrollo relevante es su integración con otras tecnologías de la inteligencia artificial (IA), como ControlNet®, que permite guiar la generación de imágenes mediante esqueletos, mapas de profundidad y/o de bordes predefinidos. Esto es invaluable para las aplicaciones profesionales, como los guiones (storyboards) cinematográficos, o en el prototipado de productos.

Empresas como Canva™ y Adobe Firefly®, ya incorporan variantes de Stable Diffusion® en sus plataformas, democratizando su uso. No obstante, persisten desafíos, como el sesgo en los datos de entrenamiento (que puede reflejar estereotipos) o el alto consumo energético. La comunidad sigue trabajando en soluciones, como modelos eficientes (Ejemplo: Stable Diffusion Lite®), para dispositivos móviles (Rombach, R., et. al., 2022).

2. NVIDIA Omniverse®: Simulación 3D y colaboración en tiempo real.

¿Qué es NVIDIA Omniverse®? Omniverse® es una plataforma de simulación 3D, y de colaboración basada en la inteligencia artificial (IA), diseñada para ingenieros, para diseñadores y para desarrolladores. Utiliza USD (Universal Scene Description) —un formato de Pixar™—, para integrar herramientas como Blender®, Maya®, y Unreal Engine®. Sus tecnologías clave son las siguientes (NVIDIA, 2023):

  • PhysX®: Simulación física realista.
  • RTX Rendering®: Gráficos en tiempo real con trazado de rayos.
  • AI Tools®: Integración con los modelos de la inteligencia artificial (IA), para la generación de contenido.

Ejemplos de aplicación (2023 a la fecha):

  • Automotriz: BMW™ usa Omniverse® para diseñar fábricas digitales (BMW Group, 2022).
  • Cine: Estudios como Industrial Light & Magic™ (ILM), crean efectos visuales.
  • Robótica: Entrenamiento de robots en entornos virtuales, antes de su despliegue real.

Un avance clave de NVIDIA Omniverse® en el año 2024, es su integración con los modelos de la inteligencia artificial (IA) generativa, como Picasso® (para la generación de imágenes 3D a partir de texto) y NeMo® (para la creación de diálogos en los avatares digitales). Esto permite, por ejemplo, que los diseñadores generen prototipos 3D con solamente describirlos en lenguaje natural; acelerando así, los procesos en las industrias como la arquitectura o el juego (gaming). Empresas como WPP™ (es un conglomerado global de servicios de marketing y de comunicaciones, considerado uno de los más grandes del mundo. Su nombre original es: “Wire and Plastic Products”, refleja sus inicios en el año 1971 como una empresa industrial, pero en 1985 cambió de rumbo hacia la publicidad y la mercadotecnia. Actualmente, WPP™ agrupa a múltiples agencias líderes en publicidad, en relaciones públicas, en investigación de mercados, y en tecnología creativa), están utilizando esta tecnología para producir campañas publicitarias hiperrealistas en tiempo récord (NVIDIA, 2024). Además, Omniverse® ahora soporta simulaciones físicas basadas en la inteligencia artificial (IA), como en las dinámicas de los fluidos, y/o en las deformaciones de los materiales, con una precisión cercana a la realidad, lo que es crucial para sectores como la aeronáutica (ejemplo: Airbus™ usa estas herramientas para probar la resistencia de componentes virtuales, antes de fabricarlos).

Otro aspecto innovador es su rol en el metaverso empresarial. Omniverse™ no solamente conecta herramientas de diseño como Autodesk Maya®, o Adobe Substance 3D®, sino que también permite la colaboración en tiempo real entre equipos de trabajo distribuidos globalmente, con cambios sincronizados al instante. Un caso destacado es el de Siemens™, que emplea Omniverse® para construir “gemelos digitales” de fábricas inteligentes, optimizando líneas de producción con datos en vivo (Siemens, 2023). La plataforma también ha incursionado en el entretenimiento: En el año 2023, Pixar™ la utilizó para renderizar escenas complejas de Lightyear® con un 50% menos de tiempo. Sin embargo, el alto costo de las GPU necesarias (como las H100), sigue siendo una barrera para las pequeñas empresas, aunque NVIDIA™, está desarrollando soluciones en la nube (Omniverse Cloud®) para democratizar el acceso.

3. Meta AI®: Avances en la inteligencia artificial (IA) de Facebook® (Meta™).

¿Qué es Meta AI®?: Meta AI® (antes Facebook AI Research-FAIR®), es la división de la inteligencia artificial (IA) de Meta™ (Facebook®), enfocada en:

  • El procesamiento del lenguaje natural (NLP).
  • La visión por computadora.
  • La generación de mundos virtuales (Metaverso).

Sus modelos clave:

  • LLaMA (Large Language Model Meta AI): Competidor de GPT-4®, pero de código abierto.
  • Segment Anything Model (SAM): Segmentación de imágenes con un solo clic.
  • CICERO: Una inteligencia artificial (IA) que juega Diplomacy® a nivel humano.

Ejemplos de aplicación (2023 a la fecha):

  • Redes sociales: Filtros de Instagram® y Facebook® con la inteligencia artificial (IA).
  • Asistentes virtuales: Mejora en los chatbots para WhatsApp® y para Messenger®.
  • Realidad aumentada: Gafas Ray-Ban® con inteligencia artificial (IA) integrada.

Uno de los desarrollos más disruptivos de Meta AI® en el año 2024 es su enfoque en modelos multimodales, como CM3leon®, capaz de generar y de comprender contenido tanto de texto como de imágenes en un único sistema. Esta tecnología potencia aplicaciones como búsquedas visuales avanzadas en Instagram®, o en la creación automática de descripciones alternativas (alt text), para generar imágenes accesibles. Además, Meta™ ha integrado estos modelos en sus plataformas publicitarias, permitiendo a anunciantes generar variaciones de creativos en segundos. Otro hito es Voicebox®, un modelo de generación de voz que puede clonar estilos de habla con solamente 2 segundos de audio, aunque por cuestiones éticas su lanzamiento público ha sido restringido (Meta AI, 2022).

Estas innovaciones están siendo probadas en el Metaverso de Meta™, en donde avatares pueden interactuar con el lenguaje natural, y las expresiones faciales sincronizadas gracias a la inteligencia artificial (IA). Por otra parte, en el campo de la realidad aumentada (RA), Meta AI® está revolucionando dispositivos como las gafas Ray-Ban Meta®, que ahora incluyen asistentes de inteligencia artificial (IA) en tiempo real, que interpretan escenas (ejemplo: Traducir menús, o identificar monumentos). Proyectos como Ego4D® —un dataset para la inteligencia artificial (IA) que comprende perspectivas en primera persona—, están entrenando sistemas para aplicaciones en logística y en Medicina, como guiar a los técnicos en reparaciones complejas. Sin embargo, desafíos como el sesgo en dichos datasets, o el consumo energético de estos modelos persisten (Kirillov, et. al., 2023). Meta™ ha respondido con iniciativas como IA Responsable®, que incluye auditorías externas, y herramientas para reducir emisiones de carbono en sus centros de datos (data centers).

Hasta aquí con estas inteligencias artificiales, con sus principales características; así como con sus aplicaciones más representativas en la cotidianidad. La próxima semana, desarrollaremos contenido para las siguientes inteligencias artificiales (IA): Gamma®, Canva®, y SlideAI®.

Como ya es nuestra semanal, reciban un muy cordial saludo desde la Bahía de Banderas (Puerto Vallarta, y la Riviera Nayarit). Muchas gracias. (Continuará…)

Referencias:

Kirillov, A., et. al., (2023). Segment anything. Recuperado de: www.arXiv:2304.02643 (Consultado en Abril del 2025).

Meta AI. (2023). Introducing LLaMA. Recuperado de: https://ai.meta.com/llama/ (Consultado en Abril del 2025).

NVIDIA. (2024). Omniverse and generative AI: Transforming 3D workflows. Recuperado de: https://www.nvidia.com/en-us/omniverse/generative-ai/ (Consultado en Abril del 2025).

Rombach, R.; Blattmann, A.; Lorenz, D.; Esser, P. & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10684–10695. Recuperado de: https://doi.org/10.1109/CVPR52688.2022.01042 (Consultado en Abril del 2025).

Siemens. (2023). Digital twins in manufacturing with omniverse. Recuperado de: https://www.siemens.com/omniverse (Consultado en Abril del 2025).

Stability AI. (2022). Stable Diffusion public release. Recuperado de: https://stability.ai/stable-diffusion (Consultado en Abril del 2025).

Zhang, L. et. al., (2023). ControlNet: Adding conditional control to diffusion models. Recuperado de: www.arXiv:2302.05543 (Consultado en Abril del 2025).

* Ingeniero Mecánico Electricista por la UNAM. Especialidad en Habilidades Docentes por la UNITEC. Maestro en Microelectrónica por la Université Pierre et Marie Curie de París. Maestro en Alta Dirección por el IPADE. Maestro en Ciencias de la Educación por la UVM. Doctor en Educación por la UPN. Académico en la UNAM por 30 años; así como en otras importantes instituciones de educación superior (IES): Universidad del Valle de México (UVM), la Universidad Tecnológica de México (UNITEC), la Universidad del Pedregal, la Universidad ICEL, la Universidad Anáhuac del Sur, entre muchas otras. Fue Director de los Centros Autorizados de Servicio (CAS) en Hewlett-Packard de México. También fue Líder de Proyecto Eléctrico en Siemens México. Autor de siete libros publicados por Alfaomega Grupo Editor. Cuatro títulos más en la Editorial Umbral/PES. Y cinco títulos ya publicados directamente en la Plataforma de Amazon KDP. Y en este momento (2024), está desarrollando un texto para la editorial Springer-Nature de Alemania, cuyo título es: “Computación Biológica aplicada a la Cotidianidad” (“Computational Biology: Transforming Everyday Life”). Además de ser un reconocido conferencista nacional e internacional. Actualmente, es el CEO del Centro Evaluador en Competencias Laborales, y Centro de Evaluación Internacional en Microsoft: “Liderazgo en Certificación”, LICERT, S.A.S. de C.V., (www.licert.com.mx), avalado por el CONOCER y la SEP. Sus correos electrónicos son: atencionalcliente@licert.com.mx y dmtp040964@gmail.com

Artículos relacionados

Back to top button
error: Content is protected !!