19/12/2017
El panorama de la inteligencia artificial ha experimentado una transformación radical en los últimos años, impulsado por el crecimiento exponencial en la cantidad y el tamaño de los modelos de IA disponibles. En el centro de esta revolución se encuentran los Modelos Fundacionales (FM), una nueva generación de sistemas de IA diseñados para ser versátiles y potentes. Estos modelos no solo son numerosos, sino que también se han convertido en la infraestructura subyacente para una amplia gama de aplicaciones innovadoras, especialmente en el campo de la IA Generativa.
Los Modelos Fundacionales (FM) son modelos de inteligencia artificial de propósito general que se entrenan con cantidades masivas de datos sin etiquetar utilizando Aprendizaje Autosupervisado. Su naturaleza generalista y su entrenamiento a gran escala les permiten desarrollar una comprensión amplia del mundo y del lenguaje, actuando como la base sobre la que se construyen aplicaciones más específicas. La IA Generativa, que produce resultados novedosos, contextuales y similares a los humanos (texto, imágenes, código, etc.), es posible porque los FM proporcionan la estructura subyacente que comprende y procesa la información.
¿Por qué se les llama Modelos Fundacionales?
Hay dos razones principales por las que estos modelos reciben el nombre de "Fundacionales":
- Son fundamentos para innumerables casos de uso industrial: Los FM pueden ayudar a extraer información valiosa de datos no estructurados y mejorar la eficiencia empresarial automatizando tareas repetitivas, liberando tiempo para el trabajo estratégico.
- Son útiles para ajustar modelos con datos personalizados: Entrenar un FM desde cero es un proceso extremadamente costoso y requiere una infraestructura computacional masiva. Por ello, las empresas suelen personalizar un FM preentrenado mediante una técnica conocida como Ajuste Fino (Fine-tuning). Por ejemplo, un FM de lenguaje podría ajustarse con datos de tickets de soporte al cliente de una empresa para mejorar las capacidades de un chatbot específico.
¿Cómo funcionan los Modelos Fundacionales?
Los Modelos Fundacionales aprenden patrones y relaciones complejas dentro de los datos con los que se entrenan. Utilizando estos patrones, predicen el siguiente elemento o secuencia de elementos, como la siguiente palabra en una oración o el siguiente píxel en una imagen. Su capacidad para generar muchas salidas únicas a partir de una sola entrada proviene de que generan una distribución de probabilidad sobre todas las posibles salidas que pueden seguir a la entrada, y luego seleccionan la salida aleatoriamente de esa distribución.
Etapas Clave de los Modelos Fundacionales
Antes de ser ajustados para aplicaciones posteriores, los modelos fundacionales pasan por varias etapas:
- Preentrenamiento: Se entrenan en conjuntos de datos masivos.
- Generalizabilidad: Pueden funcionar bien en una amplia gama de tareas.
- Enormidad: Su arquitectura y extenso conjunto de datos les proporcionan una amplia comprensión y capacidades. La cantidad de Parámetros, que son los valores internos que el modelo aprende durante el entrenamiento, es un indicador clave de su tamaño y potencial.
- Adaptabilidad: Son modificables, y técnicas como el ajuste fino los hacen adecuados para diversas tareas y aplicaciones.
- Autosupervisión: No reciben orientación explícita para su aprendizaje, sino que aprenden dando sentido a los datos sin etiquetar.
Modelos Fundacionales Destacados
El campo de los Modelos Fundacionales ha visto la aparición de numerosos actores clave desde 2018. Aquí presentamos una lista de algunos de los modelos más influyentes basados en la información disponible:
BERT
Lanzado en 2018, BERT (Bidirectional Encoder Representations from Transformers) fue uno de los primeros Modelos Fundacionales. Es un modelo bidireccional que analiza el contexto de una secuencia completa antes de hacer una predicción. Fue entrenado con un corpus de texto sin formato y Wikipedia, utilizando 3.300 millones de tokens (palabras) y 340 millones de Parámetros. BERT es capaz de responder preguntas, predecir oraciones y traducir textos.
GPT (Generative Pre-trained Transformer)
Desarrollado por OpenAI, el modelo GPT también surgió en 2018 con GPT-1. Utilizaba un decodificador transformador de 12 capas. Fue entrenado con el conjunto de datos BookCorpus. Una característica notable de GPT-1 es su capacidad de llevar a cabo el aprendizaje zero-shot (realizar tareas para las que no ha sido entrenado explícitamente).
La evolución continuó con GPT-2 (2019), que aumentó significativamente el número de Parámetros a 1.500 millones. GPT-3 escaló aún más, con una red neuronal de 96 capas y 175.000 millones de Parámetros, entrenado con el conjunto de datos Common Crawl de 500.000 millones de palabras. El popular chatbot ChatGPT se basa en GPT-3.5. La versión más reciente mencionada, GPT-4, se lanzó a finales de 2022 y demostró capacidades avanzadas, como aprobar el examen uniforme de abogacía.
Amazon Nova
Amazon Nova representa una nueva generación de FM de última generación, destacando por su inteligencia y rentabilidad. Se divide en modelos de comprensión y modelos de generación de contenido creativo.
- Modelos de Comprensión: Amazon Nova Micro, Amazon Nova Lite y Amazon Nova Pro aceptan entradas de texto, imágenes y vídeo, generando salidas de texto. Ofrecen variedad en capacidad, precisión, velocidad y costo.
- Modelos de Generación de Contenido Creativo: Amazon Nova Canvas y Amazon Nova Reel aceptan entradas de texto e imagen, produciendo salidas en formato de imagen o vídeo. Están diseñados para generar imágenes y vídeos personalizables de alta calidad.
AI21 Jurassic
Jurassic-1 fue lanzado en 2021 por AI21 Labs. Es un modelo de lenguaje de regresión automática de 76 capas con 178.000 millones de Parámetros. Genera texto similar al humano y resuelve tareas complejas, con un rendimiento comparable al de GPT-3. En marzo de 2023, AI21 Labs lanzó Jurassic-2, que mejoró el seguimiento de instrucciones y las capacidades lingüísticas.
Claude
Desarrollado por Anthropic, Claude es otra familia importante de modelos. Claude 3.5 Sonnet es descrito como el modelo más inteligente y avanzado, superando a Claude 3 Opus. Claude 3 Opus es un modelo altamente inteligente y fiable para tareas complejas, capaz de funcionar en escenarios abiertos y novedosos con fluidez. Claude 3 Haiku es el modelo más rápido y compacto, ideal para experiencias de IA fluidas y tareas como moderación de contenido, gestión de inventario o traducción rápida.
Cohere
Cohere ofrece dos LLM (Modelos de Lenguaje Grandes): uno de generación, similar a GPT-3 en capacidades, y otro de representación, enfocado en la comprensión del lenguaje. Aunque el modelo de generación de Cohere tiene 52.000 millones de Parámetros, supera a GPT-3 en muchos aspectos.
Stable Diffusion
Lanzado en 2022, Stable Diffusion es un modelo de conversión de texto a imagen que genera imágenes de alta definición y realistas. Utiliza un modelo de difusión que aprende a crear imágenes mediante tecnologías de generación y eliminación de ruido. Destaca por ser más pequeño que competidores como DALL-E 2, permitiendo su ejecución en hardware menos potente, como una tarjeta gráfica normal o incluso un teléfono inteligente con una plataforma Snapdragon Gen2.
BLOOM
BLOOM es un modelo multilingüe con una arquitectura similar a GPT-3, desarrollado en 2022 en una colaboración global. Cuenta con 176.000 millones de Parámetros y fue entrenado en 384 GPU Nvidia A100. Aunque su punto de control requiere 330 GB de almacenamiento, puede ejecutarse en una PC independiente con 16 GB de RAM. BLOOM puede crear texto en 46 idiomas y escribir código en 13 lenguajes de programación.
Plataformas Relacionadas: Hugging Face
Hugging Face es una plataforma que ofrece herramientas de código abierto para crear e implementar modelos de machine learning. Funciona como un centro comunitario donde los desarrolladores pueden compartir y explorar modelos y conjuntos de datos. Ofrece acceso público a una gran cantidad de modelos y conjuntos de datos.
Modelos Fundacionales vs. Modelos de Lenguaje Grandes (LLM)
La distinción entre Modelos Fundacionales (FM) y Modelos de Lenguaje Grandes (LLM) es sutil y a menudo los términos se usan de forma interconectada. Basándonos en la información proporcionada, podemos entender que los LLM son un tipo de Modelo Fundacional. Mientras que los FM son modelos de propósito general entrenados en datos masivos (que pueden incluir texto, imágenes, vídeo, etc.) para servir de base a diversas aplicaciones de IA Generativa, los LLM se centran específicamente en el procesamiento y generación de lenguaje humano. Modelos como GPT, BERT, Jurassic, Claude y los LLMs de Cohere son ejemplos prominentes de Modelos Fundacionales que se especializan en tareas lingüísticas.
Aplicaciones de la IA Generativa basada en FM
La capacidad de los FM para ser ajustados para tareas específicas ha impulsado el crecimiento de la IA Generativa, transformando negocios e industrias. Algunas aplicaciones incluyen:
- Desarrollo rápido de productos: Permite la creación rápida de prototipos y pruebas de nuevos diseños.
- Análisis de datos eficiente: Descubre patrones e información de grandes cantidades de datos no estructurados.
- Automatización de tareas: Mejora la eficiencia al automatizar flujos de trabajo repetitivos.
- Creación de contenido: Generación de texto, imágenes, código y más.
Comparativa de Algunos Modelos Fundacionales
| Modelo | Lanzamiento | Parámetros | Característica Clave |
|---|---|---|---|
| BERT | 2018 | 340 millones | Bidireccional, comprensión de contexto |
| GPT-1 | 2018 | 117 millones | Aprendizaje Zero-shot |
| GPT-3 | - | 175 mil millones | Base para ChatGPT |
| GPT-4 | finales 2022 | - | Aprobó examen de abogacía |
| Jurassic-1 | 2021 | 178 mil millones | Regresión automática, comparable a GPT-3 |
| Stable Diffusion | 2022 | Más pequeño | Texto a imagen, accesible |
| BLOOM | 2022 | 176 mil millones | Multilingüe (46 idiomas), código (13) |
Preguntas Frecuentes (FAQ)
A continuación, respondemos algunas preguntas comunes sobre los Modelos Fundacionales:
¿Qué son los Modelos Fundacionales (FM)?
Son modelos de IA de propósito general entrenados en grandes cantidades de datos sin etiquetar mediante aprendizaje autosupervisado. Sirven como base para diversas aplicaciones de IA, incluida la IA Generativa.
¿Por qué se llaman "Fundacionales"?
Porque son la base para muchos casos de uso industrial y porque pueden ser ajustados (fine-tuned) para aplicaciones específicas, evitando la necesidad de entrenar modelos desde cero.
¿Cuál es la diferencia entre un Modelo Fundacional y un LLM?
Basado en la información proporcionada, los LLM (Modelos de Lenguaje Grandes) son un tipo de Modelo Fundacional. Mientras que los FM pueden ser multimodales (manejar texto, imágenes, etc.), los LLM se centran específicamente en el procesamiento y generación de lenguaje.
¿Cómo funcionan los Modelos Fundacionales?
Aprenden patrones en datos masivos y predicen el siguiente elemento en una secuencia. Utilizan distribuciones de probabilidad para generar diversas salidas a partir de una entrada.
¿Cuáles son algunos ejemplos de Modelos Fundacionales?
Algunos ejemplos destacados mencionados incluyen BERT, la familia GPT (GPT-3, GPT-4), Amazon Nova, AI21 Jurassic, Claude, Cohere, Stable Diffusion y BLOOM.
¿Cómo se utilizan los Modelos Fundacionales en los negocios?
Se utilizan para extraer información de datos no estructurados, automatizar tareas, acelerar el desarrollo de productos y mejorar el análisis de datos, entre otras aplicaciones impulsadas por la IA Generativa.
Conclusión
Los Modelos Fundacionales representan un avance significativo en el campo de la inteligencia artificial. Su capacidad para comprender y generar datos a gran escala, combinada con su adaptabilidad mediante el Ajuste Fino, los convierte en la piedra angular de la actual ola de IA Generativa. A medida que estos modelos continúan creciendo en tamaño y capacidad, su potencial para transformar industrias y crear nuevas posibilidades parece ilimitado, consolidándose como la infraestructura fundamental de la inteligencia artificial del futuro.
Si quieres conocer otros artículos parecidos a Descubre los Modelos Fundacionales (FM AI) puedes visitar la categoría Radio.
