InicioAutomóvilLos modelos de lenguaje grande amplían el horizonte de la IA

Los modelos de lenguaje grande amplían el horizonte de la IA


En 2018, BERT hizo que la gente hablara de cómo modelos de aprendizaje automático estaban aprendiendo a leer y hablar. Hoy en día, los modelos de idiomas grandes, o LLM, están creciendo rápidamente y muestran destreza en todo tipo de aplicaciones.

Están, por un lado, acelerando el descubrimiento de fármacos, gracias a investigar de el Rostlab en la Universidad Técnica de Munich, así como trabajar por un equipo de Harvard, Yale y la Universidad de Nueva York y otros. En esfuerzos separados, aplicaron LLM para interpretar las cadenas de aminoácidos que componen las proteínas, mejorando nuestra comprensión de estos componentes básicos de la biología.

Es uno de los muchos avances que están haciendo los LLM en el cuidado de la salud, la robótica y otros campos.

Una breve historia de los LLM

Modelos de transformadores — redes neuronales, definidas en 2017, que pueden aprender el contexto en datos secuenciales — dieron inicio a los LLM.

Los investigadores detrás de BERT y otros modelos de transformadores hicieron de 2018 «un momento decisivo» para el procesamiento del lenguaje pure, un informe sobre IA dijo a finales de ese año. “Algunos expertos han afirmado que el lanzamiento de BERT marca una nueva period en la PNL”, agregó.

Desarrollado por Google, BERT (también conocido como Representaciones de codificador bidireccional de Transformers) entregó puntajes de última generación en puntos de referencia para NLP. En 2019, Anunciado BERT impulsa el motor de búsqueda de la empresa.

Google lanzó BERT como software program de código abiertoengendrando una familia de seguimientos y desencadenando una carrera para construir LLM cada vez más grandes y poderosos.

Por ejemplo, Meta creó una versión mejorada llamada roberta, publicado como código de fuente abierta en julio de 2017. Para la capacitación, utilizó «un orden de magnitud más de datos que BERT», dijo el periódico, y saltó adelante en las tablas de clasificación de NLP. Siguió un scrum.

Escalando Parámetros y Mercados

Por conveniencia, la puntuación a menudo se mantiene por el número de parámetros o pesos de un LLM, medidas de la fuerza de una conexión entre dos nodos en una purple neuronal. BERT tenía 110 millones, RoBERTa tenía 123 millones, luego BERT-Massive pesaba 354 millones, estableciendo un nuevo récord, pero no por mucho tiempo.

Cómputo necesario para la formación de LLM
A medida que los LLM se expandieron a nuevas aplicaciones, crecieron su tamaño y sus requisitos informáticos.

En 2020, los investigadores de OpenAI y la Universidad Johns Hopkins anunciaron GPT-3, con la friolera de 175 mil millones de parámetros, entrenados en un conjunto de datos con casi un billón de palabras. Obtuvo buenos puntajes en una gran cantidad de tareas de lenguaje e incluso aritmética cifrada de tres dígitos.

“Los modelos de lenguaje tienen una amplia gama de aplicaciones beneficiosas para la sociedad”, escribieron los investigadores.

Los expertos se sienten ‘impresionados’

En cuestión de semanas, la gente estaba usando GPT-3 para crear poemas, programas, canciones, sitios net y más. Recientemente, GPT-3 incluso escribió un trabajo académico sobre sí mismo.

“Solo recuerdo que me quedé asombrado por las cosas que podía hacer, por ser solo un modelo de lenguaje”, dijo Percy Liang, profesor asociado de ciencias de la computación de Stanford, hablando en un pódcast.

GPT-3 ayudó a motivar a Stanford a crear un centro Liang ahora lidera, explorando las implicaciones de lo que llama modelos fundamentales que pueden manejar bien una amplia variedad de tareas.

Hacia billones de parámetros

El año pasado, NVIDIA Anunciado la Megatrón 530B LLM que se puede capacitar para nuevos dominios e idiomas. Debutó con herramientas y servicios para entrenar modelos de lenguaje con billones de parámetros.

“Los modelos de lenguaje grande han demostrado ser flexibles y capaces… capaces de responder preguntas de dominio profundo sin capacitación o supervisión especializada”, dijo en ese momento Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado en NVIDIA.

Facilitando aún más a los usuarios la adopción de los potentes modelos, el Servicio LLM de NVIDIA Nemo Debutó en septiembre en GTC. Es un servicio en la nube administrado por NVIDIA para adaptar LLM preentrenados para realizar tareas específicas.

Los transformadores transforman el descubrimiento de drogas

Los avances que están haciendo los LLM con proteínas y estructuras químicas también se están aplicando al ADN.

Los investigadores pretenden escalar su trabajo con NVIDIA BioNeMo, un marco de software program y un servicio en la nube para generar, predecir y comprender datos biomoleculares. Parte de Descubrimiento de NVIDIA Clara colección de marcos, aplicaciones y modelos de IA para el descubrimiento de fármacos, admite el trabajo en formatos de datos de proteínas, ADN y química ampliamente utilizados.

NVIDIA BioNeMo presenta múltiples modelos de IA preentrenados, incluido el MegaMolBART modelo, desarrollado por NVIDIA y AstraZeneca.

Casos de uso de LLM en el cuidado de la salud
En su artículo sobre modelos fundamentales, los investigadores de Stanford proyectaron muchos usos para los LLM en el cuidado de la salud.

Los LLM mejoran la visión synthetic

Los transformadores también están remodelando la visión por computadora a medida que los poderosos LLM reemplazan los modelos tradicionales de IA convolucional. Por ejemplo, los investigadores de Meta AI y Dartmouth diseñaron TiempoSformerun modelo de IA que utiliza transformadores para analizar movies con resultados de última generación.

Los expertos predicen que dichos modelos podrían generar todo tipo de nuevas aplicaciones en fotografía computacional, educación y experiencias interactivas para usuarios móviles.

En un trabajo relacionado a principios de este año, dos empresas lanzaron potentes modelos de IA para generar imágenes a partir de texto.

OpenAI anunciado DALL-E 2, un modelo de transformador con 3500 millones de parámetros diseñado para crear imágenes realistas a partir de descripciones de texto. Y recientemente, Stability AI, con sede en Londres, lanzó Difusión de estabilidad,

Escribir código, controlar robots

Los LLM también ayudan a los desarrolladores a escribir software program. tabnina – un miembro de Inicio de NVIDIAun programa que fomenta nuevas empresas de vanguardia, afirma que está automatizando hasta el 30 % del código generado por un millón de desarrolladores.

Dando el siguiente paso, los investigadores están utilizando modelos basados ​​en transformadores para enseñar a los robots utilizados en la fabricación, la construcción, la conducción autónoma y los asistentes personales.

Por ejemplo, DeepMind desarrolló gatos, un LLM que le enseñó a un brazo robótico cómo apilar bloques. El modelo de 1200 millones de parámetros se entrenó en más de 600 tareas distintas, por lo que podría ser útil en una variedad de modos y entornos, ya sea jugando o animando chatbots.

Gato LLM tiene muchas aplicaciones
Gato LLM puede analizar acciones e imágenes de robots, así como texto.

«Al ampliar e iterar este mismo enfoque básico, podemos crear un agente útil de propósito basic», dijeron los investigadores en un papel publicado en mayo.

Es otro ejemplo de lo que el centro de Stanford en un papel de julio llama un cambio de paradigma en la IA. “Los modelos básicos apenas han comenzado a transformar la forma en que se construyen e implementan los sistemas de inteligencia synthetic en el mundo”, dijo.

Conozca cómo son las empresas de todo el mundo implementando LLM con NVIDIA Tritón para muchos casos de uso.

RELATED ARTICLES

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Más popular

Recent Comments