Tabla de contenidos
Las aplicaciones modernas de IA, como ChatGPT, serían impensables sin un modelo de lenguaje grande o Large Language Models. Permiten comprender el lenguaje natural y generar respuestas. La infraestructura requerida para esto es a veces considerable.
Leer: ¿Qué es un servidor terminal?
¿Qué es un modelo de lenguaje grande?
De manera similar al aprendizaje automático, se entrena un modelo de lenguaje grande (LLM) para una tarea específica. En este caso, se trata de entender el lenguaje natural tal como lo usa la gente. Los conjuntos de datos requeridos son extremadamente extensos, lo que explica la adición «Grande». Este alcance es necesario para que los modelos puedan generar muchos tipos diferentes de lenguaje, desde lenguaje tipo léxico basado en hechos hasta poesía.
¿Qué pueden hacer un modelo de lenguaje grande?
Los modelos de lenguaje grande tienen como objetivo manejar tareas de lenguaje que se acerquen al nivel del lenguaje humano en su complejidad. Estos modelos entienden texto, pueden traducir idiomas a otros idiomas, crear texto completamente nuevo sin ingresar datos primero y mucho más. El software basado en modelos de lenguaje grande también puede manejar interacciones humanas típicas, como configuraciones de entrevistas con series de preguntas y respuestas.
Para que las aplicaciones puedan procesar estas tareas, se requiere una amplia capacitación previa del modelo de lenguaje grande.
Entrenamiento de modelos de lenguaje grande
Para enriquecer el modelo con datos, se utilizan grandes cantidades de texto, que luego el modelo «lee» y procesa. Estas fuentes incluyen sitios web, libros, historias de chat, enciclopedias, artículos en sitios web de noticias y mucho más. A través de la capacitación, los modelos desarrollan una comprensión del lenguaje humano y pueden responder adecuadamente con respuestas especialmente generadas.
Las personas que interactúan con el software basado en esta técnica no tienen que adherirse a construcciones de oraciones específicas o ingresar comandos exactos. En cambio, la interacción es posible como con otras personas, por lo que también se registra el lenguaje coloquial. Las estructuras de oraciones complejas se registran correctamente y los contextos generalmente se entienden correctamente. También permite respuestas contextuales, que también son conversaciones a nivel humano.
Incluso ahora, a veces puede ser difícil distinguir una conversación de IA basada en LLM de conversaciones humanas. Esto será cada vez más difícil en el futuro debido a la mejora constante del software y a la cantidad cada vez mayor de datos disponibles.
Leer: ¿Qué es la ingeniería del caos?
Casos de uso para modelos de lenguaje grande
Las aplicaciones que utilizan los LLM pueden ser muy diversas. Ejemplos incluyen:
- Asistentes virtuales como chatbots: entienden las necesidades de las personas que buscan atención al cliente, por ejemplo. Siempre que la respuesta de una persona esté incluida en el registro del LLM, un chatbot puede proporcionar una respuesta probablemente similar o técnicamente incluso mejor que un agente humano.
- Generación automática de texto: si este texto se hubiera creado con una IA basada en un LLM fuerte, los lectores probablemente no notarían la diferencia. La generación automática de texto puede simplificar o acelerar significativamente la creación de contenido, aunque también se asocia con dificultades en algunos contextos.
- Traducción: los modelos de voz pueden hablar más de 100 idiomas sin problemas. Por lo tanto, la traducción de texto es una de las fortalezas naturales de las aplicaciones que han sido entrenadas con modelos de lenguaje apropiados.
En general, los modelos de lenguaje grande pueden ser útiles en cualquier entorno donde la interacción con el lenguaje natural sea importante.
Limitaciones de los modelos de lenguaje grande
Las aplicaciones de IA que usan modelos de lenguaje grande se limitan al conocimiento dentro de esos modelos. Por ejemplo, si un evento ocurre hoy, un modelo de lenguaje que esté actualizado desde la semana pasada no puede saberlo. Se emite la información incorrecta correspondiente.
Además, el software que utiliza modelos de lenguaje grande generalmente puede ofrecer información incorrecta si se realizan conexiones incorrectas dentro del conjunto de datos. También se pueden inventar «hechos», en términos técnicos hablamos de alucinaciones: la IA emite información que nunca existió en la realidad.
Esto impone demandas a los usuarios de aplicaciones LLM en ciertos campos. El trabajo para la escuela, la universidad o en general en el campo científico debe completarse con la ayuda de LLM-KI. Las fuentes no indican estos modelos hasta el momento, por lo que es necesaria una verificación manual. Además, no se puede generar conocimiento completamente nuevo: los modelos se limitan al conocimiento que ya está disponible.
Leer: ¿Qué es la observabilidad?
Costo de ejecución de modelos de lenguaje grande
El aprovisionamiento de la infraestructura para aplicaciones de IA basadas en modelos de lenguaje extenso puede ser extremadamente costoso. Por ejemplo, ChatGPT requiere entre $700 000 y $1 000 000 por día para implementar los modelos intensivos de cómputo y memoria.
Sin embargo, se puede suponer que estos costos disminuirán en el futuro. Como suele ser el caso, los primeros días de cualquier nueva tecnología están marcados por enormes costos. A largo plazo, los costos caen, lo que hace que la operación sea económicamente viable y también permite la participación de organizaciones más pequeñas. Los LLM de código abierto también pueden desempeñar un papel en esto.
¿Qué es LibreOffice? Las funciones de LibreOffice
¿Qué es doxing? Definición | Recopilar datos personales
¿Qué es una API? Definición | Interfaz de programación
¿Qué es un depurador? Definición | Herramienta de depuración
¿Qué es SaltStack? Definición | Solución de código abierto
¿Qué es el mantenimiento de software? Definición
¿Cómo limpiar el sensor de una cámara réflex digital?
Cómo puedes limpiar la pantalla de tu MacBook en 4 pasos
¿Qué son lenguajes de programación de alto nivel?