LLM, RAG, embeddings: glosario IA para no técnicos

El glosario

LLM (Large Language Model)

Modelo entrenado con miles de millones de palabras para entender y generar lenguaje. GPT-5, Claude Opus 4, Gemini Ultra, Llama 3.3.

Tokens

Unidades en las que el LLM procesa el texto, normalmente fragmentos de palabras. "Hola" puede ser 1 token; "rinoceronte" suelen ser 3-4. Las facturas se cobran por tokens.

Prompt

La instrucción o pregunta que le das a la IA. Un buen prompt es específico, da contexto y especifica formato.

RAG (Retrieval-Augmented Generation)

Técnica que combina un LLM con una base de conocimiento propia. En lugar de inventar, busca en tu catálogo o documentos y responde basándose en eso. Reduce alucinaciones.

Embeddings

Representaciones numéricas del significado de un texto. Permiten al sistema "entender" si dos frases son parecidas aunque usen palabras distintas. La base del RAG.

Fine-tuning

Ajustar un LLM existente con datos específicos para que sea mejor en una tarea concreta. Caro y suele ser innecesario; el RAG resuelve la mayoría de casos.

Context window

La cantidad máxima de texto que el LLM puede manejar en una sola petición. En 2026, los modelos top manejan más de 1 millón de tokens (≈ 750.000 palabras = un libro entero).

Hallucination (alucinación)

Cuando el LLM se inventa información que suena verosímil pero es falsa. Se reduce con RAG, prompts más estrictos y verificación humana.

Preguntas frecuentes

¿Qué LLM usa IAVoz.Pro?

Llama 3.3 70B en Groq como principal (rápido y gratuito hasta cuota), con fallback a OpenRouter, Gemini Flash y Anthropic Haiku 4.5.