Precios de los modelos de IA en 2026: el coste real por token para usuarios avanzados
Cuánto cobra cada gran modelo de IA por millón de tokens y qué significa eso para una consulta real.
Resumen
En 2026, los modelos de IA alojados van desde unos pocos céntimos por millón de tokens (DeepSeek, las versiones mini) hasta 25 dólares por millón de tokens de salida (Claude Opus 4.8, o3); los modelos locales son gratuitos. La salida cuesta mucho más que la entrada, así que para la mayoría del trabajo basta con un modelo barato o intermedio, y los modelos punteros solo merecen la pena en tareas realmente difíciles.
Metodología
- Muestra:
- 13 modelos de chat alojados + local
- Fecha de la prueba:
- 2026-06-07
- Modelos:
- gpt-5.4, gpt-4o, o3, claude-opus-4.8, claude-sonnet-4.6, claude-haiku-4.5, gemini-3.1-pro, gemini-3-flash, deepseek-v3.2, deepseek-r1
- Ajustes:
- USD por 1.000.000 de tokens; consulta de ejemplo = 2.000 de entrada + 500 de salida tokens
Prompt
No aplica: precios de tarifa publicada, no salidas de los modelos.
Los precios proceden del catálogo de modelos de aiDex (MODEL_PRICING), que refleja la tarifa publicada de cada proveedor. Verifícalos en la página de precios del proveedor antes de fiarte de ellos; las tarifas cambian.
Saber cuánto cuesta de verdad cada modelo de IA es lo que separa un mes de 5 dólares de uno de 500. Estos son los precios reales por token de los principales modelos en 2026, cuánto cuesta una pregunta típica en cada uno y cómo mantener barato el hábito de usar varios modelos. Para saber cuándo elegir cada uno en la práctica, consulta ¿Qué modelo de IA para qué tarea?.
¿Cuánto cuesta cada modelo de IA por token en 2026?
Los modelos de IA se facturan por token (unos 4 caracteres), con tarifas separadas para los tokens que envías (entrada) y los tokens que el modelo devuelve (salida). Los precios de abajo están en dólares estadounidenses por un millón de tokens.
| Modelo | Proveedor | Entrada ($/1M) | Salida ($/1M) | Entrada en caché ($/1M) |
|---|---|---|---|---|
| GPT-5.4 | OpenAI | 2.5 | 15 | 1.25 |
| GPT-5.4 mini | OpenAI | 0.75 | 4.5 | 0.375 |
| GPT-4o | OpenAI | 2.5 | 10 | 1.25 |
| GPT-4o mini | OpenAI | 0.15 | 0.6 | 0.075 |
| o3 | OpenAI | 10 | 40 | 2.5 |
| o3-mini | OpenAI | 1.1 | 4.4 | 0.55 |
| Claude Opus 4.8 | Anthropic | 5 | 25 | 0.5 |
| Claude Sonnet 4.6 | Anthropic | 3 | 15 | 0.3 |
| Claude Haiku 4.5 | Anthropic | 0.25 | 1.25 | 0.025 |
| Gemini 3.1 Pro | 2 | 12 | 1 | |
| Gemini 3 Flash | 0.5 | 3 | 0.25 | |
| DeepSeek V3.2 | DeepSeek | 0.14 | 0.28 | 0.014 |
| DeepSeek R1 | DeepSeek | 0.55 | 2.19 | 0.14 |
| Modelo local (Ollama) | Open-weight | 0 | 0 | 0 |
Los modelos locales que se ejecutan a través de Ollama no cuestan nada por token: ya has pagado el hardware y nada sale de tu ordenador.
¿Cuánto cuesta de verdad una consulta típica?
Las cifras por millón cuestan de captar de forma intuitiva. Aquí tienes el coste de una consulta realista de unos 2.000 tokens de entrada (un párrafo de contexto más una pregunta) y 500 tokens de salida (unos cuantos párrafos de respuesta):
| Modelo | Coste de una consulta típica |
|---|---|
| GPT-5.4 | $0.0125 |
| GPT-5.4 mini | $0.0038 |
| GPT-4o | $0.0100 |
| GPT-4o mini | $0.0006 |
| o3 | $0.0400 |
| o3-mini | $0.0044 |
| Claude Opus 4.8 | $0.0225 |
| Claude Sonnet 4.6 | $0.0135 |
| Claude Haiku 4.5 | $0.0011 |
| Gemini 3.1 Pro | $0.0100 |
| Gemini 3 Flash | $0.0025 |
| DeepSeek V3.2 | $0.0004 |
| DeepSeek R1 | $0.0022 |
| Modelo local (Ollama) | $0.00 |
La diferencia es enorme: la misma pregunta cuesta unos $0.0004 en DeepSeek V3.2 y unos $0.04 en o3, una diferencia de 100x. Para la mayor parte del trabajo cotidiano sencillamente no necesitas la opción más cara.
¿Por qué la salida es más cara que la entrada?
Los tokens de salida cuestan más porque se generan de uno en uno, que es la parte que más cómputo exige. Entre estos modelos, la salida sale por entre 4 y 6 veces la tarifa de la entrada. Eso significa que las respuestas farragosas cuestan dinero de verdad: pedirle a un modelo que "sea conciso" es una palanca de coste, no solo una elección de estilo. Muchos proveedores también ofrecen una tarifa con descuento para la entrada en caché (contexto reutilizado), que se muestra en la última columna.
¿Qué modelos ofrecen la mejor relación calidad-precio?
Depende de la tarea, no de un único ganador:
- El nivel más barato y aprovechable: los modelos locales (gratuitos), DeepSeek V3.2, Gemini 3 Flash y las versiones "mini" se encargan de resumir, redactar, clasificar y tareas de gran volumen por una fracción de céntimo.
- Nivel intermedio: Claude Sonnet, Gemini Pro y GPT-4o equilibran calidad y precio para la mayoría del trabajo real.
- Nivel puntero: Claude Opus 4.8, GPT-5.4 y o3 solo justifican su precio más alto en razonamiento, código o análisis realmente difíciles.
Los modelos caros no son "mejores" en todo, solo más caros. Elegir un único modelo y pagar su tarifa para cada tarea es el coste oculto de comprometerse con una sola IA.
¿Consultar varios modelos a la vez cuesta mucho más?
No, no si lo haces con sensatez. Ejecutar el mismo prompt en tres modelos intermedios o baratos sigue quedando en unos pocos céntimos, a menudo menos que una sola llamada a un modelo puntero. Un patrón habitual es comparar primero algunos modelos baratos y escalar solo los casos difíciles a un modelo puntero. Esa es la idea central de consultar varios modelos a la vez: compras una segunda y una tercera opinión por el precio de un redondeo.
¿Cómo mantener bajo control los costes de varios modelos?
- Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras. Con tus propias claves pagas a cada proveedor su tarifa publicada directamente, exactamente las cifras de arriba.
- Créditos gestionados: Pro y Power incluyen un paquete mensual de Créditos de IA; más allá del paquete, el uso se factura al coste del proveedor más una pequeña tarifa de servicio.
- Ejecútalo en local: apunta aiDex a Ollama y el coste por token es cero.
- Ajusta el modelo a la tarea y mantén los prompts ajustados. El mayor ahorro viene de no enviar a un modelo puntero un trabajo que uno barato resolvería sin problema.
El equipo de aiDex · Plataforma de IA multimodelo
aiDex es una plataforma de IA multimodelo que te permite consultar varios modelos de IA a la vez, comparar sus respuestas, ejecutar paneles de consenso y encadenarlos en pipelines, con tus propias claves de proveedor o créditos gestionados.
Preguntas frecuentes
¿Cuál es el modelo de IA más barato?
Los modelos locales open-weight ejecutados a través de Ollama son gratuitos por token. Entre los modelos alojados, DeepSeek V3.2 es el más barato, a unos $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida.
¿Cuánto cuesta GPT-5.4 por token?
GPT-5.4 cuesta $2.50 por millón de tokens de entrada y $15.00 por millón de tokens de salida, con la entrada en caché a $1.25. Una consulta típica de 2.000 de entrada y 500 de salida sale por unos $0.0125.
¿Por qué los tokens de salida son más caros que los de entrada?
Los tokens de salida se generan de uno en uno, que es el paso que más cómputo exige, así que cuestan más. Entre los principales modelos, la salida sale por entre 4 y 6 veces la tarifa de la entrada, y por eso las respuestas concisas son más baratas.
¿Es caro ejecutar varios modelos de IA a la vez?
Normalmente no. Comparar el mismo prompt en algunos modelos baratos o intermedios suele costar unos pocos céntimos, a menudo menos que una sola llamada a un modelo puntero. Usa modelos baratos para el panel y escala solo los casos difíciles.
¿aiDex añade un margen al precio de los modelos?
Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras. Con tus propias claves pagas a los proveedores sus tarifas publicadas directamente. En Pro y Power, las llamadas consumen un paquete mensual de Créditos de IA, y cualquier uso por encima se factura al coste del proveedor más una pequeña tarifa de servicio.
Sigue leyendo
Flujos de trabajo de IA multimodelo: por qué consultar todos los modelos a la vez (guía de 2026)
Un modelo es una sola opinión. Aquí tienes cómo consultar varios a la vez y obtener una respuesta mejor.
Un solo modelo vs. todos los modelos: el coste oculto de elegir una única IA
Por qué atarte a una única IA te cuesta, en silencio, mejores respuestas, y cómo ejecutar un panel elimina casi toda la desventaja.
El final de "¿qué IA es la mejor?": por qué la pregunta se ha quedado anticuada
En 2026, la clasificación cambia de un mes a otro y el ganador depende de tu tarea. Deja de perseguir a un único campeón y empieza a emparejar el modelo con el trabajo.