Precios de los modelos de IA en 2026: el coste real por token para usuarios avanzados

Cuánto cobra cada gran modelo de IA por millón de tokens y qué significa eso para una consulta real.

Por El equipo de aiDex, Plataforma de IA multimodeloPublicado 6 jun 2026Actualizado 7 jun 20266 min de lectura

Resumen

En 2026, los modelos de IA alojados van desde unos pocos céntimos por millón de tokens (DeepSeek, las versiones mini) hasta 25 dólares por millón de tokens de salida (Claude Opus 4.8, o3); los modelos locales son gratuitos. La salida cuesta mucho más que la entrada, así que para la mayoría del trabajo basta con un modelo barato o intermedio, y los modelos punteros solo merecen la pena en tareas realmente difíciles.

Metodología

Muestra:: 13 modelos de chat alojados + local
Fecha de la prueba:: 2026-06-07
Modelos:: gpt-5.4, gpt-4o, o3, claude-opus-4.8, claude-sonnet-4.6, claude-haiku-4.5, gemini-3.1-pro, gemini-3-flash, deepseek-v3.2, deepseek-r1
Ajustes:: USD por 1.000.000 de tokens; consulta de ejemplo = 2.000 de entrada + 500 de salida tokens

Prompt

No aplica: precios de tarifa publicada, no salidas de los modelos.

Los precios proceden del catálogo de modelos de aiDex (MODEL_PRICING), que refleja la tarifa publicada de cada proveedor. Verifícalos en la página de precios del proveedor antes de fiarte de ellos; las tarifas cambian.

Saber cuánto cuesta de verdad cada modelo de IA es lo que separa un mes de 5 dólares de uno de 500. Estos son los precios reales por token de los principales modelos en 2026, cuánto cuesta una pregunta típica en cada uno y cómo mantener barato el hábito de usar varios modelos. Para saber cuándo elegir cada uno en la práctica, consulta ¿Qué modelo de IA para qué tarea?.

¿Cuánto cuesta cada modelo de IA por token en 2026?

Los modelos de IA se facturan por token (unos 4 caracteres), con tarifas separadas para los tokens que envías (entrada) y los tokens que el modelo devuelve (salida). Los precios de abajo están en dólares estadounidenses por un millón de tokens.

Modelo	Proveedor	Entrada ($/1M)	Salida ($/1M)	Entrada en caché ($/1M)
GPT-5.4	OpenAI	2.5	15	1.25
GPT-5.4 mini	OpenAI	0.75	4.5	0.375
GPT-4o	OpenAI	2.5	10	1.25
GPT-4o mini	OpenAI	0.15	0.6	0.075
o3	OpenAI	10	40	2.5
o3-mini	OpenAI	1.1	4.4	0.55
Claude Opus 4.8	Anthropic	5	25	0.5
Claude Sonnet 4.6	Anthropic	3	15	0.3
Claude Haiku 4.5	Anthropic	0.25	1.25	0.025
Gemini 3.1 Pro	Google	2	12	1
Gemini 3 Flash	Google	0.5	3	0.25
DeepSeek V3.2	DeepSeek	0.14	0.28	0.014
DeepSeek R1	DeepSeek	0.55	2.19	0.14
Modelo local (Ollama)	Open-weight	0	0	0

Los modelos locales que se ejecutan a través de Ollama no cuestan nada por token: ya has pagado el hardware y nada sale de tu ordenador.

¿Cuánto cuesta de verdad una consulta típica?

Las cifras por millón cuestan de captar de forma intuitiva. Aquí tienes el coste de una consulta realista de unos 2.000 tokens de entrada (un párrafo de contexto más una pregunta) y 500 tokens de salida (unos cuantos párrafos de respuesta):

Modelo	Coste de una consulta típica
GPT-5.4	$0.0125
GPT-5.4 mini	$0.0038
GPT-4o	$0.0100
GPT-4o mini	$0.0006
o3	$0.0400
o3-mini	$0.0044
Claude Opus 4.8	$0.0225
Claude Sonnet 4.6	$0.0135
Claude Haiku 4.5	$0.0011
Gemini 3.1 Pro	$0.0100
Gemini 3 Flash	$0.0025
DeepSeek V3.2	$0.0004
DeepSeek R1	$0.0022
Modelo local (Ollama)	$0.00

La diferencia es enorme: la misma pregunta cuesta unos $0.0004 en DeepSeek V3.2 y unos $0.04 en o3, una diferencia de 100x. Para la mayor parte del trabajo cotidiano sencillamente no necesitas la opción más cara.

¿Por qué la salida es más cara que la entrada?

Los tokens de salida cuestan más porque se generan de uno en uno, que es la parte que más cómputo exige. Entre estos modelos, la salida sale por entre 4 y 6 veces la tarifa de la entrada. Eso significa que las respuestas farragosas cuestan dinero de verdad: pedirle a un modelo que "sea conciso" es una palanca de coste, no solo una elección de estilo. Muchos proveedores también ofrecen una tarifa con descuento para la entrada en caché (contexto reutilizado), que se muestra en la última columna.

¿Qué modelos ofrecen la mejor relación calidad-precio?

Depende de la tarea, no de un único ganador:

El nivel más barato y aprovechable: los modelos locales (gratuitos), DeepSeek V3.2, Gemini 3 Flash y las versiones "mini" se encargan de resumir, redactar, clasificar y tareas de gran volumen por una fracción de céntimo.
Nivel intermedio: Claude Sonnet, Gemini Pro y GPT-4o equilibran calidad y precio para la mayoría del trabajo real.
Nivel puntero: Claude Opus 4.8, GPT-5.4 y o3 solo justifican su precio más alto en razonamiento, código o análisis realmente difíciles.

Los modelos caros no son "mejores" en todo, solo más caros. Elegir un único modelo y pagar su tarifa para cada tarea es el coste oculto de comprometerse con una sola IA.

¿Consultar varios modelos a la vez cuesta mucho más?

No, no si lo haces con sensatez. Ejecutar el mismo prompt en tres modelos intermedios o baratos sigue quedando en unos pocos céntimos, a menudo menos que una sola llamada a un modelo puntero. Un patrón habitual es comparar primero algunos modelos baratos y escalar solo los casos difíciles a un modelo puntero. Esa es la idea central de consultar varios modelos a la vez: compras una segunda y una tercera opinión por el precio de un redondeo.

¿Cómo mantener bajo control los costes de varios modelos?

Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras. Con tus propias claves pagas a cada proveedor su tarifa publicada directamente, exactamente las cifras de arriba.
Créditos gestionados: Pro y Power incluyen un paquete mensual de Créditos de IA; más allá del paquete, el uso se factura al coste del proveedor más una pequeña tarifa de servicio.
Ejecútalo en local: apunta aiDex a Ollama y el coste por token es cero.
Ajusta el modelo a la tarea y mantén los prompts ajustados. El mayor ahorro viene de no enviar a un modelo puntero un trabajo que uno barato resolvería sin problema.

El equipo de aiDex · Plataforma de IA multimodelo

aiDex es una plataforma de IA multimodelo que te permite consultar varios modelos de IA a la vez, comparar sus respuestas, ejecutar paneles de consenso y encadenarlos en pipelines, con tus propias claves de proveedor o créditos gestionados.

Preguntas frecuentes

¿Cuál es el modelo de IA más barato?

Los modelos locales open-weight ejecutados a través de Ollama son gratuitos por token. Entre los modelos alojados, DeepSeek V3.2 es el más barato, a unos $0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida.

¿Cuánto cuesta GPT-5.4 por token?

GPT-5.4 cuesta $2.50 por millón de tokens de entrada y $15.00 por millón de tokens de salida, con la entrada en caché a $1.25. Una consulta típica de 2.000 de entrada y 500 de salida sale por unos $0.0125.

¿Por qué los tokens de salida son más caros que los de entrada?

Los tokens de salida se generan de uno en uno, que es el paso que más cómputo exige, así que cuestan más. Entre los principales modelos, la salida sale por entre 4 y 6 veces la tarifa de la entrada, y por eso las respuestas concisas son más baratas.

¿Es caro ejecutar varios modelos de IA a la vez?

Normalmente no. Comparar el mismo prompt en algunos modelos baratos o intermedios suele costar unos pocos céntimos, a menudo menos que una sola llamada a un modelo puntero. Usa modelos baratos para el panel y escala solo los casos difíciles.

¿aiDex añade un margen al precio de los modelos?

Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras. Con tus propias claves pagas a los proveedores sus tarifas publicadas directamente. En Pro y Power, las llamadas consumen un paquete mensual de Créditos de IA, y cualquier uso por encima se factura al coste del proveedor más una pequeña tarifa de servicio.

Empieza aquíFlujos de trabajo de IA multimodelo: por qué consultar todos los modelos a la vez (guía de 2026)

Sigue leyendo

Flujos de trabajo

Flujos de trabajo de IA multimodelo: por qué consultar todos los modelos a la vez (guía de 2026)

Un modelo es una sola opinión. Aquí tienes cómo consultar varios a la vez y obtener una respuesta mejor.

Actualizado 7 jun 20268 min de lectura

Flujos de trabajo

Un solo modelo vs. todos los modelos: el coste oculto de elegir una única IA

Por qué atarte a una única IA te cuesta, en silencio, mejores respuestas, y cómo ejecutar un panel elimina casi toda la desventaja.

Actualizado 3 jun 20266 min de lectura

Comparativas

El final de "¿qué IA es la mejor?": por qué la pregunta se ha quedado anticuada

En 2026, la clasificación cambia de un mes a otro y el ganador depende de tu tarea. Deja de perseguir a un único campeón y empieza a emparejar el modelo con el trabajo.

Actualizado 4 jun 20265 min de lectura