Preços dos modelos de IA em 2026: o custo real por token para usuários avançados

Quanto cada grande modelo de IA cobra por milhão de tokens e o que isso significa para uma consulta real.

Por A equipe do aiDex, Plataforma de IA multimodeloPublicado 6 de jun. de 2026Atualizado 7 de jun. de 20266 min de leitura

Resumo

Em 2026, os modelos de IA hospedados vão de alguns centavos por milhão de tokens (DeepSeek, as versões mini) até US$ 25 por milhão de tokens de saída (Claude Opus 4.8, o3); os modelos locais são gratuitos. A saída custa muito mais do que a entrada, então, para a maior parte do trabalho, um modelo barato ou intermediário já basta, e os modelos de ponta só valem a pena em tarefas realmente difíceis.

Metodologia

Amostra:: 13 modelos de chat hospedados + local
Data do teste:: 2026-06-07
Modelos:: gpt-5.4, gpt-4o, o3, claude-opus-4.8, claude-sonnet-4.6, claude-haiku-4.5, gemini-3.1-pro, gemini-3-flash, deepseek-v3.2, deepseek-r1
Configurações:: USD por 1.000.000 de tokens; consulta de exemplo = 2.000 de entrada + 500 de saída tokens

Prompt

Não se aplica: tabela de preços publicada, não saídas dos modelos.

Os preços vêm do catálogo de modelos do aiDex (MODEL_PRICING), que reflete a tabela de preços publicada de cada provedor. Confira na página de preços do provedor antes de se basear neles; as tarifas mudam.

Saber quanto cada modelo de IA realmente custa é o que separa um mês de US$ 5 de um mês de US$ 500. Estes são os preços reais por token dos principais modelos em 2026, quanto uma pergunta típica custa em cada um e como manter o hábito de usar vários modelos sem gastar muito. Para saber quando escolher cada um na prática, veja Qual modelo de IA para qual tarefa?.

Quanto cada modelo de IA custa por token em 2026?

Os modelos de IA são cobrados por token (cerca de 4 caracteres), com tarifas separadas para os tokens que você envia (entrada) e os tokens que o modelo escreve de volta (saída). Os preços abaixo estão em dólares americanos por um milhão de tokens.

Modelo	Provedor	Entrada (US$/1M)	Saída (US$/1M)	Entrada em cache (US$/1M)
GPT-5.4	OpenAI	2.5	15	1.25
GPT-5.4 mini	OpenAI	0.75	4.5	0.375
GPT-4o	OpenAI	2.5	10	1.25
GPT-4o mini	OpenAI	0.15	0.6	0.075
o3	OpenAI	10	40	2.5
o3-mini	OpenAI	1.1	4.4	0.55
Claude Opus 4.8	Anthropic	5	25	0.5
Claude Sonnet 4.6	Anthropic	3	15	0.3
Claude Haiku 4.5	Anthropic	0.25	1.25	0.025
Gemini 3.1 Pro	Google	2	12	1
Gemini 3 Flash	Google	0.5	3	0.25
DeepSeek V3.2	DeepSeek	0.14	0.28	0.014
DeepSeek R1	DeepSeek	0.55	2.19	0.14
Modelo local (Ollama)	Open-weight	0	0	0

Modelos locais rodando pelo Ollama não custam nada por token: você já pagou pelo hardware, e nada sai da sua máquina.

Quanto uma consulta típica realmente custa?

Números por milhão são difíceis de sentir na prática. Aqui está o custo de uma consulta realista de cerca de 2.000 tokens de entrada (um parágrafo de contexto mais uma pergunta) e 500 tokens de saída (alguns parágrafos de resposta):

Modelo	Custo de uma consulta típica
GPT-5.4	$0.0125
GPT-5.4 mini	$0.0038
GPT-4o	$0.0100
GPT-4o mini	$0.0006
o3	$0.0400
o3-mini	$0.0044
Claude Opus 4.8	$0.0225
Claude Sonnet 4.6	$0.0135
Claude Haiku 4.5	$0.0011
Gemini 3.1 Pro	$0.0100
Gemini 3 Flash	$0.0025
DeepSeek V3.2	$0.0004
DeepSeek R1	$0.0022
Modelo local (Ollama)	$0.00

A diferença é enorme: a mesma pergunta custa cerca de $0.0004 no DeepSeek V3.2 e cerca de $0.04 no o3, uma diferença de 100x. Para a maior parte do trabalho do dia a dia, você simplesmente não precisa da opção mais cara.

Por que a saída é mais cara do que a entrada?

Os tokens de saída custam mais porque são gerados um de cada vez, que é a parte que mais exige processamento. Entre esses modelos, a saída sai por algo em torno de 4 a 6 vezes o valor da entrada. Isso significa que respostas prolixas custam dinheiro de verdade: pedir a um modelo que "seja conciso" é uma alavanca de custo, não apenas uma escolha de estilo. Muitos provedores também oferecem uma tarifa com desconto para a entrada em cache (contexto reaproveitado), mostrada na última coluna.

Quais modelos oferecem o melhor custo-benefício?

Depende da tarefa, e não de um único vencedor:

A faixa mais barata e utilizável: modelos locais (gratuitos), DeepSeek V3.2, Gemini 3 Flash e as versões "mini" dão conta de resumir, redigir, classificar e tarefas de alto volume por uma fração de centavo.
Faixa intermediária: Claude Sonnet, Gemini Pro e GPT-4o equilibram qualidade e preço para a maior parte do trabalho real.
Faixa de ponta: Claude Opus 4.8, GPT-5.4 e o3 só justificam o preço mais alto em raciocínio, código ou análise realmente difíceis.

Os modelos caros não são "melhores" em tudo, apenas mais caros. Escolher um único modelo e pagar a tarifa dele para toda tarefa é o custo oculto de se comprometer com uma única IA.

Consultar vários modelos de uma vez custa muito mais?

Não, não se você for sensato. Rodar o mesmo prompt em três modelos intermediários ou baratos ainda fica na casa dos poucos centavos, muitas vezes menos do que uma única chamada a um modelo de ponta. Um padrão comum é comparar primeiro alguns modelos baratos e só escalar os casos difíceis para um modelo de ponta. Essa é a ideia central por trás de consultar vários modelos de uma vez: você compra uma segunda e uma terceira opinião pelo preço de um arredondamento.

Como manter os custos de vários modelos sob controle?

Use as suas próprias chaves de provedor ou as que a gente gerencia, e escolha os modelos que quiser. Com as suas próprias chaves, você paga a cada provedor a tarifa publicada diretamente, exatamente os números acima.
Créditos gerenciados: Pro e Power incluem um pacote mensal de Créditos de IA; além desse pacote, o uso é cobrado pelo custo do provedor mais uma pequena taxa de serviço.
Rode localmente: aponte o aiDex para o Ollama e o custo por token é zero.
Adeque o modelo à tarefa e mantenha os prompts enxutos. A maior economia vem de não enviar a um modelo de ponta um trabalho que um barato resolveria sem dificuldade.

A equipe do aiDex · Plataforma de IA multimodelo

O aiDex é uma plataforma de IA multimodelo que permite consultar vários modelos de IA ao mesmo tempo, comparar as respostas, rodar painéis de consenso e encadeá-los em pipelines, com as suas próprias chaves de provedor ou créditos gerenciados.

Perguntas frequentes

Qual é o modelo de IA mais barato?

Os modelos locais open-weight rodados pelo Ollama são gratuitos por token. Entre os modelos hospedados, o DeepSeek V3.2 é o mais barato, a cerca de $0.14 por milhão de tokens de entrada e $0.28 por milhão de tokens de saída.

Quanto custa o GPT-5.4 por token?

O GPT-5.4 custa $2.50 por milhão de tokens de entrada e $15.00 por milhão de tokens de saída, com a entrada em cache a $1.25. Uma consulta típica de 2.000 de entrada e 500 de saída sai por cerca de $0.0125.

Por que os tokens de saída são mais caros do que os de entrada?

Os tokens de saída são gerados um de cada vez, que é a etapa mais pesada em processamento, então custam mais. Entre os principais modelos, a saída sai por algo em torno de 4 a 6 vezes o valor da entrada, e é por isso que respostas concisas são mais baratas.

É caro rodar vários modelos de IA de uma vez?

Normalmente não. Comparar o mesmo prompt em alguns modelos baratos ou intermediários costuma custar poucos centavos, muitas vezes menos do que uma única chamada a um modelo de ponta. Use modelos baratos no painel e escale apenas os casos difíceis.

O aiDex adiciona alguma margem ao preço dos modelos?

Use as suas próprias chaves de provedor ou as que a gente gerencia, e escolha os modelos que quiser. Com as suas próprias chaves, você paga aos provedores as tarifas publicadas diretamente. No Pro e no Power, as chamadas consomem um pacote mensal de Créditos de IA, e qualquer uso além dele é cobrado pelo custo do provedor mais uma pequena taxa de serviço.

Comece por aquiFluxos de trabalho com IA multimodelo: por que consultar todos os modelos de uma vez (guia de 2026)

Continue lendo

Fluxos de trabalho

Fluxos de trabalho com IA multimodelo: por que consultar todos os modelos de uma vez (guia de 2026)

Um modelo é uma única opinião. Veja como consultar vários ao mesmo tempo e obter uma resposta melhor.

Atualizado 7 de jun. de 20268 min de leitura

Fluxos de trabalho

Um modelo só vs. todos os modelos: o custo oculto de escolher apenas uma IA

Por que se prender a uma única IA custa, em silêncio, respostas melhores, e como rodar um painel elimina quase toda a desvantagem.

Atualizado 3 de jun. de 20266 min de leitura

Comparações

O fim do "qual IA é a melhor?": por que a pergunta ficou ultrapassada

Em 2026, o ranking muda de um mês para o outro e o vencedor depende da sua tarefa. Pare de perseguir um único campeão e comece a combinar o modelo com o trabalho.

Atualizado 4 de jun. de 20265 min de leitura