Traga o Ollama para o seu chat no aiDex: modelos locais na mesma mesa

Rode modelos de pesos abertos na sua própria máquina e misture com modelos de nuvem em uma só conversa.

Por A equipe do aiDex, Plataforma de IA multimodeloPublicado 9 de jun. de 2026Atualizado 9 de jun. de 20265 min de leitura

Resumo

O aiDex coloca modelos locais rodando via Ollama na mesma mesa que modelos de nuvem como Claude Opus 4.8, GPT-5.4 e Gemini 3.1 Pro. Rode o Ollama na sua máquina, conecte nas Configurações, e seus modelos locais entram em conversas nos modos Solo, Comparar, Juiz, Pipeline ou Time. Mantenha o trabalho sensível totalmente local, ou misture assentos locais gratuitos com assentos pagos de nuvem em um só chat.

Algumas perguntas nunca deveriam sair do seu notebook. Contratos de clientes, código não lançado, números internos: no momento em que você cola isso em um chatbot de nuvem, está confiando nos servidores de outra pessoa. Modelos locais resolvem isso, mas costumam viver em uma janela solitária de terminal, isolados dos modelos de nuvem mais fortes que você ainda precisa para os problemas difíceis.

O aiDex derruba esse muro. Modelos servidos pelo Ollama rodam na sua própria máquina e entram no mesmo painel que os pesos-pesados da nuvem, então você decide, conversa a conversa, o que fica local e o que sai.

O que é o Ollama e o que ele faz dentro do aiDex?

Ollama é um software gratuito e de código aberto que baixa e roda modelos de linguagem de pesos abertos (famílias Llama, Mistral, Gemma, Qwen e DeepSeek, entre outras) diretamente no seu computador. Sem conta, sem fatura de API: se o seu hardware aguenta o modelo, ele roda.

Dentro do aiDex, um modelo do Ollama se comporta como qualquer outro assento na mesa. Você pode dar a ele um chat Solo, colocá-lo frente a frente com o Claude Opus 4.8 no modo Comparar, deixá-lo votar no modo Juiz, encaixá-lo em uma etapa de Pipeline ou colocá-lo em uma conversa de Time com até cinco modelos. O moderador o trata exatamente como um participante de nuvem, e ele lê os mesmos documentos anexados (DOCX, PDF, MD, txt) que todos os outros no chat.

Como conecto o Ollama ao aiDex?

Três passos, mais ou menos dez minutos na primeira vez:

Instale o Ollama pelo site oficial em ollama.com (macOS, Windows, Linux).
Baixe um modelo. Rode ollama pull llama3 (ou qualquer modelo da biblioteca do Ollama) no terminal. O Ollama serve o modelo localmente, por padrão na porta 11434.
Aponte o aiDex para ele. Abra as Configurações, adicione o seu endpoint local do Ollama, e os modelos instalados aparecem no catálogo, o Dex, ao lado dos modelos de nuvem.

A partir daí, escolher um modelo local é o mesmo gesto de escolher qualquer outro: abra a lista, selecione o assento.

Quando os modelos locais ganham dos modelos de nuvem?

Trate isto como critérios de decisão, não dogma:

Privacidade e confidencialidade. Prompts enviados a um modelo do Ollama são processados na sua máquina. Para conteúdo regulado ou sob contrato, esse único fato pode decidir a questão inteira.
Custo em volume. Um modelo local não tem custo por token. Para trabalho repetitivo de alto volume (classificação, extração, resumos de primeira passada), grátis ganha de barato.
Offline e latência. No avião, atrás de um firewall restritivo ou em uma conexão instável, o assento local continua funcionando.
A nuvem ainda ganha no raciocínio de fronteira. Raciocínio longo de várias etapas, documentos muito grandes e o código mais difícil continuam sendo território de modelos como Claude Opus 4.8, GPT-5.4 e Gemini 3.1 Pro, maiores do que qualquer coisa que um notebook consegue hospedar.

Para a maioria das pessoas, a resposta honesta é "os dois", e é exatamente por isso que ter tudo em um só chat importa. Assentos locais se encaixam em todos os padrões do nosso guia de fluxos de trabalho multimodelo.

Como misturo modelos locais e de nuvem em uma só conversa?

Três padrões que funcionam bem:

Comparar com um controle. Mande o mesmo prompt para um modelo local e para o GPT-5.4 ou Claude Opus 4.8 no modo Comparar. Em uma semana você aprende exatamente quais das suas tarefas o assento local gratuito resolve bem, do mesmo jeito que sugerimos comparar modelos de IA lado a lado para modelos de nuvem.
Rascunho local, polimento na nuvem. No modo Pipeline, deixe um modelo local produzir a etapa de Rascunho e entregue a Crítica e o Polimento ao Claude Opus 4.8. Você gasta tokens de nuvem só nas etapas que precisam deles.
Uma voz local no painel. Em um chat de Times, um modelo local adiciona uma perspectiva diferente a custo marginal zero, junto com os padrões de como criar um time multi-IA.

Uma ressalva honesta: em um painel misto, todos os modelos da conversa leem o chat, inclusive os documentos anexados. Se o conteúdo não pode sair da sua máquina, mantenha o painel inteiro local. O aiDex roda totalmente local quando todos os assentos são modelos do Ollama.

Pronto para testar? Abra o aiDex, conecte o seu endpoint do Ollama e rode o seu primeiro Comparar local contra nuvem.

Quanto isso custa?

O lado local não custa nada além do seu hardware e da sua energia: o Ollama é gratuito e modelos de pesos abertos não têm taxa por token. O lado da nuvem funciona como você preferir. Use as suas próprias chaves de provedor ou as que a gente gerencia, e escolha os modelos que quiser. Os custos por mensagem ficam visíveis no chat e os limites de gasto travam o mês, então um painel que mistura um assento local gratuito com dois assentos pagos de nuvem nunca te surpreende. Para os números da nuvem, veja o nosso detalhamento de custo por token.

Por onde devo começar?

Instale o Ollama, baixe um modelo pequeno (um modelo de 8B já é ótimo para aprender), conecte nas Configurações e coloque-o em um Comparar ao lado de um modelo de nuvem em que você já confia. Dez minutos de configuração compram um assento gratuito permanente na mesa. Quando estiver pronto, abra o aiDex e dê uma cadeira ao seu notebook.

A equipe do aiDex · Plataforma de IA multimodelo

O aiDex é uma plataforma de IA multimodelo que permite consultar vários modelos de IA ao mesmo tempo, comparar as respostas, escolher por consenso e encadear modelos em pipelines ou conversas abertas em time. Use as suas próprias chaves de provedor ou as que a gente gerencia, e escolha os modelos que quiser.

Perguntas frequentes

O Ollama é gratuito?

Sim. O Ollama é um software gratuito e de código aberto, e os modelos de pesos abertos que ele roda não têm custo por token. Você paga apenas com o seu próprio hardware e energia. Modelos de nuvem no mesmo chat do aiDex são cobrados normalmente pelas suas chaves ou pelos créditos gerenciados.

Preciso de uma GPU para rodar o Ollama?

Não, mas ajuda. Modelos pequenos, na faixa de 3B a 8B parâmetros, rodam na CPU de um notebook moderno. Uma GPU dedicada ou um Mac com Apple Silicon deixa as respostas bem mais rápidas e permite rodar modelos maiores e mais capazes.

Quais modelos posso rodar pelo Ollama?

Famílias de pesos abertos como Llama, Mistral, Gemma, Qwen e destilações do DeepSeek, entre centenas de opções na biblioteca do Ollama. Depois que o Ollama os serve, eles aparecem no Dex como qualquer outro modelo.

Meus dados ficam privados com um modelo local?

Chamadas a um modelo do Ollama são processadas na sua máquina e não são enviadas a um provedor de nuvem. Em um painel misto, os modelos de nuvem da mesma conversa recebem o conteúdo do chat, então mantenha conversas estritamente confidenciais apenas com assentos locais.

Posso usar o aiDex só com modelos locais?

Sim. Todos os assentos de uma conversa podem ser modelos do Ollama, e aí o chat inteiro roda totalmente local. Você ainda pode trocar qualquer assento por um modelo de nuvem depois, se uma pergunta ficar grande demais para o seu hardware.

Comece por aquiFluxos de trabalho com IA multimodelo: por que consultar todos os modelos de uma vez (guia de 2026)

Continue lendo

Fluxos de trabalho

Fluxos de trabalho com IA multimodelo: por que consultar todos os modelos de uma vez (guia de 2026)

Um modelo é uma única opinião. Veja como consultar vários ao mesmo tempo e obter uma resposta melhor.

Atualizado 7 de jun. de 20268 min de leitura

Fluxos de trabalho

Como comparar modelos de IA lado a lado

Envie um único prompt para vários modelos de uma vez, leia as respostas lado a lado e deixe o resultado decidir, em vez do hype.

Atualizado 5 de jun. de 20266 min de leitura

BenchmarksDATA

Preços dos modelos de IA em 2026: o custo real por token para usuários avançados

Quanto cada grande modelo de IA cobra por milhão de tokens e o que isso significa para uma consulta real.

Atualizado 7 de jun. de 20266 min de leitura

Fluxos de trabalho

Como criar um time multi-IA no aiDex

Monte um painel de personas de IA com nome, cada uma fixada em seu próprio modelo, com um moderador que fica de olho no consenso.

Atualizado 5 de jun. de 20268 min de leitura