Rode local com Ollama

Rode IA no seu próprio laptop. De graça.

Combine o aiDex com o Ollama e transforme sua própria máquina no backend de LLM. Custo zero por chamada, nenhum dado saindo do seu computador, totalmente offline.

Grátis por chamada

Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) rodam localmente no Ollama sem nenhum gasto de API.

Fica na sua máquina

Nenhum provedor de LLM externo vê seus prompts nem suas respostas, o modelo roda inteiro no seu hardware, e nada do conteúdo é enviado para OpenAI, Anthropic, Google ou qualquer outro.

Sem rate limit, sem fila

Seu modelo fica no seu disco. Sem cota de API, sem instabilidade de provedor, sem espera, responde tão rápido quanto seu hardware permitir.

Seu hardware, suas regras

Escolha o tamanho do modelo que cabe na sua RAM. Misture local + nuvem à vontade. Troque os pesos quando quiser.

Três passos até IA local

Do zero até conversar com um modelo local em menos de cinco minutos.

  1. 1

    Instale o Ollama

    Ollama é um runner gratuito e open-source que baixa e serve modelos open-weight via uma API HTTP local. Instale uma vez, baixe os modelos que quiser, e ele roda em segundo plano.

    macOSLinuxWindows
    macOSbrew install ollama
    Linuxcurl -fsSL https://ollama.com/install.sh | sh
    Windowswinget install Ollama.Ollama

    Opções detalhadas de download para cada sistema em ollama.com/download.

  2. 2

    Baixe um modelo

    Escolha um modelo e peça ao Ollama para baixar. O primeiro download leva um minuto (os pesos são grandes); depois disso o modelo vive no seu disco e abre em segundos.

    ollama pull llama3.2
    ollama run llama3.2
  3. 3

    Conecte o aiDex ao seu Ollama

    O aiDex conecta no seu Ollama por HTTPS. Rode um túnel gratuito na mesma máquina do Ollama para obter uma URL pública estável e cole no aiDex.

    Cloudflare TunnelngrokTailscale
    Cloudflare Tunnelcloudflared tunnel --url http://localhost:11434
    ngrokngrok http 11434
    Tailscaletailscale serve --bg --https=443 http://localhost:11434

    Caminho dos ajustes

    Ajustes → Chaves de provedor → URL do Ollama

    Cloudflare Tunnel é gratuito para uso pessoal e imprime uma URL estável. Tailscale te dá um endpoint HTTPS privado, alcançável só pelos seus dispositivos, ideal para uso solo.

Modelos recomendados por hardware

Padrões GGUF quantizados (q4_K_M). RAM é o limite inferior para inferência em CPU; VRAM é o que cabe confortavelmente em uma GPU dedicada para a geração ficar na placa.

Modelo OllamaParâmetrosRAM (CPU)VRAM (GPU)Indicado para
llama3.2:3b3B4 GBConversa rápida do dia a dia. Roda em praticamente qualquer laptop com 4 GB de RAM livre.
llama3.1:8b8B8 GB6 GBExcelente coringa para raciocínio, escrita e código. Ponto ideal para a maioria dos laptops.
qwen2.5:7b7B8 GB6 GBMultilíngue forte (incl. português e espanhol). Bom para times entre idiomas.
mistral:7b7B8 GB6 GBAfiado para revisão de código, refatorações e explicar APIs desconhecidas.
deepseek-r1:7b7B8 GB6 GBDestilação focada em raciocínio. Mais lento por token, respostas mais profundas.
llama3.3:70b-q470B48 GB40 GBTier de fronteira rodando local, só ative se tiver uma GPU robusta ou workstation.

Modelos maiores entendem mais nuance, mas geram mais devagar. Comece com 8B; suba para 70B só se tiver hardware para manter a geração rápida.

Dicas para tirar o máximo do local

  • Combine o modelo com a sua RAM

    Um modelo que não cabe na RAM cai para o swap em disco e arrasta. Olhe a coluna de RAM recomendada e escolha um tier abaixo da sua RAM livre, deixe folga para o sistema e o navegador.

  • Misture local e nuvem no mesmo time

    Rode os agentes mais falantes localmente (grátis, rápido) e reserve chamadas de nuvem para o juiz de fronteira ou o passo de síntese. O melhor dos dois: custo baixo, teto alto.

  • Rode o moderador local também

    O moderador do aiDex só precisa emitir JSONs curtos. Llama 3.1 8B ou Qwen 2.5 7B dão conta tranquilamente, defina como o moderador do time e a conversa inteira passa a rodar no seu dispositivo.

  • Aceleração por GPU automática

    O Ollama usa Metal em Apple Silicon, CUDA em NVIDIA e Vulkan em AMD sem nenhuma configuração. Se você tem GPU, ela acende no momento que a geração começa.

Sem fatura de API. Sem compartilhar dados. Sem lock-in.

Assine o aiDex para a orquestração de chat em time. Rode os modelos no seu próprio hardware para ter de graça, privado e offline.