Grátis por chamada
Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) rodam localmente no Ollama sem nenhum gasto de API.
Fica na sua máquina
Nenhum provedor de LLM externo vê seus prompts nem suas respostas, o modelo roda inteiro no seu hardware, e nada do conteúdo é enviado para OpenAI, Anthropic, Google ou qualquer outro.
Sem rate limit, sem fila
Seu modelo fica no seu disco. Sem cota de API, sem instabilidade de provedor, sem espera, responde tão rápido quanto seu hardware permitir.
Seu hardware, suas regras
Escolha o tamanho do modelo que cabe na sua RAM. Misture local + nuvem à vontade. Troque os pesos quando quiser.
Três passos até IA local
Do zero até conversar com um modelo local em menos de cinco minutos.
- 1
Instale o Ollama
Ollama é um runner gratuito e open-source que baixa e serve modelos open-weight via uma API HTTP local. Instale uma vez, baixe os modelos que quiser, e ele roda em segundo plano.
macOSLinuxWindowsmacOSbrew install ollamaLinuxcurl -fsSL https://ollama.com/install.sh | shWindowswinget install Ollama.OllamaOpções detalhadas de download para cada sistema em ollama.com/download.
- 2
Baixe um modelo
Escolha um modelo e peça ao Ollama para baixar. O primeiro download leva um minuto (os pesos são grandes); depois disso o modelo vive no seu disco e abre em segundos.
ollama pull llama3.2 ollama run llama3.2
- 3
Conecte o aiDex ao seu Ollama
O aiDex conecta no seu Ollama por HTTPS. Rode um túnel gratuito na mesma máquina do Ollama para obter uma URL pública estável e cole no aiDex.
Cloudflare TunnelngrokTailscaleCloudflare Tunnelcloudflared tunnel --url http://localhost:11434ngrokngrok http 11434Tailscaletailscale serve --bg --https=443 http://localhost:11434Caminho dos ajustes
Ajustes → Chaves de provedor → URL do Ollama
Cloudflare Tunnel é gratuito para uso pessoal e imprime uma URL estável. Tailscale te dá um endpoint HTTPS privado, alcançável só pelos seus dispositivos, ideal para uso solo.
Modelos recomendados por hardware
Padrões GGUF quantizados (q4_K_M). RAM é o limite inferior para inferência em CPU; VRAM é o que cabe confortavelmente em uma GPU dedicada para a geração ficar na placa.
Modelos maiores entendem mais nuance, mas geram mais devagar. Comece com 8B; suba para 70B só se tiver hardware para manter a geração rápida.
Dicas para tirar o máximo do local
Combine o modelo com a sua RAM
Um modelo que não cabe na RAM cai para o swap em disco e arrasta. Olhe a coluna de RAM recomendada e escolha um tier abaixo da sua RAM livre, deixe folga para o sistema e o navegador.
Misture local e nuvem no mesmo time
Rode os agentes mais falantes localmente (grátis, rápido) e reserve chamadas de nuvem para o juiz de fronteira ou o passo de síntese. O melhor dos dois: custo baixo, teto alto.
Rode o moderador local também
O moderador do aiDex só precisa emitir JSONs curtos. Llama 3.1 8B ou Qwen 2.5 7B dão conta tranquilamente, defina como o moderador do time e a conversa inteira passa a rodar no seu dispositivo.
Aceleração por GPU automática
O Ollama usa Metal em Apple Silicon, CUDA em NVIDIA e Vulkan em AMD sem nenhuma configuração. Se você tem GPU, ela acende no momento que a geração começa.