Rode local com Ollama

Rode IA no seu próprio laptop. De graça.

Combine o aiDex com o Ollama e transforme sua própria máquina no backend de LLM. Custo zero por chamada, nenhum dado saindo do seu computador, totalmente offline.

Grátis por chamada

Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) rodam localmente no Ollama sem nenhum gasto de API.

Fica na sua máquina

Nenhum provedor de LLM externo vê seus prompts nem suas respostas, o modelo roda inteiro no seu hardware, e nada do conteúdo é enviado para OpenAI, Anthropic, Google ou qualquer outro.

Sem rate limit, sem fila

Seu modelo fica no seu disco. Sem cota de API, sem instabilidade de provedor, sem espera, responde tão rápido quanto seu hardware permitir.

Seu hardware, suas regras

Escolha o tamanho do modelo que cabe na sua RAM. Misture local + nuvem à vontade. Troque os pesos quando quiser.

Três passos até IA local

Do zero até conversar com um modelo local em menos de cinco minutos.

1
Instale o Ollama
Ollama é um runner gratuito e open-source que baixa e serve modelos open-weight via uma API HTTP local. Instale uma vez, baixe os modelos que quiser, e ele roda em segundo plano.
macOSLinuxWindows
macOSbrew install ollama
Linuxcurl -fsSL https://ollama.com/install.sh | sh
Windowswinget install Ollama.Ollama
Opções detalhadas de download para cada sistema em ollama.com/download.
2
Baixe um modelo
Escolha um modelo e peça ao Ollama para baixar. O primeiro download leva um minuto (os pesos são grandes); depois disso o modelo vive no seu disco e abre em segundos.
ollama pull llama3.2 ollama run llama3.2
3
Conecte o aiDex ao seu Ollama
O aiDex conecta no seu Ollama por HTTPS. Rode um túnel gratuito na mesma máquina do Ollama para obter uma URL pública estável e cole no aiDex.
Cloudflare TunnelngrokTailscale
Cloudflare Tunnelcloudflared tunnel --url http://localhost:11434
ngrokngrok http 11434
Tailscaletailscale serve --bg --https=443 http://localhost:11434
Caminho dos ajustes
Ajustes → Chaves de provedor → URL do Ollama
Cloudflare Tunnel é gratuito para uso pessoal e imprime uma URL estável. Tailscale te dá um endpoint HTTPS privado, alcançável só pelos seus dispositivos, ideal para uso solo.

Modelos recomendados por hardware

Padrões GGUF quantizados (q4_K_M). RAM é o limite inferior para inferência em CPU; VRAM é o que cabe confortavelmente em uma GPU dedicada para a geração ficar na placa.

Modelo Ollama	Parâmetros	RAM (CPU)	VRAM (GPU)	Indicado para
llama3.2:3b	3B	4 GB	—	Conversa rápida do dia a dia. Roda em praticamente qualquer laptop com 4 GB de RAM livre.
llama3.1:8b	8B	8 GB	6 GB	Excelente coringa para raciocínio, escrita e código. Ponto ideal para a maioria dos laptops.
qwen2.5:7b	7B	8 GB	6 GB	Multilíngue forte (incl. português e espanhol). Bom para times entre idiomas.
mistral:7b	7B	8 GB	6 GB	Afiado para revisão de código, refatorações e explicar APIs desconhecidas.
deepseek-r1:7b	7B	8 GB	6 GB	Destilação focada em raciocínio. Mais lento por token, respostas mais profundas.
llama3.3:70b-q4	70B	48 GB	40 GB	Tier de fronteira rodando local, só ative se tiver uma GPU robusta ou workstation.

Modelos maiores entendem mais nuance, mas geram mais devagar. Comece com 8B; suba para 70B só se tiver hardware para manter a geração rápida.

Dicas para tirar o máximo do local

Combine o modelo com a sua RAM
Um modelo que não cabe na RAM cai para o swap em disco e arrasta. Olhe a coluna de RAM recomendada e escolha um tier abaixo da sua RAM livre, deixe folga para o sistema e o navegador.
Misture local e nuvem no mesmo time
Rode os agentes mais falantes localmente (grátis, rápido) e reserve chamadas de nuvem para o juiz de fronteira ou o passo de síntese. O melhor dos dois: custo baixo, teto alto.
Rode o moderador local também
O moderador do aiDex só precisa emitir JSONs curtos. Llama 3.1 8B ou Qwen 2.5 7B dão conta tranquilamente, defina como o moderador do time e a conversa inteira passa a rodar no seu dispositivo.
Aceleração por GPU automática
O Ollama usa Metal em Apple Silicon, CUDA em NVIDIA e Vulkan em AMD sem nenhuma configuração. Se você tem GPU, ela acende no momento que a geração começa.

Sem fatura de API. Sem compartilhar dados. Sem lock-in.

Assine o aiDex para a orquestração de chat em time. Rode os modelos no seu próprio hardware para ter de graça, privado e offline.

Rode IA no seu próprio laptop. De graça.

Três passos até IA local

Instale o Ollama

Baixe um modelo

Conecte o aiDex ao seu Ollama

Modelos recomendados por hardware

Dicas para tirar o máximo do local

Sem fatura de API. Sem compartilhar dados. Sem lock-in.