Gratis por llamada
Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) se ejecutan localmente en Ollama sin ningún gasto de API.
Se queda en tu máquina
Ningún proveedor de LLM externo ve tus prompts ni tus respuestas, el modelo se ejecuta por completo en tu hardware, y nada del contenido se envía a OpenAI, Anthropic, Google ni a nadie más.
Sin rate limit, sin fila
Tu modelo vive en tu disco. Sin cuota de API, sin inestabilidad de proveedor, sin esperar turno, responde tan rápido como tu hardware lo permita.
Tu hardware, tus reglas
Elige el tamaño de modelo que cabe en tu RAM. Combina local + nube a tu gusto. Cambia los pesos cuando quieras.
Tres pasos a la IA local
De cero a chatear con un modelo local en menos de cinco minutos.
- 1
Instala Ollama
Ollama es un runner gratuito y open-source que descarga y sirve modelos open-weight a través de una API HTTP local. Instálalo una vez, descarga los modelos que quieras, y se ejecuta en segundo plano.
macOSLinuxWindowsmacOSbrew install ollamaLinuxcurl -fsSL https://ollama.com/install.sh | shWindowswinget install Ollama.OllamaOpciones detalladas de descarga para cada sistema en ollama.com/download.
- 2
Descarga un modelo
Elige un modelo y pídele a Ollama que lo descargue. La primera descarga tarda un minuto (los pesos son grandes); después el modelo vive en tu disco y se abre en segundos.
ollama pull llama3.2 ollama run llama3.2
- 3
Conecta aiDex con tu Ollama
aiDex se conecta a tu Ollama por HTTPS. Ejecuta un túnel gratuito en la misma máquina que Ollama para obtener una URL pública estable y pégala en aiDex.
Cloudflare TunnelngrokTailscaleCloudflare Tunnelcloudflared tunnel --url http://localhost:11434ngrokngrok http 11434Tailscaletailscale serve --bg --https=443 http://localhost:11434Ruta en los ajustes
Ajustes → Claves de proveedor → URL de Ollama
Cloudflare Tunnel es gratis para uso personal e imprime una URL estable. Tailscale te da un endpoint HTTPS privado, alcanzable solo desde tus propios dispositivos, ideal para uso solo.
Modelos recomendados por hardware
Defaults GGUF cuantizados (q4_K_M). RAM es el límite inferior para inferencia en CPU; VRAM es lo que entra cómodo en una GPU dedicada para que la generación se quede en la tarjeta.
Los modelos más grandes captan más matiz pero generan más lento. Empieza con un 8B; sube a 70B solo si tienes hardware para mantener la generación ágil.
Consejos para sacarle el máximo a lo local
Empareja el modelo con tu RAM
Un modelo que no cabe en RAM se va a swap en disco y se arrastra. Mira la columna de RAM recomendada y elige un tier por debajo de tu RAM libre, deja margen para el sistema y el navegador.
Combina local y nube en un mismo equipo
Ejecuta los agentes más habladores localmente (gratis, rápidos) y reserva las llamadas a la nube para el juez de frontera o el paso de síntesis. Lo mejor de los dos: coste bajo, techo alto.
Corre el moderador local también
El moderador de aiDex solo necesita emitir JSONs cortos. Llama 3.1 8B o Qwen 2.5 7B lo hacen sin sudar, defínelo como el moderador del equipo y toda la conversación pasa a ejecutarse en tu dispositivo.
Aceleración por GPU automática
Ollama usa Metal en Apple Silicon, CUDA en NVIDIA y Vulkan en AMD sin configurar nada. Si tienes GPU, se enciende en el momento que arranca la generación.