Corre local con Ollama

Ejecuta IA en tu propio portátil. Gratis.

Combina aiDex con Ollama y convierte tu propia máquina en el backend de LLM. Coste cero por llamada, ningún dato sale de tu ordenador, totalmente offline.

Gratis por llamada

Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) se ejecutan localmente en Ollama sin ningún gasto de API.

Se queda en tu máquina

Ningún proveedor de LLM externo ve tus prompts ni tus respuestas, el modelo se ejecuta por completo en tu hardware, y nada del contenido se envía a OpenAI, Anthropic, Google ni a nadie más.

Sin rate limit, sin fila

Tu modelo vive en tu disco. Sin cuota de API, sin inestabilidad de proveedor, sin esperar turno, responde tan rápido como tu hardware lo permita.

Tu hardware, tus reglas

Elige el tamaño de modelo que cabe en tu RAM. Combina local + nube a tu gusto. Cambia los pesos cuando quieras.

Tres pasos a la IA local

De cero a chatear con un modelo local en menos de cinco minutos.

1
Instala Ollama
Ollama es un runner gratuito y open-source que descarga y sirve modelos open-weight a través de una API HTTP local. Instálalo una vez, descarga los modelos que quieras, y se ejecuta en segundo plano.
macOSLinuxWindows
macOSbrew install ollama
Linuxcurl -fsSL https://ollama.com/install.sh | sh
Windowswinget install Ollama.Ollama
Opciones detalladas de descarga para cada sistema en ollama.com/download.
2
Descarga un modelo
Elige un modelo y pídele a Ollama que lo descargue. La primera descarga tarda un minuto (los pesos son grandes); después el modelo vive en tu disco y se abre en segundos.
ollama pull llama3.2 ollama run llama3.2
3
Conecta aiDex con tu Ollama
aiDex se conecta a tu Ollama por HTTPS. Ejecuta un túnel gratuito en la misma máquina que Ollama para obtener una URL pública estable y pégala en aiDex.
Cloudflare TunnelngrokTailscale
Cloudflare Tunnelcloudflared tunnel --url http://localhost:11434
ngrokngrok http 11434
Tailscaletailscale serve --bg --https=443 http://localhost:11434
Ruta en los ajustes
Ajustes → Claves de proveedor → URL de Ollama
Cloudflare Tunnel es gratis para uso personal e imprime una URL estable. Tailscale te da un endpoint HTTPS privado, alcanzable solo desde tus propios dispositivos, ideal para uso solo.

Modelos recomendados por hardware

Defaults GGUF cuantizados (q4_K_M). RAM es el límite inferior para inferencia en CPU; VRAM es lo que entra cómodo en una GPU dedicada para que la generación se quede en la tarjeta.

Modelo Ollama	Parámetros	RAM (CPU)	VRAM (GPU)	Ideal para
llama3.2:3b	3B	4 GB	—	Chat rápido del día a día. Se ejecuta prácticamente en cualquier portátil con 4 GB de RAM libre.
llama3.1:8b	8B	8 GB	6 GB	Sólido todoterreno para razonamiento, escritura y código. Punto dulce para la mayoría de portátiles.
qwen2.5:7b	7B	8 GB	6 GB	Multilingüe fuerte (incl. portugués y español). Bueno para equipos cruzando idiomas.
mistral:7b	7B	8 GB	6 GB	Afilado para revisión de código, refactors y explicar APIs desconocidas.
deepseek-r1:7b	7B	8 GB	6 GB	Destilación afinada para razonamiento. Más lento por token, respuestas más profundas.
llama3.3:70b-q4	70B	48 GB	40 GB	Tier de frontera ejecutándose local, actívalo solo si tienes una GPU potente o workstation.

Los modelos más grandes captan más matiz pero generan más lento. Empieza con un 8B; sube a 70B solo si tienes hardware para mantener la generación ágil.

Consejos para sacarle el máximo a lo local

Empareja el modelo con tu RAM
Un modelo que no cabe en RAM se va a swap en disco y se arrastra. Mira la columna de RAM recomendada y elige un tier por debajo de tu RAM libre, deja margen para el sistema y el navegador.
Combina local y nube en un mismo equipo
Ejecuta los agentes más habladores localmente (gratis, rápidos) y reserva las llamadas a la nube para el juez de frontera o el paso de síntesis. Lo mejor de los dos: coste bajo, techo alto.
Corre el moderador local también
El moderador de aiDex solo necesita emitir JSONs cortos. Llama 3.1 8B o Qwen 2.5 7B lo hacen sin sudar, defínelo como el moderador del equipo y toda la conversación pasa a ejecutarse en tu dispositivo.
Aceleración por GPU automática
Ollama usa Metal en Apple Silicon, CUDA en NVIDIA y Vulkan en AMD sin configurar nada. Si tienes GPU, se enciende en el momento que arranca la generación.

Sin factura de API. Sin compartir datos. Sin lock-in.

Suscríbete a aiDex para la orquestación del chat en equipo. Ejecuta los modelos en tu propio hardware para tenerlos gratis, privados y offline.

Ejecuta IA en tu propio portátil. Gratis.

Tres pasos a la IA local

Instala Ollama

Descarga un modelo

Conecta aiDex con tu Ollama

Modelos recomendados por hardware

Consejos para sacarle el máximo a lo local

Sin factura de API. Sin compartir datos. Sin lock-in.