Corre local con Ollama

Ejecuta IA en tu propio portátil. Gratis.

Combina aiDex con Ollama y convierte tu propia máquina en el backend de LLM. Coste cero por llamada, ningún dato sale de tu ordenador, totalmente offline.

Gratis por llamada

Modelos open-weight (Llama, Qwen, Mistral, DeepSeek) se ejecutan localmente en Ollama sin ningún gasto de API.

Se queda en tu máquina

Ningún proveedor de LLM externo ve tus prompts ni tus respuestas, el modelo se ejecuta por completo en tu hardware, y nada del contenido se envía a OpenAI, Anthropic, Google ni a nadie más.

Sin rate limit, sin fila

Tu modelo vive en tu disco. Sin cuota de API, sin inestabilidad de proveedor, sin esperar turno, responde tan rápido como tu hardware lo permita.

Tu hardware, tus reglas

Elige el tamaño de modelo que cabe en tu RAM. Combina local + nube a tu gusto. Cambia los pesos cuando quieras.

Tres pasos a la IA local

De cero a chatear con un modelo local en menos de cinco minutos.

  1. 1

    Instala Ollama

    Ollama es un runner gratuito y open-source que descarga y sirve modelos open-weight a través de una API HTTP local. Instálalo una vez, descarga los modelos que quieras, y se ejecuta en segundo plano.

    macOSLinuxWindows
    macOSbrew install ollama
    Linuxcurl -fsSL https://ollama.com/install.sh | sh
    Windowswinget install Ollama.Ollama

    Opciones detalladas de descarga para cada sistema en ollama.com/download.

  2. 2

    Descarga un modelo

    Elige un modelo y pídele a Ollama que lo descargue. La primera descarga tarda un minuto (los pesos son grandes); después el modelo vive en tu disco y se abre en segundos.

    ollama pull llama3.2
    ollama run llama3.2
  3. 3

    Conecta aiDex con tu Ollama

    aiDex se conecta a tu Ollama por HTTPS. Ejecuta un túnel gratuito en la misma máquina que Ollama para obtener una URL pública estable y pégala en aiDex.

    Cloudflare TunnelngrokTailscale
    Cloudflare Tunnelcloudflared tunnel --url http://localhost:11434
    ngrokngrok http 11434
    Tailscaletailscale serve --bg --https=443 http://localhost:11434

    Ruta en los ajustes

    Ajustes → Claves de proveedor → URL de Ollama

    Cloudflare Tunnel es gratis para uso personal e imprime una URL estable. Tailscale te da un endpoint HTTPS privado, alcanzable solo desde tus propios dispositivos, ideal para uso solo.

Modelos recomendados por hardware

Defaults GGUF cuantizados (q4_K_M). RAM es el límite inferior para inferencia en CPU; VRAM es lo que entra cómodo en una GPU dedicada para que la generación se quede en la tarjeta.

Modelo OllamaParámetrosRAM (CPU)VRAM (GPU)Ideal para
llama3.2:3b3B4 GBChat rápido del día a día. Se ejecuta prácticamente en cualquier portátil con 4 GB de RAM libre.
llama3.1:8b8B8 GB6 GBSólido todoterreno para razonamiento, escritura y código. Punto dulce para la mayoría de portátiles.
qwen2.5:7b7B8 GB6 GBMultilingüe fuerte (incl. portugués y español). Bueno para equipos cruzando idiomas.
mistral:7b7B8 GB6 GBAfilado para revisión de código, refactors y explicar APIs desconocidas.
deepseek-r1:7b7B8 GB6 GBDestilación afinada para razonamiento. Más lento por token, respuestas más profundas.
llama3.3:70b-q470B48 GB40 GBTier de frontera ejecutándose local, actívalo solo si tienes una GPU potente o workstation.

Los modelos más grandes captan más matiz pero generan más lento. Empieza con un 8B; sube a 70B solo si tienes hardware para mantener la generación ágil.

Consejos para sacarle el máximo a lo local

  • Empareja el modelo con tu RAM

    Un modelo que no cabe en RAM se va a swap en disco y se arrastra. Mira la columna de RAM recomendada y elige un tier por debajo de tu RAM libre, deja margen para el sistema y el navegador.

  • Combina local y nube en un mismo equipo

    Ejecuta los agentes más habladores localmente (gratis, rápidos) y reserva las llamadas a la nube para el juez de frontera o el paso de síntesis. Lo mejor de los dos: coste bajo, techo alto.

  • Corre el moderador local también

    El moderador de aiDex solo necesita emitir JSONs cortos. Llama 3.1 8B o Qwen 2.5 7B lo hacen sin sudar, defínelo como el moderador del equipo y toda la conversación pasa a ejecutarse en tu dispositivo.

  • Aceleración por GPU automática

    Ollama usa Metal en Apple Silicon, CUDA en NVIDIA y Vulkan en AMD sin configurar nada. Si tienes GPU, se enciende en el momento que arranca la generación.

Sin factura de API. Sin compartir datos. Sin lock-in.

Suscríbete a aiDex para la orquestación del chat en equipo. Ejecuta los modelos en tu propio hardware para tenerlos gratis, privados y offline.