Lleva Ollama a tu chat de aiDex: modelos locales en la misma mesa

Ejecuta modelos de pesos abiertos en tu propia máquina y mézclalos con modelos de nube en una sola conversación.

Por El equipo de aiDex, Plataforma de IA multimodeloPublicado 9 jun 2026Actualizado 9 jun 20265 min de lectura

Resumen

aiDex puede sentar modelos locales ejecutados con Ollama en la misma mesa que modelos de nube como Claude Opus 4.8, GPT-5.4 y Gemini 3.1 Pro. Ejecuta Ollama en tu máquina, conéctalo en la Configuración, y tus modelos locales entran en conversaciones en los modos Solo, Comparar, Judge, Pipeline o Equipo. Mantén el trabajo sensible totalmente local, o mezcla asientos locales gratuitos con asientos de nube de pago en un solo chat.

Algunas preguntas no deberían salir nunca de tu portátil. Contratos de clientes, código sin publicar, cifras internas: en el momento en que las pegas en un chatbot de nube, estás confiando en los servidores de otro. Los modelos locales resuelven eso, pero suelen vivir en una ventana solitaria de terminal, aislados de los modelos de nube más potentes que sigues necesitando para los problemas difíciles.

aiDex elimina ese muro. Los modelos servidos por Ollama se ejecutan en tu propia máquina y se unen al mismo panel que los pesos pesados de la nube, así que decides, conversación a conversación, qué se queda en local y qué sale.

¿Qué es Ollama y qué hace dentro de aiDex?

Ollama es un software gratuito y de código abierto que descarga y ejecuta modelos de lenguaje de pesos abiertos (familias Llama, Mistral, Gemma, Qwen y DeepSeek, entre otras) directamente en tu ordenador. Sin cuenta, sin factura de API: si tu hardware aguanta el modelo, funciona.

Dentro de aiDex, un modelo de Ollama se comporta como cualquier otro asiento en la mesa. Puedes darle un chat en Solo, enfrentarlo a Claude Opus 4.8 en Comparar, dejarlo votar en Judge, encajarlo en una etapa de Pipeline o meterlo en una conversación de Equipo con hasta cinco modelos. El moderador lo trata exactamente igual que a un participante de nube, y lee los mismos documentos adjuntos (DOCX, PDF, MD, txt) que el resto del chat.

¿Cómo conecto Ollama a aiDex?

Tres pasos, unos diez minutos la primera vez:

Instala Ollama desde el sitio oficial en ollama.com (macOS, Windows, Linux).
Descarga un modelo. Ejecuta ollama pull llama3 (o cualquier modelo de la biblioteca de Ollama) en tu terminal. Ollama lo sirve en local, por defecto en el puerto 11434.
Apunta aiDex hacia él. Abre la Configuración, añade tu endpoint local de Ollama, y tus modelos instalados aparecen en el catálogo, el Dex, junto a los modelos de nube.

A partir de ahí, elegir un modelo local es el mismo gesto que elegir cualquier otro: abre la lista y selecciona el asiento.

¿Cuándo ganan los modelos locales a los de nube?

Tómalo como criterios de decisión, no como dogma:

Privacidad y confidencialidad. Los prompts enviados a un modelo de Ollama se procesan en tu máquina. Para contenido regulado o bajo contrato, ese único hecho puede decidir toda la cuestión.
Coste en volumen. Un modelo local no tiene coste por token. Para trabajo repetitivo de alto volumen (clasificación, extracción, resúmenes de primera pasada), gratis gana a barato.
Sin conexión y latencia. En un avión, detrás de un firewall restrictivo o con una conexión inestable, el asiento local sigue funcionando.
La nube sigue ganando en razonamiento de frontera. El razonamiento largo de varios pasos, los documentos muy grandes y el código más difícil siguen siendo territorio de modelos como Claude Opus 4.8, GPT-5.4 y Gemini 3.1 Pro, más grandes que cualquier cosa que un portátil pueda alojar.

Para la mayoría, la respuesta honesta es "ambos", y justo por eso importa tenerlos en un mismo chat. Los asientos locales encajan en todos los patrones de nuestra guía de flujos de trabajo multimodelo.

¿Cómo mezclo modelos locales y de nube en una sola conversación?

Tres patrones que funcionan bien:

Comparar con un control. Envía el mismo prompt a un modelo local y a GPT-5.4 o Claude Opus 4.8 en el modo Comparar. En una semana sabrás exactamente qué tareas tuyas resuelve bien el asiento local gratuito, igual que sugerimos comparar modelos de IA en paralelo con los modelos de nube.
Borrador local, pulido en la nube. En el modo Pipeline, deja que un modelo local produzca la etapa de Borrador y entrega la Crítica y el Pulido a Claude Opus 4.8. Gastas tokens de nube solo en las etapas que los necesitan.
Una voz local en el panel. En un chat de Equipos, un modelo local añade una perspectiva distinta a coste marginal cero, junto a los patrones de cómo crear un equipo multi-IA.

Una advertencia honesta: en un panel mixto, todos los modelos de la conversación leen el chat, incluidos los documentos adjuntos. Si el contenido no puede salir de tu máquina, mantén todo el panel en local. aiDex funciona totalmente en local cuando todos los asientos son modelos de Ollama.

¿Listo para probarlo? Abre aiDex, conecta tu endpoint de Ollama y lanza tu primer Comparar de local contra nube.

¿Cuánto cuesta esto?

El lado local no cuesta nada más allá de tu hardware y tu electricidad: Ollama es gratuito y los modelos de pesos abiertos no tienen tarifa por token. El lado de la nube funciona como prefieras. Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras. Los costes por mensaje quedan visibles en el chat y los límites de gasto acotan el mes, así que un panel que mezcla un asiento local gratuito con dos asientos de nube de pago nunca te sorprende. Para las cifras de la nube, consulta nuestro desglose de coste por token.

¿Por dónde empiezo?

Instala Ollama, descarga un modelo pequeño (uno de 8B es más que suficiente para aprender), conéctalo en la Configuración y ponlo en un Comparar junto a un modelo de nube en el que ya confíes. Diez minutos de configuración te compran un asiento gratuito permanente en la mesa. Cuando estés listo, abre aiDex y dale una silla a tu portátil.

El equipo de aiDex · Plataforma de IA multimodelo

aiDex es una plataforma de IA multimodelo que te permite consultar varios modelos de IA a la vez, comparar sus respuestas, elegir por consenso y encadenar modelos en pipelines o conversaciones abiertas en equipo. Usa tus propias claves de proveedor o las que gestionamos nosotros, y elige los modelos que quieras.

Preguntas frecuentes

¿Ollama es gratuito?

Sí. Ollama es software gratuito y de código abierto, y los modelos de pesos abiertos que ejecuta no tienen coste por token. Solo pagas con tu propio hardware y electricidad. Los modelos de nube del mismo chat de aiDex se facturan con normalidad mediante tus claves o los créditos gestionados.

¿Necesito una GPU para ejecutar Ollama?

No, pero ayuda. Los modelos pequeños, de 3B a 8B parámetros, funcionan en la CPU de un portátil moderno. Una GPU dedicada o un Mac con Apple Silicon acelera mucho las respuestas y permite ejecutar modelos más grandes y capaces.

¿Qué modelos puedo ejecutar con Ollama?

Familias de pesos abiertos como Llama, Mistral, Gemma, Qwen y destilaciones de DeepSeek, entre cientos de opciones en la biblioteca de Ollama. Una vez que Ollama los sirve, aparecen en el Dex como cualquier otro modelo.

¿Mis datos quedan privados con un modelo local?

Las llamadas a un modelo de Ollama se procesan en tu máquina y no se envían a un proveedor de nube. En un panel mixto, los modelos de nube de la misma conversación sí reciben el contenido del chat, así que mantén las conversaciones estrictamente confidenciales solo con asientos locales.

¿Puedo usar aiDex solo con modelos locales?

Sí. Todos los asientos de una conversación pueden ser modelos de Ollama, y entonces el chat completo funciona totalmente en local. Después puedes cambiar cualquier asiento a un modelo de nube si una pregunta supera tu hardware.

Empieza aquíFlujos de trabajo de IA multimodelo: por qué consultar todos los modelos a la vez (guía de 2026)

Sigue leyendo

Flujos de trabajo

Flujos de trabajo de IA multimodelo: por qué consultar todos los modelos a la vez (guía de 2026)

Un modelo es una sola opinión. Aquí tienes cómo consultar varios a la vez y obtener una respuesta mejor.

Actualizado 7 jun 20268 min de lectura

Flujos de trabajo

Cómo comparar modelos de IA en paralelo

Envía un mismo prompt a varios modelos a la vez, lee las respuestas en paralelo y deja que decida el resultado, no el ruido.

Actualizado 5 jun 20266 min de lectura

BenchmarksDATA

Precios de los modelos de IA en 2026: el coste real por token para usuarios avanzados

Cuánto cobra cada gran modelo de IA por millón de tokens y qué significa eso para una consulta real.

Actualizado 7 jun 20266 min de lectura

Flujos de trabajo

Cómo crear un equipo multi-IA en aiDex

Crea un panel de personas de IA con nombre, cada una asociada a su propio modelo, con un moderador que vigila el consenso.

Actualizado 5 jun 20268 min de lectura