Una guía viva, no un tutorial

De los modelos de frontera
a tu propio sistema de IA

Si usas Claude, GPT o GLM por suscripción, en algún momento te has hecho la pregunta: ¿hasta qué punto tiene sentido depender de un proveedor externo cuando tu volumen crece? Esto no es teoría — es el proceso que estoy siguiendo yo mismo, documentado fase a fase con costes y decisiones reales.

La lógica es simple: no se migra de golpe. Se delega primero, se simula después, y solo se compra hardware cuando hay datos que lo justifiquen.

¿Por qué no migrar directamente a local?

El hardware capaz de mover modelos grandes (Mac mini con mucha RAM unificada, equipos AMD Ryzen AI Max, GPUs NVIDIA) cuesta entre 1.500 y 3.000 €. Comprarlo sin saber qué modelo necesitas realmente es la forma más cara de aprender.

Por eso esta guía propone tres fases con puertas de salida claras entre cada una, en lugar de fechas fijas. Cada puerta se cruza con datos, no con calendario.

La guía

Tres fases, tres puertas de salida

Delegar tareas genéricas con lo que ya tienes

Fase actual

Antes de tocar hardware, delega en agentes usando las suscripciones que ya pagas. Elige tareas que no dependan de un negocio concreto, para que lo aprendido sirva sea cual sea tu sector: procesado de imágenes, locuciones (TTS), transcripción (STT), seguimiento programado de métricas.

Coste mensual de la Fase 1
ServicioPlanCoste/mesPara qué
Claude CodePro18 €Orquestación de agentes, código, razonamiento
GLM (z.ai)Coding, tarifa plana36 $ (~33 €)Tareas agénticas de volumen, cron jobs
Total~51 €/mesBaseline antes de pasar a nube

Puerta de salida → cuando las suscripciones se queden cortas (límites, latencia, volumen) o haya presupuesto para pruebas en nube.

Simula el hardware antes de comprarlo

En evaluación

Aquí no se compra nada todavía. Se prueban modelos abiertos en proveedores de inferencia (OpenRouter, Fireworks, Together, Groq) y, si el volumen lo pide, se alquila una instancia GPU on-demand (RunPod, Vast.ai, Modal) parecida al hardware candidato. Las mismas tareas validadas en la Fase 1 sirven de banco de pruebas.

Criterio clave: si necesitas <1M tokens/mes, la API por token sale mejor; por encima, una instancia dedicada puede ganar. Presupuesto orientativo: 50–150 €/mes, sin contratos largos.

Puerta de salida → un modelo ganador (o dos finalistas) validado en condiciones parecidas al hardware final.

El hardware definitivo

Pendiente de datos

Con los datos de la Fase 2 en la mano, se compra el hardware y se migran los agentes que ya funcionan — o se decide, con números, que seguir 100% en nube es lo correcto.

Hardware candidato para la Fase 3
CandidatoRAM/VRAMPrecio aprox.Punto fuerte
Mac mini M4 Pro48 GB unificada~2.200 €Eficiencia, soporte MLX
Beelink GTR9 Pro (Ryzen AI Max+)128 GB unificada~2.000–2.500 €Más RAM por euro
NVIDIA DGX SparkGPU dedicada>3.000 €Máximo rendimiento

Ya descartado con datos: Mac mini M4 de 16 GB — RAM unificada insuficiente para modelos >7B con calidad de producción.

Sin humo

Datos reales, a día de hoy

Esta es la foto actual del sistema que sostiene esta guía: un orquestador propio (Hermes) con 72 tareas programadas corriendo sobre modelos open-weight, y modelos de frontera reservados para trabajo interactivo.

Estado actual de proveedores de modelos
ProveedorModeloEstadoUso
z.ai plan codingGLM-5.2 Activo Default de las 72 tareas programadas — tarifa plana
Claude Code ProClaude (frontera) Activo Trabajo interactivo, orquestación, síntesis puntual
z.ai API medidaGLM-5.1 429 Descartada para crons por saturación
OpenRouterOpen-weight varios Sin créditos Reservado para benchmarks puntuales

El proceso, en tiempo real

Bitácora

Todas las entradas →