Una guía viva, no un tutorial

De los modelos de frontera
a tu propio sistema de IA

Si usas Claude, GPT o GLM por suscripción, en algún momento te has hecho la pregunta: ¿hasta qué punto tiene sentido depender de un proveedor externo cuando tu volumen crece? Esto no es teoría — es el proceso que estoy siguiendo yo mismo, documentado fase a fase con costes y decisiones reales.

La lógica es simple: no se migra de golpe. Se delega primero, se simula después, y solo se compra hardware cuando hay datos que lo justifiquen.

¿Por qué no migrar directamente a local?

El hardware capaz de mover modelos grandes (Mac mini con mucha RAM unificada, equipos AMD Ryzen AI Max, GPUs NVIDIA) cuesta entre 1.500 y 3.000 €. Comprarlo sin saber qué modelo necesitas realmente es la forma más cara de aprender.

Por eso esta guía propone tres fases con puertas de salida claras entre cada una, en lugar de fechas fijas. Cada puerta se cruza con datos, no con calendario.

La guía

Tres fases, tres puertas de salida

Delegar tareas genéricas con lo que ya tienes

Fase actual

Antes de tocar hardware, delega en agentes usando las suscripciones que ya pagas. Elige tareas que no dependan de un negocio concreto, para que lo aprendido sirva sea cual sea tu sector: procesado de imágenes, locuciones (TTS), transcripción (STT), seguimiento programado de métricas.

Coste mensual de la Fase 1
Servicio	Plan	Coste/mes	Para qué
Claude Code	Pro	18 €	Orquestación de agentes, código, razonamiento
GLM (z.ai)	Coding, tarifa plana	36 $ (~33 €)	Tareas agénticas de volumen, cron jobs
Total		~51 €/mes	Baseline antes de pasar a nube

Puerta de salida → cuando las suscripciones se queden cortas (límites, latencia, volumen) o haya presupuesto para pruebas en nube.

Simula el hardware antes de comprarlo

En evaluación

Aquí no se compra nada todavía. Se prueban modelos abiertos en proveedores de inferencia (OpenRouter, Fireworks, Together, Groq) y, si el volumen lo pide, se alquila una instancia GPU on-demand (RunPod, Vast.ai, Modal) parecida al hardware candidato. Las mismas tareas validadas en la Fase 1 sirven de banco de pruebas.

Criterio clave: si necesitas <1M tokens/mes, la API por token sale mejor; por encima, una instancia dedicada puede ganar. Presupuesto orientativo: 50–150 €/mes, sin contratos largos.

Puerta de salida → un modelo ganador (o dos finalistas) validado en condiciones parecidas al hardware final.

El hardware definitivo

Pendiente de datos

Con los datos de la Fase 2 en la mano, se compra el hardware y se migran los agentes que ya funcionan — o se decide, con números, que seguir 100% en nube es lo correcto.

Hardware candidato para la Fase 3
Candidato	RAM/VRAM	Precio aprox.	Punto fuerte
Mac mini M4 Pro	48 GB unificada	~2.200 €	Eficiencia, soporte MLX
Beelink GTR9 Pro (Ryzen AI Max+)	128 GB unificada	~2.000–2.500 €	Más RAM por euro
NVIDIA DGX Spark	GPU dedicada	>3.000 €	Máximo rendimiento

Ya descartado con datos: Mac mini M4 de 16 GB — RAM unificada insuficiente para modelos >7B con calidad de producción.

Sin humo

Datos reales, a día de hoy

Esta es la foto actual del sistema que sostiene esta guía: un orquestador propio (Hermes) con 72 tareas programadas corriendo sobre modelos open-weight, y modelos de frontera reservados para trabajo interactivo.

Estado actual de proveedores de modelos
Proveedor	Modelo	Estado	Uso
z.ai plan coding	GLM-5.2	Activo	Default de las 72 tareas programadas — tarifa plana
Claude Code Pro	Claude (frontera)	Activo	Trabajo interactivo, orquestación, síntesis puntual
z.ai API medida	GLM-5.1	429	Descartada para crons por saturación
OpenRouter	Open-weight varios	Sin créditos	Reservado para benchmarks puntuales

El proceso, en tiempo real

Bitácora

4 de julio de 2026

De los modelos de frontera
a tu propio sistema de IA

¿Por qué no migrar directamente a local?

Tres fases, tres puertas de salida

Delegar tareas genéricas con lo que ya tienes

Simula el hardware antes de comprarlo

El hardware definitivo

Datos reales, a día de hoy

Bitácora

Esta guía ya es pública (y por qué no he comprado dominio)

La tarifa plana gana: 72 tareas migradas a GLM-5.2 en una tarde

Auditoría: 64 tareas programadas, ¿cuánta frontera hay escondida?

De los modelos de frontera a tu propio sistema de IA

¿Por qué no migrar directamente a local?

Tres fases, tres puertas de salida

Delegar tareas genéricas con lo que ya tienes

Simula el hardware antes de comprarlo

El hardware definitivo

Datos reales, a día de hoy

Bitácora

Esta guía ya es pública (y por qué no he comprado dominio)

La tarifa plana gana: 72 tareas migradas a GLM-5.2 en una tarde

Auditoría: 64 tareas programadas, ¿cuánta frontera hay escondida?

De los modelos de frontera
a tu propio sistema de IA