lunes, 25 de mayo de 2026

Híbrido: la conversación que ningún proveedor de IA quiere que tengas

 



La IA vino para quedarse. Eso ya no se discute. Lo que sí se discute — o se debería discutir — es quién va a pagar la factura cuando termine el subsidio.

Porque hoy el servicio que recibimos está ampliamente subsidiado. Los centros de datos son carísimos, y las grandes empresas están imponiendo la adopción a fuerza de accesibilidad — quieren que la herramienta se vuelva infraestructura antes de que mires el costo real.

¿Y nosotros? Felices, usando un modelo de frontera para resumir un mail.

Matando moscas con cañones.

El problema que pocos están modelando

La pregunta seria no es "¿la IA sirve?". Esa ya tiene respuesta. La pregunta es: ¿qué pasa cuando termine el subsidio?

Porque va a terminar. Los modelos de frontera consumen una cantidad obscena de cómputo, y ninguna economía sostiene indefinidamente regalar inferencia. El día que los precios reflejen el costo real — y ese día llega — las empresas que armaron toda su productividad encima de una sola API van a descubrir que su estructura de costos por desarrollador se triplicó de un trimestre al otro.

Es el clásico patrón de adopción: te enganchan con precio bajo, generás dependencia, y cuando el switching cost es alto, ajustan. No es teoría conspirativa, es manual de SaaS.

Las decisiones de arquitectura que tomamos hoy van a definir esa factura.

Por qué híbrido, y por qué ahora

La respuesta no es volver atrás. Es dejar de usar el cañón para todo.

Un modelo de frontera tiene sentido para tareas donde realmente importa: planeamiento, razonamiento sobre contexto largo, problemas mal definidos donde necesitás la capacidad de abstracción de un modelo grande. Ahí pagás lo que vale.

Pero buena parte del trabajo diario de un equipo de ingeniería no es eso. Es ejecución sobre planes ya pensados. Es completar código siguiendo un patrón. Es clasificar, resumir, traducir, transformar.

Para eso, un modelo como Qwen3-Coder de 32B parámetros corriendo localmente ejecuta planes generados por un modelo de frontera a una fracción del costo en tokens. La frontera diseña, el modelo chico ejecuta. Es la misma división del trabajo que tenés en cualquier equipo bien armado: el arquitecto no escribe cada línea de código.

Y acá viene lo interesante: con la cuantización de los últimos dos años, los requerimientos de GPU bajaron a niveles que hacen razonable correr esto en máquinas que cualquier gamer compraría. Un modelo de 32B parámetros cuantizado entra en una RTX 4080. No es ciencia ficción, es martes.

Yo armé un orquestador personal que clasifica cada tarea con un modelo chico y la rutea — Claude solo para lo que de verdad lo necesita, modelos locales para todo lo demás. El ahorro en tokens es del orden del 60-70%. Si lo hace una persona en su casa, una empresa con volumen lo puede capturar a escala industrial.

La objeción honesta

Acá conviene parar y reconocer lo que tiene en contra el on-prem, porque existe: hay que pagar electricidad, hay que tener a alguien que sepa levantar la infraestructura, hay mantenimiento. Eso es real.

Pero cuando hacés el cálculo contra una factura de API que escala linealmente con el uso del equipo, el punto de cruce llega mucho más rápido de lo que la mayoría supone. La API es alquiler. El hardware, propiedad.

La pregunta no es si hacer híbrido. Es cuándo empezar a prepararse, sabiendo que migrar bajo presión de costos es mucho peor que migrar mientras todavía tenés margen.

Lo que vengo viendo

Los equipos grandes de ingeniería que ya están pensando esto se mueven en tres frentes en paralelo.

Primero, instrumentan. Saben qué modelo se está usando para qué tarea, y cuánto cuesta cada flujo. Sin eso no hay decisión posible — y sin embargo, la mayoría de las empresas no tienen idea de en qué se les va la factura de IA, más allá del total a fin de mes.


Segundo, identifican los flujos repetitivos de bajo razonamiento — que suelen ser el 60-70% del volumen — y los empiezan a mover a modelos locales o más chicos. Esos flujos son la fruta baja: alto volumen, baja complejidad, ahorro inmediato.

Tercero, mantienen el modelo de frontera para lo que de verdad lo necesita, y empiezan a tratarlo como recurso escaso, no como autocompletado de lujo.

Eso no es austeridad. Es ingeniería.

El nuevo trabajo de un líder técnico

Hace dos años, la decisión era binaria: ¿usamos IA o no? Hoy esa pregunta es ingenua. La decisión real es qué inteligencia para qué problema, y esa decisión necesita criterio técnico, visibilidad de costos, y una arquitectura que permita cambiar de modelo sin reescribir el sistema.

El líder técnico que arme esa estrategia ahora va a tener margen cuando los precios se acomoden. El que no, va a estar negociando descuentos con un proveedor que ya sabe que no se puede ir a ningún lado.

La IA, esa que vino para quedarse, va a quedarse de verdad — pero del lado de los que entendieron cuándo sacar el cañón, y cuándo basta con un matamoscas.

Fabi Mesaglio



No hay comentarios:

Publicar un comentario

Híbrido: la conversación que ningún proveedor de IA quiere que tengas

  La IA vino para quedarse. Eso ya no se discute. Lo que sí se discute — o se debería discutir — es quién va a pagar la factura cuando termi...