Discovery: Model Routing

A pergunta que vale R$19k/mes (se a resposta for a certa)

Resumo Executivo

85%
Reducao de custo (RouteLLM, MT Bench)
73%
Reducao em processamento legal (Mindra)
37%
Empresas com 5+ modelos (2026)
?
Complexidade das tarefas AssertIA

1. Linhagem

Acao Anterior O que Trouxe Conexao
Discovery: Quality Stack (beat #9) 3 ferramentas para medir qualidade por tipo de tarefa Profiling de qualidade e o prerequisito para routing
Research: Governanca IA TCU (beat #8) Framework regulatorio fragil — sem classificacao de risco Routing adiciona camada automatizada em contexto sem governance formal
Strategy: Triagem dia 2 (beat #7) Thread llm-economics thin, gap de custo/workload Motivacao direta para esta discovery
Horizon Brief #001 AssertIA 88% GPT-4.1, ~R$1k/dia Baseline de custo e concentracao de fornecedor

2. O Padrao: Model Routing

O que e
Selecao dinamica de qual LLM usar por request, baseada em complexidade, custo e requisitos de qualidade. Em vez de enviar tudo para frontier, classifica a tarefa e roteia para o modelo mais custo-eficiente capaz de resolve-la.
Por que agora
Ate 2024, implementar routing era artesanal. Em 2025-2026, RouteLLM (BERT classifier open-source), LiteLLM (proxy multi-provider), Amazon Bedrock e Azure AI Router tornaram a infra acessivel. O gargalo mudou de ferramentas para dados.
Para quem funciona
Organizacoes com alta proporcao de queries simples (FAQ, classificacao, extracao). Distribuicao tipica: 70% simples, 25% medio, 5% frontier-hard. Chatbots de 1M req/mes: de $15k para $4.5k.
Para quem nao funciona
Workloads majoritariamente complexos, ambientes regulados com exigencia de auditabilidade, distribuicao instavel de prompts, ou quando custo de erro assimetrico supera savings.

Estrategias de Routing

Estrategia Overhead Precisao Maturidade
Heuristico/keyword 0ms Baixa (fragil) Alta (simples)
Classifier (BERT) 10-50ms 96.8% (ArXiv) Alta (mais deployed)
LLM-as-Router 200-500ms Alta (nuance) Media
Cascading/fallback Variavel Auto-ajuste Alta
Semantic (embedding) 5-15ms Boa para multi-dominio Media
Hybrid (regras+classifier) 10-50ms Melhor tradeoff Alta

3. Evidencia Quantitativa

Reducao de custo reportada por fonte Reducao de Custo Reportada (%) RouteLLM (MT Bench) 85% Mindra (legal docs) 73% Bedrock (Anthropic) 60% ArXiv self-hosted 33% AssertIA (estimado) ? Fonte: RouteLLM paper, Mindra Blog, Amazon Bedrock docs, ArXiv 2512.22402
Survivorship bias: Todos os cases acima sao publicados porque funcionaram. Deployments abandonados nao geram papers. Os numeros sao teto otimista, nao media esperada.
Fonte Cenario Reducao Paridade de Qualidade Metodo
RouteLLM MT Bench (GPT-4 vs Mixtral) 85% 95% BERT classifier
Mindra Docs legais ($0.85→$0.23) 73% 100% approval rate Task-specific routing
Amazon Bedrock Anthropic family routing 60% Nao reportada Cloud routing
ArXiv (Vangala) Self-hosted, 8 benchmarks 33% +21.7% accuracy DistilBERT
self.md Chatbot 1M req/mes 70% Nao reportada Hybrid

4. Implicacao para Stacks Concentrados

D A conta que seduz (e o que falta)

Se o AssertIA gasta ~R$1k/dia (88% GPT-4.1), e a distribuicao tipica de queries em producao e 70% simples / 25% medio / 5% hard, routing poderia redirecionar 70% para modelos 10x mais baratos. Economia bruta: 0.7 x R$1000 x 0.9 = R$630/dia, ~R$19k/mes. Mas aqui o raciocinio trava: nao sabemos se a distribuicao do AssertIA segue o padrao tipico. Analise juridica pode ser 70% complexa, invertendo completamente a conta. E mesmo que 70% seja simples, overhead de roteamento (latencia, governanca, monitoramento, retreino) come parte do savings.

Se 70% simples (padrao tipico)
  • Savings: ~R$630/dia (~R$19k/mes)
  • ROI positivo em semanas
  • Ferramentas existem: RouteLLM + LiteLLM
  • Risco: moderado (overhead operacional)
Se 70% complexo (hipotese alternativa)
  • Savings: <R$200/dia (<R$6k/mes)
  • Overhead operacional pode anular
  • Risco de degradacao em tarefas criticas
  • Custo de governanca em contexto TCU
Os 88% em GPT-4.1 sao ambiguos. Podem significar (a) inercia de configuracao — tudo vai pro frontier porque ninguem testou alternativa — ou (b) necessidade genuina — as tarefas realmente precisam de frontier. Sem profiling, nao ha como distinguir.

Correcao adversarial (round 3): complexidade nao basta

Sanity check GPT-5.4 + Grok (round 3): Em dominio juridico, 'complexidade' sozinha e metrica insuficiente. Uma task lexicamente simples (ex: extrair data de um edital) pode ser operacionalmente de alto risco (erro invalida processo). O custo real em juridico nao e token — e erro, inconsistencia e falta de explicabilidade. Concentrar em frontier pode ser racional: reduz variancia, simplifica auditoria. Ajuste: profiling deve incluir 3 dimensoes — complexidade, risco operacional, tolerancia a erro. Estimativa de esforco corrigida de ~4h para ~8-12h.

5. O Ecossistema Atual

Arquitetura de Model Routing Arquitetura Tipica de Model Routing Request (user query) Router BERT classifier 10-50ms 96.8% accuracy Budget Haiku / GPT-3.5 Mid-tier Sonnet / GPT-4o-mini Frontier Opus / GPT-4.1 ~70% ~25% ~5% Observabilidade Langfuse: custo/qualidade por rota AssertIA: ?%/?%/?% Distribuicao desconhecida
RouteLLM
Open-source, BERT classifier, 10ms, 85% savings no MT Bench. Stack recomendado para comecar: RouteLLM + LiteLLM + Langfuse.
LiteLLM
Proxy multi-provider. Intercepta todas as chamadas LLM, roteia para o provider certo. Failover automatico entre providers.
BaRP
Self-improving router. Aprende de feedback em producao (bandit signals) sem retreino offline. Supera routers estaticos em 12.46%.
Router-R1
Reasoning router — o router e um LLM que delibera antes de rotear. Lida com casos ambiguos que classificadores simples erram.

6. O que Nao Sei

#GapO que preciso saberStatus
G1 Profiling tridimensional das tarefas do AssertIA: complexidade, risco operacional, tolerancia a erro Classificar 50-100 tasks em 3 dimensoes (~8-12h revisao humana com definicoes operacionais pre-acordadas) OPEN
G2 Se 88% GPT-4.1 e inercia ou necessidade genuina Shadow test com modelo mid-tier em subset de tarefas OPEN
G3 Custo de governanca de routing em contexto TCU Benchmark de auditabilidade com multi-model vs single-model OPEN
G4 Taxa de fallback real em workloads juridicos Dados de producao com cascading classifier OPEN
G5 Deployments de routing abandonados (survivorship bias) Postmortems de implementacoes que nao foram publicadas OPEN
Gap critico: G1 e G2 sao pre-requisitos para qualquer decisao de routing. Sem eles, a economia de R$19k/mes e tao plausivel quanto R$2k/mes. A recomendacao e coletar G1 antes de qualquer analise mais profunda.
Premissa nao testada: Assumi que a distribuicao tipica (70/25/5) se aplica a workloads generalistas. Workloads juridicos podem ter distribuicao invertida, e nenhuma das fontes cobre esse dominio especificamente.

7. Contextualizacao e Glossario

Este report e para a equipe tecnica do AssertIA e stakeholders de custo. Assume familiaridade com APIs de LLM e custo por token. O contexto e um projeto que gasta ~R$1k/dia em GPT-4.1 (88% do trafego) e precisa decidir se otimizacao de custo via routing justifica o investimento em profiling e infra. A discovery anterior sobre Quality Stack (HalluGraph, Contextual RAG, RRPO) e pre-requisito conceitual — qualidade por tarefa informa routing por tarefa.

Termos usados neste report no contexto de model routing e otimizacao de LLMs.
Model routing
Selecao dinamica de qual LLM usar por request, baseada em complexidade, custo ou tipo de tarefa.
Frontier model
Modelo mais capaz disponivel (GPT-4.1, Claude Opus). Custo mais alto por token.
Budget model
Modelo leve e barato (GPT-3.5, Claude Haiku). Suficiente para tarefas simples.
Classifier-based routing
Usar um modelo leve (BERT) para classificar complexidade da query antes de selecionar o LLM de destino.
Cascading/fallback
Tentar modelo barato primeiro; escalar para mais capaz se confianca da resposta for baixa.
RouteLLM
Framework open-source para routing de LLMs. Usa BERT classifier, integravel com LiteLLM.
LiteLLM
Proxy que abstrai multiplos providers de LLM. Failover automatico e metricas unificadas.
Shadow test
Testar modelo alternativo em paralelo com producao, sem servir o resultado ao usuario. Mede qualidade sem risco.
Task complexity distribution
Proporcao de queries por nivel de dificuldade (simples/medio/hard). Determina savings real de routing.

Referencias

  1. AI Agent Model Routing and Dynamic Model Selection Strategies https://zylos.ai/research/2026-03-02-ai-agent-model-routing Exa (Zylos Research)
  2. Intelligent LLM Routing: How Multi-Model AI Cuts Costs by 85% https://www.swfte.com/blog/intelligent-llm-routing-multi-model-ai Exa (Swfte AI)
  3. Multi-Model Routing for LLM Applications https://self.md/guides/multi-model-routing/ Exa (self.md)
  4. The Right Model for the Right Job: A Practical Guide to Multi-Model Routing https://mindra.co/blog/multi-model-routing-how-to-choose-the-right-llm-for-every-task Exa (Mindra Blog)
  5. Efficient Multi-Model Orchestration for Self-Hosted Large Language Models (Vangala and Malik) https://arxiv.org/html/2512.22402v1 ArXiv
  6. RouteLLM: Learning to Route LLMs with Preference Data https://github.com/lm-sys/RouteLLM GitHub