Resumo Executivo
- Padrao: Organizacoes estao movendo de single-model para orquestracao multi-modelo por tarefa. Ferramentas maduras (RouteLLM, LiteLLM, Bedrock) reduzem custo 40-85% em cenarios tipicos.
- Risco: Savings reais dependem da distribuicao de complexidade de tarefas — dado que o AssertIA nao tem. Os 88% GPT-4.1 podem ser inercia ou necessidade genuina.
- Recomendacao: Profilear 50-100 tasks em 3 dimensoes (complexidade, risco operacional, tolerancia a erro). Custo: ~8-12h. Esse dado decide se routing vale R$19k/mes ou e overhead sem retorno.
- Adversarial (3 rounds): Complexidade sozinha e insuficiente em dominio juridico. Task lexicamente simples pode ser alto risco. Custo real em juridico e erro, nao token. Concentrar em frontier pode ser racional.
1. Linhagem
| Acao Anterior | O que Trouxe | Conexao |
|---|---|---|
| Discovery: Quality Stack (beat #9) | 3 ferramentas para medir qualidade por tipo de tarefa | Profiling de qualidade e o prerequisito para routing |
| Research: Governanca IA TCU (beat #8) | Framework regulatorio fragil — sem classificacao de risco | Routing adiciona camada automatizada em contexto sem governance formal |
| Strategy: Triagem dia 2 (beat #7) | Thread llm-economics thin, gap de custo/workload | Motivacao direta para esta discovery |
| Horizon Brief #001 | AssertIA 88% GPT-4.1, ~R$1k/dia | Baseline de custo e concentracao de fornecedor |
2. O Padrao: Model Routing
Selecao dinamica de qual LLM usar por request, baseada em complexidade, custo e requisitos de qualidade. Em vez de enviar tudo para frontier, classifica a tarefa e roteia para o modelo mais custo-eficiente capaz de resolve-la.
Ate 2024, implementar routing era artesanal. Em 2025-2026, RouteLLM (BERT classifier open-source), LiteLLM (proxy multi-provider), Amazon Bedrock e Azure AI Router tornaram a infra acessivel. O gargalo mudou de ferramentas para dados.
Organizacoes com alta proporcao de queries simples (FAQ, classificacao, extracao). Distribuicao tipica: 70% simples, 25% medio, 5% frontier-hard. Chatbots de 1M req/mes: de $15k para $4.5k.
Workloads majoritariamente complexos, ambientes regulados com exigencia de auditabilidade, distribuicao instavel de prompts, ou quando custo de erro assimetrico supera savings.
Estrategias de Routing
| Estrategia | Overhead | Precisao | Maturidade |
|---|---|---|---|
| Heuristico/keyword | 0ms | Baixa (fragil) | Alta (simples) |
| Classifier (BERT) | 10-50ms | 96.8% (ArXiv) | Alta (mais deployed) |
| LLM-as-Router | 200-500ms | Alta (nuance) | Media |
| Cascading/fallback | Variavel | Auto-ajuste | Alta |
| Semantic (embedding) | 5-15ms | Boa para multi-dominio | Media |
| Hybrid (regras+classifier) | 10-50ms | Melhor tradeoff | Alta |
3. Evidencia Quantitativa
| Fonte | Cenario | Reducao | Paridade de Qualidade | Metodo |
|---|---|---|---|---|
| RouteLLM | MT Bench (GPT-4 vs Mixtral) | 85% | 95% | BERT classifier |
| Mindra | Docs legais ($0.85→$0.23) | 73% | 100% approval rate | Task-specific routing |
| Amazon Bedrock | Anthropic family routing | 60% | Nao reportada | Cloud routing |
| ArXiv (Vangala) | Self-hosted, 8 benchmarks | 33% | +21.7% accuracy | DistilBERT |
| self.md | Chatbot 1M req/mes | 70% | Nao reportada | Hybrid |
4. Implicacao para Stacks Concentrados
Se o AssertIA gasta ~R$1k/dia (88% GPT-4.1), e a distribuicao tipica de queries em producao e 70% simples / 25% medio / 5% hard, routing poderia redirecionar 70% para modelos 10x mais baratos. Economia bruta: 0.7 x R$1000 x 0.9 = R$630/dia, ~R$19k/mes. Mas aqui o raciocinio trava: nao sabemos se a distribuicao do AssertIA segue o padrao tipico. Analise juridica pode ser 70% complexa, invertendo completamente a conta. E mesmo que 70% seja simples, overhead de roteamento (latencia, governanca, monitoramento, retreino) come parte do savings.
- Savings: ~R$630/dia (~R$19k/mes)
- ROI positivo em semanas
- Ferramentas existem: RouteLLM + LiteLLM
- Risco: moderado (overhead operacional)
- Savings: <R$200/dia (<R$6k/mes)
- Overhead operacional pode anular
- Risco de degradacao em tarefas criticas
- Custo de governanca em contexto TCU
Correcao adversarial (round 3): complexidade nao basta
5. O Ecossistema Atual
Open-source, BERT classifier, 10ms, 85% savings no MT Bench. Stack recomendado para comecar: RouteLLM + LiteLLM + Langfuse.
Proxy multi-provider. Intercepta todas as chamadas LLM, roteia para o provider certo. Failover automatico entre providers.
Self-improving router. Aprende de feedback em producao (bandit signals) sem retreino offline. Supera routers estaticos em 12.46%.
Reasoning router — o router e um LLM que delibera antes de rotear. Lida com casos ambiguos que classificadores simples erram.
6. O que Nao Sei
| # | Gap | O que preciso saber | Status |
|---|---|---|---|
| G1 | Profiling tridimensional das tarefas do AssertIA: complexidade, risco operacional, tolerancia a erro | Classificar 50-100 tasks em 3 dimensoes (~8-12h revisao humana com definicoes operacionais pre-acordadas) | OPEN |
| G2 | Se 88% GPT-4.1 e inercia ou necessidade genuina | Shadow test com modelo mid-tier em subset de tarefas | OPEN |
| G3 | Custo de governanca de routing em contexto TCU | Benchmark de auditabilidade com multi-model vs single-model | OPEN |
| G4 | Taxa de fallback real em workloads juridicos | Dados de producao com cascading classifier | OPEN |
| G5 | Deployments de routing abandonados (survivorship bias) | Postmortems de implementacoes que nao foram publicadas | OPEN |
7. Contextualizacao e Glossario
Este report e para a equipe tecnica do AssertIA e stakeholders de custo. Assume familiaridade com APIs de LLM e custo por token. O contexto e um projeto que gasta ~R$1k/dia em GPT-4.1 (88% do trafego) e precisa decidir se otimizacao de custo via routing justifica o investimento em profiling e infra. A discovery anterior sobre Quality Stack (HalluGraph, Contextual RAG, RRPO) e pre-requisito conceitual — qualidade por tarefa informa routing por tarefa.
- Model routing
- Selecao dinamica de qual LLM usar por request, baseada em complexidade, custo ou tipo de tarefa.
- Frontier model
- Modelo mais capaz disponivel (GPT-4.1, Claude Opus). Custo mais alto por token.
- Budget model
- Modelo leve e barato (GPT-3.5, Claude Haiku). Suficiente para tarefas simples.
- Classifier-based routing
- Usar um modelo leve (BERT) para classificar complexidade da query antes de selecionar o LLM de destino.
- Cascading/fallback
- Tentar modelo barato primeiro; escalar para mais capaz se confianca da resposta for baixa.
- RouteLLM
- Framework open-source para routing de LLMs. Usa BERT classifier, integravel com LiteLLM.
- LiteLLM
- Proxy que abstrai multiplos providers de LLM. Failover automatico e metricas unificadas.
- Shadow test
- Testar modelo alternativo em paralelo com producao, sem servir o resultado ao usuario. Mede qualidade sem risco.
- Task complexity distribution
- Proporcao de queries por nivel de dificuldade (simples/medio/hard). Determina savings real de routing.
Referencias
- AI Agent Model Routing and Dynamic Model Selection Strategies https://zylos.ai/research/2026-03-02-ai-agent-model-routing Exa (Zylos Research)
- Intelligent LLM Routing: How Multi-Model AI Cuts Costs by 85% https://www.swfte.com/blog/intelligent-llm-routing-multi-model-ai Exa (Swfte AI)
- Multi-Model Routing for LLM Applications https://self.md/guides/multi-model-routing/ Exa (self.md)
- The Right Model for the Right Job: A Practical Guide to Multi-Model Routing https://mindra.co/blog/multi-model-routing-how-to-choose-the-right-llm-for-every-task Exa (Mindra Blog)
- Efficient Multi-Model Orchestration for Self-Hosted Large Language Models (Vangala and Malik) https://arxiv.org/html/2512.22402v1 ArXiv
- RouteLLM: Learning to Route LLMs with Preference Data https://github.com/lm-sys/RouteLLM GitHub