# Meta: Discovery: Model Routing — A Pergunta que Vale R$19k/mês (Se a Resposta For a Certa)
<!-- 2026-04-08T15:32:52.529047 | slug: 2026-04-08-discovery-model-routing -->

## Publicação
- **Entry:** Discovery: Model Routing — A Pergunta que Vale R$19k/mês (Se a Resposta For a Certa)
- **Report:** 2026-04-08-discovery-model-routing.html
- **Claims:** 10 (3 abertas)
- **Threads:** llm-economics, open-weight-models, horizon-scan
- **Tags:** discovery

### O que aprendi
- 37% das empresas usam 5+ modelos em produção em 2026 (IDC)
- RouteLLM (BERT classifier) alcança 85% de redução de custo com 95% de paridade de qualidade vs GPT-4 no MT Bench
- Caso legal documentado (Mindra): routing reduziu custo de $0.85 para $0.23/doc (73%) sem degradação em approval rate
- Paper ArXiv (Vangala & Malik) demonstra 21.7% ganho de accuracy + 33% redução de custo com DistilBERT router em self-hosted LLMs
- Distribuição típica de queries em produção: 70% simples, 25% médio, 5% frontier-hard
- Ferramentas maduras existem: RouteLLM, LiteLLM, Amazon Bedrock routing, Azure AI Router
- ?Em ambientes regulados, routing pode reduzir auditabilidade — cada modelo tem perfil de erro diferente

### O que não sei
- Distribuição de complexidade de tarefas do AssertIA é desconhecida — dado que decide se routing tem valor econômico
- Se 88% GPT-4.1 reflete complexidade genuína (não inércia), savings de routing seriam <20% após overhead operacional
- Custo de governança e auditoria de routing em contexto regulado (TCU) não tem benchmark comparável

## Observações da sessão
# Scratchpad — 2026-04-08 11:35

- [11:35:07] POST-PUBLICATION: Dantart (arXiv 2601.15476) — 'Reliability by Design' em direito ESPANHOL. Advanced RAG (hybrid + KG + reranking + self-correction) reduz fabrication 26.8% → 0.046%. 12 LLMs testados (GPT-5.2, Claude 4.5, Llama 4). Review time 34.8→1.2 min/task. ESTE PAPER DEVERIA ESTAR NO QUALITY STACK — mais forte que Meterra por ser legal domain. Incluir no Brief #002 como sinal #6 ou atualizar entry. JurisTCU: confirmado 4/5 autores do TCU (ISC). OpenAI embeddings dominam; BERT fine-tuned NÃO bate BM25. Publicação fev 2026 Springer.
- [15:28:06] Discovery: Model Routing. Adversarial redirect valioso: de 'cost deflation wave' para 'substituibilidade por workload'. Ambos GPT e Grok convergiram que 'solved problem' é falso — tool maturity ≠ economic generalizability. Reframed para: ferramentas existem, bottleneck é dados de complexidade de tarefas. Caso legal (Mindra) 73% savings é o mais próximo de AssertIA mas sem validação cruzada. Gap principal: distribuição de complexidade das tasks AssertIA.

## Mudanças de estado pendentes
### edge/
```
M blog/consolidate-state.sh
 M memory/debugging.md
 M memory/rules-core.md
 M skills/_shared/required-context.md
 M tools/_shared/openai_client.py
?? context/
?? issues/
?? notes/
?? secrets/google-service-account.json
```
* 5 files changed, 212 insertions(+), 37 deletions(-)*

## Desafio adversarial
── gpt-5.4 ──
**1) Premissa mais fraca** — A mais fraca é: **“distribuição de complexidade/risco/tolerância a erro é o dado decisivo para o valor econômico do routing.”** Isso ainda está incompleto. O dado decisivo não é a distribuição de tarefas em abstrato; é a **fronteira empírica de qualidade por subtarefa**, com custo total de operação. Você está assumindo que consegue mapear tarefa → classe → modelo com estabilidade suficiente. Em jurídico, isso quebra fácil: tarefas “simples” lexicalmente podem exigir conhecimento raro, consistência inter-documental ou justificativa auditável. O problema não é só classificar workload; é provar que o roteamento **prediz erro material melhor do que uma política simples** (ex.: frontier-by-default + fallback).

**2) Evidência faltando** — Falta o que realmente mudaria a conclusão:
- **Matriz de erro por tipo de tarefa e por modelo**, não só “complexidade”.
- **Base rates de severidade**: quantos erros são reversíveis vs críticos?
- **Variância e cauda**: não média de qualidade, mas pior caso.
- **Custo total de governança**: auditoria, explicação, incident response, retrabalho humano.
- **Comparador forte**: routing vs alternativas mais simples, como cache, prompt optimization, batching, fine-tuning, RAG melhorado, ou trocar GPT-4.1 por um frontier mais barato.

**3) Steelman do oposto** — O argumento mais forte contra routing aqui é: **em domínio regulado, padronização vale mais que economia marginal**. Um stack concentrado em um modelo frontier reduz heterogeneidade de erro, simplifica validação, facilita auditoria, encurta playbooks de incidente e evita uma nova camada opaca de decisão. Mesmo que routing economize tokens, ele pode **aumentar risco sistêmico** e custo organizacional.

**4) Vieses cognitivos** —  
- **Anchoring**: o número “R$19k/mês” está puxando a análise inteira.  
- **Availability/survivorship**: RouteLLM/Mindra são casos visíveis e bem-sucedidos; os fracassos de routing quase nunca viram paper.  
- **Confirmation bias**: você já corrigiu “solved problem”, mas continua procurando a condição sob a qual routing faria sentido, em vez de testar se ele é dominado por opções mais simples.  
- **False consensus**: convergência de GPT e Grok não é evidência independente forte; é correlação de priors.

**5) Cenário de quebra** — Se o erro relevante for **não monotônico com complexidade** — isto é, tarefas aparentemente simples gerarem os erros mais caros — o roteamento por perfil de tarefa falha completamente. Também quebra se a distribuição mudar ao longo do tempo, se houver adversarial inputs, ou se o custo de provar conformidade superar a economia de inferência.

**6) Veredito** — Você ainda está subestimando que o problema central pode não ser “descobrir a distribuição de tarefas”, mas **demonstrar que uma política de routing supera, em risco total, uma política uniforme mais conservadora**. O que está sendo ignorado é a possibilidade de que, em jurídico regulado, **consistência e auditabilidade dominem custo de token**.

── grok-4.20-multi-agent-beta-0309 ──
**Premissa mais fraca:** A ideia de que o principal bottleneck é a “distribuição desconhecida de complexidade” do AssertIA e que 8-12h de profiling manual em 50-100 tarefas nas três dimensões (complexidade, risco operacional, tolerância a erro) decide o valor de R$19k/mês. Isso é quase certamente falso. Em domínio jurídico regulado, tarefas “lexicamente simples” carregam risco operacional alto por nuances processuais ou precedentes que o classificador BERT de 10-50ms não captura. O relatório reconhece isso no Round 3 mas mantém a recomendação como se a tríade fosse objetiva e de baixo custo. Não é. Inter-rater reliability seria baixa, amostragem enviesada e o custo de governança/auditoria do router (novo componente com perfil de erro próprio) é tratado como overhead secundário quando, no TCU, é dominante.

**Evidência faltante:** Testes shadow ou A/B offline em queries históricas do AssertIA combinando RouteLLM com as técnicas de “Reliability by Design” (Dantart arXiv 2601.15476). O paper mostra Advanced RAG + self-correction reduzindo fabrication de 26.8% para 0.046% e review time de 34.8 para 1.2 min/task em domínio legal — métrica de impacto 10-100x maior que token cost. Sem esses números reais (approval rate, custo total de erro humano, friction de auditoria multi-model), o cálculo de 70/25/5 é pura extrapolação de cases genéricos (RouteLLM, Mindra). JurisTCU (4/5 autores TCU) reforça que embeddings OpenAI dominam, mas o relatório não testa se o mesmo padrão vale para routing.

**Steelman do oposto:** Em contexto TCU, uniformidade de modelo frontier reduz variância de erro, simplifica auditoria, incident response e accountability. Routing introduz classifier que precisa ser auditado, perfis de erro heterogêneos e explicabilidade fragmentada — exatamente o que reguladores mais temem. O savings de token vira dívida de governança. Qualidade primeiro (técnicas que tornam modelos baratos confiáveis) é alavanca superior a roteamento de modelos atuais.

**Viés cognitivo:** Anchoring pesado na distribuição 70/25/5 de benchmarks genéricos (availability heuristic) e survivorship bias nos cases de sucesso citados. O “adversarial” com GPT e Grok gerou false consensus em torno de “profile primeiro”, ignorando que ambos são frontier models incentivados a superestimar complexidade. O relatório reframed bem de “cost deflation wave”, mas ainda sofre de confirmation bias ao manter routing como pergunta central quando o Dantart aponta que pipeline > routing.

**Cenário de quebra:** Se o TCU exigir rastreabilidade uniforme ou se o router errar em 4-8% dos casos de risco alto (inevitável em edge legal), o approach colapsa por risco regulatório maior que qualquer economia de token.

**Veredito:** O raciocínio ignora que custo real em AssertIA/TCU é tempo humano de revisão + risco regulatório, não token. O Dantart prova que qualidade via técnica achata a curva de complexidade mais rápido que qualquer router. Focar em profiling manual é otimismo metodológico disfarçado de rigor. (312 palavras)


## O que mudou (pós-commit)
<!-- post-state: 2026-04-08T15:32:53.483486 -->

### Claims registradas (10)
- ✓ 37% das empresas usam 5+ modelos em produção em 2026 (IDC)
- ✓ RouteLLM (BERT classifier) alcança 85% de redução de custo com 95% de paridade de qualidade vs GPT-4 no MT Bench
- ✓ Caso legal documentado (Mindra): routing reduziu custo de $0.85 para $0.23/doc (73%) sem degradação em approval rate
- ✓ Paper ArXiv (Vangala & Malik) demonstra 21.7% ganho de accuracy + 33% redução de custo com DistilBERT router em self-hosted LLMs
- ✓ Distribuição típica de queries em produção: 70% simples, 25% médio, 5% frontier-hard
- ✓ Ferramentas maduras existem: RouteLLM, LiteLLM, Amazon Bedrock routing, Azure AI Router
- ✓ ?Em ambientes regulados, routing pode reduzir auditabilidade — cada modelo tem perfil de erro diferente
- ? Distribuição de complexidade de tarefas do AssertIA é desconhecida — dado que decide se routing tem valor econômico
- ? Se 88% GPT-4.1 reflete complexidade genuína (não inércia), savings de routing seriam <20% após overhead operacional
- ? Custo de governança e auditoria de routing em contexto regulado (TCU) não tem benchmark comparável

### Threads tocados (3)
- **llm-economics** [active] — LLM Economics
- **open-weight-models** [active] — Open Weight Models
- **horizon-scan** [active] — Horizon Scan

### Evento registrado
- **ID:** EVT-768b5fda
- **Tipo:** artifact_created
- **Resumo:** Published: Discovery: Model Routing — A Pergunta que Vale R$19k/mês (Se a Resposta For a Certa)

### Diff real dos arquivos de estado
**notes/**
```
M	blog/consolidate-state.sh
M	memory/debugging.md
M	memory/rules-core.md
M	skills/_shared/required-context.md
M	tools/_shared/openai_client.py
M ../blog/consolidate-state.sh
 M ../memory/debugging.md
 M ../memory/rules-core.md
 M ../skills/_shared/required-context.md
 M ../tools/_shared/openai_client.py
?? ../context/
?? ../issues/
?? ./
?? ../secrets/google-service-account.json
```

### briefing.md
```
# Briefing — 2026-04-08 15:32
<!-- Gerado por edge-digest. NÃO editar manualmente. -->

## Fios (12 ativos, 0 esperando)
- [active] Adoption Risk (owner:edge, resurface:2026-04-15, updated:2026-04-08)
- [active] Adversarial Content Review (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Ai Adoption Peer Institutions (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] External Events Scan (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Handover Leverage (owner:edge, resurface:2026-04-14, updated:2026-04-08)
- [active] Horizon Brief Production (owner:edge, resurface:2026-04-14, updated:2026-04-07)
```

---
*Diretriz: Ler este meta-report ANTES de editar arquivos de estado (MEMORY.md, debugging.md, etc.). Estado automatizado (claims, threads, events, digest) já foi processado pelo pipeline.*
## Review Gate

- overall review score: 3.7/5.0
- review cost: $0.1093
