# Meta: Fine-Tuning para o AssertIA: Vale a Pena Treinar Nosso Próprio Modelo?
<!-- 2026-04-07T13:47:36.461652 | slug: 2026-04-07-research-fine-tuning-open-source -->

## Publicação
- **Entry:** Fine-Tuning para o AssertIA: Vale a Pena Treinar Nosso Próprio Modelo?
- **Report:** 2026-04-07-research-fine-tuning-open-source.html
- **Claims:** 12 (4 abertas)
- **Threads:** llm-economics, open-weight-models, handover-leverage
- **Tags:** research

### O que aprendi
- QLoRA em modelo 7B custa R$5-R$250 por rodada de treinamento — barreira de entrada é preparação de dados, não compute
- Qwen 2.5 supera Llama em português por ~10 pontos no PoETa v2 — melhor open-weight para PT
- AuditWen (Qwen 7B fine-tuned para auditoria) superou modelos genéricos com 30k exemplos de treino
- Juru (fine-tuned para direito BR) melhorou na OAB mas piorou em conhecimento geral — catastrophic forgetting documentado
- Estudo UC Berkeley: fine-tuning + RAG combinados atingem 86% acurácia vs 75% baseline — mas em domínio agrícola, não jurídico
- 51% das empresas usam RAG em produção, apenas 9% usam primariamente fine-tuning (Menlo Ventures 2024)
- ?Sabiá-4 (Maritaca AI) pode ser alternativa direta ao GPT-4.1 para o AssertIA — treinado em legislação brasileira
- ?Roteamento de modelos pode reduzir 60-80% do custo atual sem fine-tuning — depende de distribuição de workload

### O que não sei
- Distribuição real de custo por tarefa no AssertIA — sem isso, toda estimativa de economia é especulativa
- Benchmark de modelos em tarefas específicas do TCU não existe — risco de avaliação insuficiente
- Inventário de hardware do NIA — self-hosting só é viável se houver GPU disponível
- Custo operacional real de servir modelo em produção com confiabilidade institucional

## Observações da sessão
*Nenhuma observação registrada nesta sessão.*

## Mudanças de estado pendentes
### edge/
```
?? context/
?? issues/
?? secrets/google-service-account.json
```

## Desafio adversarial
── gpt-5.4 ──
**1) Premissa mais fraca** — A mais frágil é: **“roteamento de modelos gera 60–80% de economia, sem risco”**. Isso está ancorado em intuição de mercado, não em telemetria do AssertIA. Sem distribuição real por tarefa, taxa de erro aceitável, custo de retries, fallback e impacto de latência, essa economia é chute. “Sem risco” é pior: roteamento aumenta complexidade operacional, superfície de falha, inconsistência de saída e custo de avaliação.

**2) Evidência ausente** — Falta o que realmente decide: **perfil de workload** (tipos de tarefa, tokens por etapa, criticidade, tolerância a erro, necessidade de contexto longo, taxa de repetição, sazonalidade), **baseline de qualidade por tarefa TCU**, e **custo total de propriedade** comparando API vs self-hosting vs híbrido. Também falta medir o custo humano: curadoria de dados, revisão jurídica, manutenção de benchmark, re-treino, auditoria, segurança, LGPD, trilha de decisão. Sem isso, “fine-tuning é barato” é meia-verdade contábil.

**3) Steelman do oposto** — O argumento mais forte contra sua conclusão é: **fine-tuning pode ser justamente a ação urgente**, não o passo 2. Se o AssertIA tiver tarefas repetitivas, formato estável, vocabulário institucional e alto volume, um modelo pequeno ajustado pode reduzir custo, latência e variância imediatamente, além de melhorar governança e previsibilidade. RAG/roteamento não resolve desalinhamento de estilo, estrutura de saída, classificação fina e aderência procedimental. Você pode estar superestimando a flexibilidade do roteamento e subestimando o valor de especialização.

**4) Vieses cognitivos** —  
- **Viés de disponibilidade:** você pesa demais casos publicados (AuditWen, Juru, SaulLM), que não são comparáveis ao TCU.  
- **Ancoragem:** PoETa v2 virou âncora para concluir “Qwen > Llama” em jurídico-administrativo, o que não segue.  
- **Confirmação:** os gaps reforçam sua tese de cautela, mas você não aplica o mesmo ceticismo à promessa de roteamento.  
- **Falso consenso:** “GPT-5.4 e Grok concordaram” não é validação empírica.

**5) Cenário de quebra** — Se o workload for dominado por tarefas de alta criticidade, baixa tolerância a erro, necessidade de justificativa consistente e formato institucional rígido, o roteamento falha completamente: a economia evapora em revisão humana, retries e fallback para modelo caro.

**6) Veredito** — Você está ignorando o principal: **o custo relevante não é só inferência; é erro operacional por tarefa**. E sua alternativa preferida, roteamento, está menos evidenciada do que o fine-tuning que você tratou com ceticismo.

── grok-4.20-multi-agent-beta-0309 ──
**Premissa mais fraca:** A contradição insanável entre admitir que “sem dados reais de distribuição de workload toda estimativa de economia é especulativa” e, na mesma página, recomendar roteamento com “economia estimada de 60-80%” como ação imediata. O número não tem origem no AssertIA — vem de survey genérico da Menlo Ventures. Isso não é cautela; é autoengano institucional disfarçado de estratégia gradual.

**Evidência ausente:** Breakdown quantitativo de tokens por complexidade (o gap #1 que o texto lista mas não trata como bloqueador absoluto). Sem ele, impossível saber se roteamento captura 70% ou 15% do gasto. Falta TCO governamental realista: custo de compliance TCU/LGPD, redundância 24/7, equipe de MLOps, energia, monitoramento de drift, re-treinamento contínuo por novas leis e jurisprudência. Benchmark interno em tarefas reais de auditoria (acórdãos, análise de contas, aplicação da Lei 8.666) simplesmente não existe — PoETa v2 e LegalBench são proxies ruins.

**Steelman do oposto:** Para órgão de controle externo, dependência prolongada de API americana é risco geopolítico e regulatório inaceitável. Preços dobram, modelos mudam, dados sigilosos saem do país. Um modelo próprio (Qwen 2.5 ou derivado de Sabiá fine-tuned em corpus TCU) entrega soberania, auditabilidade completa dos pesos, alinhamento preciso com doutrina brasileira e ativo institucional que sobrevive a turnover. Catastrophic forgetting do Juru é falha de método, não destino. RAG+roteamento é solução de consultoria barata que mantém o TCU refém.

**Viés cognitivo:** Availability heuristic dominante — o autor usa os cases que leu (AuditWen, Juru, SaulLM, estudo agrícola da Berkeley) como se fossem representativos do TCU. Confirmation bias claro na conclusão “não urgente”, que convenientemente adia o trabalho duro de curadoria de dados de qualidade. Anchoring no valor redondo de R$30 mil/mês sem contextualizar no orçamento total ou no valor das auditorias que o sistema supostamente melhora.

**Cenário de quebra:** Se >40% do volume exigir raciocínio jurídico profundo (onde 7B/13B quantized falham mesmo com RAG), o roteamento economiza pouco, degrada qualidade e expõe o TCU a responsabilidade institucional por decisões baseadas em modelo fraco.

**Veredito:** O texto prioriza otimização contábil de curto prazo e surveys americanos enquanto ignora completamente o imperativo estratégico de soberania tecnológica em órgão de controle. Os gaps listados são tão fundamentais que a recomendação de “Fase 1 agora” é decisão performativa, não análise séria. (312 palavras)


## O que mudou (pós-commit)
<!-- post-state: 2026-04-07T13:47:37.226375 -->

### Claims registradas (12)
- ✓ QLoRA em modelo 7B custa R$5-R$250 por rodada de treinamento — barreira de entrada é preparação de dados, não compute
- ✓ Qwen 2.5 supera Llama em português por ~10 pontos no PoETa v2 — melhor open-weight para PT
- ✓ AuditWen (Qwen 7B fine-tuned para auditoria) superou modelos genéricos com 30k exemplos de treino
- ✓ Juru (fine-tuned para direito BR) melhorou na OAB mas piorou em conhecimento geral — catastrophic forgetting documentado
- ✓ Estudo UC Berkeley: fine-tuning + RAG combinados atingem 86% acurácia vs 75% baseline — mas em domínio agrícola, não jurídico
- ✓ 51% das empresas usam RAG em produção, apenas 9% usam primariamente fine-tuning (Menlo Ventures 2024)
- ✓ ?Sabiá-4 (Maritaca AI) pode ser alternativa direta ao GPT-4.1 para o AssertIA — treinado em legislação brasileira
- ✓ ?Roteamento de modelos pode reduzir 60-80% do custo atual sem fine-tuning — depende de distribuição de workload
- ? Distribuição real de custo por tarefa no AssertIA — sem isso, toda estimativa de economia é especulativa
- ? Benchmark de modelos em tarefas específicas do TCU não existe — risco de avaliação insuficiente
- ? Inventário de hardware do NIA — self-hosting só é viável se houver GPU disponível
- ? Custo operacional real de servir modelo em produção com confiabilidade institucional

### Threads tocados (3)
- **llm-economics** [active] — LLM Economics
- **open-weight-models** [active] — Open Weight Models
- **handover-leverage** [active] — Handover Leverage

### Evento registrado
- **ID:** EVT-1da8902e
- **Tipo:** artifact_created
- **Resumo:** Published: Fine-Tuning para o AssertIA: Vale a Pena Treinar Nosso Próprio Modelo?

### Diff real dos arquivos de estado
**notes/**
```
?? ../context/
?? ../issues/
?? ../secrets/google-service-account.json
```

### briefing.md
```
# Briefing — 2026-04-07 13:47
<!-- Gerado por edge-digest. NÃO editar manualmente. -->

## Fios (12 ativos, 0 esperando)
- [active] Adoption Risk (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Adversarial Content Review (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Ai Adoption Peer Institutions (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] External Events Scan (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Handover Leverage (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Horizon Brief Production (owner:edge, resurface:2026-04-14, updated:2026-04-07)
```

---
*Diretriz: Ler este meta-report ANTES de editar arquivos de estado (MEMORY.md, debugging.md, etc.). Estado automatizado (claims, threads, events, digest) já foi processado pelo pipeline.*
## Review Gate

- overall review score: 2.3/5.0
- review cost: $0.1095
