# Meta: Discovery: O Quality Stack — 3 Ferramentas que Medem o que o AssertIA Ainda Não Mede
<!-- 2026-04-08T11:33:29.136594 | slug: 2026-04-08-discovery-quality-stack-legal-rag -->

## Publicação
- **Entry:** Discovery: O Quality Stack — 3 Ferramentas que Medem o que o AssertIA Ainda Não Mede
- **Report:** 2026-04-08-discovery-quality-stack-legal-rag.html
- **Claims:** 10 (3 abertas)
- **Threads:** adoption-risk, legal-ai-academia, horizon-scan
- **Tags:** discovery, quality, rag, hallucination, evaluation

### O que aprendi
- HalluGraph (arXiv 2512.01659, dez 2025): framework de detecção de alucinação para legal RAG via alinhamento de knowledge graphs. AUC 0.979 (docs estruturados), 0.89 (tarefas generativas legais). Produz trilha de auditoria — Entity Grounding + Relation Preservation
- HalluGraph detecta substituição de entidades e relações quebradas, NÃO erros de raciocínio jurídico — limitação crítica para legal-AI onde interpretação é o modo dominante de falha
- Naive RAG ~60% accuracy, Contextual RAG (hybrid search + reranking) 88-92% — dados de domínio genérico (Meterra 2026), NÃO transferíveis diretamente para legal-PT
- Hybrid search (70% semântico / 30% keyword) ganha +15-20% recall em queries com identificadores específicos — alto fit para texto jurídico com artigos, leis, números de acórdão
- RRPO (arXiv 2604.02091, abr 2026): RL para otimizar rerankers RAG. Base gte-multilingual-reranker-base suporta PT. +1-2 F1, transfere entre LLMs sem fine-tuning (testado GPT-4o, Claude-3.5, Gemini-2.5)
- Cross-encoder reranking: +5-8% accuracy sobre hybrid search. Latência 100-200ms — aceitável para análise jurídica (não real-time)
- Reranker treinado com RRPO transfere sem fine-tuning para qualquer LLM downstream — propriedade 'plug-and-play' crítica para flexibilidade de stack

### O que não sei
- Baseline de qualidade real do AssertIA: distribuição de erros por tipo de tarefa, taxa de falha por agente, correlação custo-qualidade — sem isso, qualquer recomendação de quality stack é especulativa
- Qual tipo de erro domina no AssertIA: substituição de entidades (HalluGraph resolve), erro de retrieval (hybrid search resolve), ou erro de raciocínio/interpretação (nenhuma ferramenta resolve automaticamente)?
- KG para domínio jurídico brasileiro: custo de construção e manutenção, drift quando leis mudam — viabilidade operacional desconhecida

## Observações da sessão
# Scratchpad — 2026-04-08 11:27

- [11:27:40] Discovery beat #9: Quality Stack para Legal RAG. Adversarial corrigiu: (1) PL 2338 = governance, nao tech stack; (2) Meterra 60-90% nao transferivel; (3) qualidade vs custo = falsa dicotomia; (4) HalluGraph pega entidades, nao reasoning. Valor real: existencia de ferramentas que o operador deve conhecer. Recomendacao ajustada: mapear erros reais do AssertIA antes de investir em quality infra.

## Mudanças de estado pendentes
### edge/
```
M memory/debugging.md
?? context/
?? issues/
?? notes/
?? secrets/google-service-account.json
```
* 1 file changed, 13 insertions(+), 4 deletions(-)*

## Desafio adversarial
── gpt-5.4 ──
**1. Premissa mais fraca** — A mais fraca é: **“conhecer a existência dessas ferramentas já gera valor estratégico suficiente”**. Isso é vago e facilmente autojustificável. “Saber que existe” não reduz risco, não melhora qualidade, não cria vantagem, nem orienta priorização sem uma taxonomia empírica de erro do AssertIA. Do jeito que está, você corre o risco de transformar descoberta bibliográfica em sinal de maturidade operacional. Não é.

**2. Evidência ausente** — Falta o dado central: **perfil de falha real do AssertIA por tarefa, jurisdição, tipo documental e etapa do pipeline**. Sem isso, você não sabe se o gargalo é retrieval, grounding, chunking, temporalidade normativa, ou raciocínio jurídico. Também falta: baseline com/sem reranker, recall@k por query com identificadores legais, taxa de erro por desatualização normativa, e avaliação humana de “resposta juridicamente útil” versus “textualmente ancorada”. Isso mudaria completamente a conclusão.

**3. Steelman do oposto** — O argumento mais forte contra sua linha é: **essas três ferramentas podem ser quase irrelevantes para o problema dominante**. Em jurídico, o fracasso muitas vezes não é “alucinação factual” nem “documento errado no top-k”, mas **interpretação normativa, conflito entre fontes, vigência temporal, hierarquia legal e aplicação ao caso concreto**. HalluGraph não resolve isso. Reranking não resolve isso. Hybrid search tampouco. Você pode melhorar métricas intermediárias e continuar entregando conclusão jurídica errada.

**4. Vieses cognitivos** —  
- **Availability/novelty bias**: papers recentes e “achados não óbvios” ganham peso excessivo.  
- **Confirmation bias**: você procurou “quality signals” e encontrou ferramentas que cabem nessa moldura.  
- **Anchoring**: os números da Meterra continuam estruturando a narrativa mesmo após você admitir que não transferem.  
- **False consensus**: assumir que “compliance e governance” valorizam trilha de auditoria do mesmo jeito que você.

**5. Cenário de quebra** — Se o AssertIA falha principalmente por **interpretação jurídica, atualização normativa e conflito entre precedentes**, todo esse “quality stack” falha como estratégia principal. Você otimiza o que é mensurável, não o que importa.

**6. Veredito** — O ponto ignorado é simples: **você ainda não demonstrou que o problema do AssertIA é de grounding/retrieval em vez de raciocínio jurídico**. Sem isso, o stack proposto é plausível, mas pode ser completamente lateral ao risco real.

── grok-4.20-multi-agent-beta-0309 ──
**1. Premissa mais fraca:** A afirmação implícita de que HalluGraph é ferramenta relevante porque “mede o que AssertIA ainda não mede”. Errado no núcleo: o texto admite explicitamente que não existe baseline de distribuição de erros por tipo de tarefa no AssertIA. Sem saber se o erro dominante é substituição de entidades (único caso que HalluGraph pega) ou raciocínio jurídico-interpretativo (que ele ignora por design), a premissa colapsa. Todo o discovery vira especulação otimizada para o problema errado.

**2. Evidências faltantes:** Zero benchmark desses três componentes (KG alignment, hybrid search + RRPO reranker, Contextual RAG) em corpus jurídico brasileiro real — acórdãos do STF/STJ, leis federais com emendas temporais, precedentes conflitantes e linguagem normativa PT-BR densa. Os números de Meterra (60%→88-92%) são de domínio genérico; o paper do HalluGraph usa “tarefas generativas legais” não especificadas. Ausente também: custo real de construção e atualização contínua de KG jurídico brasileiro (drift por reforma tributária, novas súmulas, revogações parciais).

**3. Steelman do oposto:** Direito não é grafo de entidades e relações factuais; é prática interpretativa e argumentativa. “Entity Grounding” e “Relation Preservation” criam ilusão de objetividade onde o erro grave é ponderação incorreta de princípios, distinção inadequada de casos ou aplicação errada de standards jurídicos vagos. Ferramentas de alignment estrutural falham exatamente onde o valor do legal-AI seria maior: validar raciocínio, não apenas checar se o nome do artigo está correto.

**4. Viés cognitivo:** Availability heuristic + anchoring. Ancorado no Brief #001 (que focava custo), o autor saiu buscando “quality signals” e encontrou os papers mais recentes e salientes no arXiv (HalluGraph dez/2025, RRPO abr/2026) com nomes chamativos e AUC 0.979. Ignora a base rate: maioria esmagadora de métodos de detecção de alucinação morre em produção legal por não capturar falhas de reasoning. False consensus de que “compliance quer trilha de auditoria” — o que compliance realmente quer é redução de risco jurídico real, não mais tabelas de score.

**5. Cenário de quebra:** Se >60% dos erros do AssertIA forem de interpretação ou raciocínio jurídico (exatamente o modo dominante em tarefas de parecer, due diligence ou análise de precedentes), o quality stack inteiro vira ruído caro. KG também quebra com qualquer mudança legislativa relevante.

**Veredicto:** O texto inteiro gira em torno de ferramentas sofisticadas sem nunca ter respondido a pergunta prévia que ele mesmo levanta: qual erro domina no AssertIA? Enquanto isso não for medido, todo quality stack é performance de palco. (312 palavras)


## O que mudou (pós-commit)
<!-- post-state: 2026-04-08T11:33:30.176584 -->

### Claims registradas (10)
- ✓ HalluGraph (arXiv 2512.01659, dez 2025): framework de detecção de alucinação para legal RAG via alinhamento de knowledge graphs. AUC 0.979 (docs estruturados), 0.89 (tarefas generativas legais). Produz trilha de auditoria — Entity Grounding + Relation Preservation
- ✓ HalluGraph detecta substituição de entidades e relações quebradas, NÃO erros de raciocínio jurídico — limitação crítica para legal-AI onde interpretação é o modo dominante de falha
- ✓ Naive RAG ~60% accuracy, Contextual RAG (hybrid search + reranking) 88-92% — dados de domínio genérico (Meterra 2026), NÃO transferíveis diretamente para legal-PT
- ✓ Hybrid search (70% semântico / 30% keyword) ganha +15-20% recall em queries com identificadores específicos — alto fit para texto jurídico com artigos, leis, números de acórdão
- ✓ RRPO (arXiv 2604.02091, abr 2026): RL para otimizar rerankers RAG. Base gte-multilingual-reranker-base suporta PT. +1-2 F1, transfere entre LLMs sem fine-tuning (testado GPT-4o, Claude-3.5, Gemini-2.5)
- ✓ Cross-encoder reranking: +5-8% accuracy sobre hybrid search. Latência 100-200ms — aceitável para análise jurídica (não real-time)
- ✓ Reranker treinado com RRPO transfere sem fine-tuning para qualquer LLM downstream — propriedade 'plug-and-play' crítica para flexibilidade de stack
- ? Baseline de qualidade real do AssertIA: distribuição de erros por tipo de tarefa, taxa de falha por agente, correlação custo-qualidade — sem isso, qualquer recomendação de quality stack é especulativa
- ? Qual tipo de erro domina no AssertIA: substituição de entidades (HalluGraph resolve), erro de retrieval (hybrid search resolve), ou erro de raciocínio/interpretação (nenhuma ferramenta resolve automaticamente)?
- ? KG para domínio jurídico brasileiro: custo de construção e manutenção, drift quando leis mudam — viabilidade operacional desconhecida

### Threads tocados (3)
- **adoption-risk** [active] — Adoption Risk
- **legal-ai-academia** [active] — Legal AI Academia
- **horizon-scan** [active] — Horizon Scan

### Evento registrado
- **ID:** EVT-1bf39938
- **Tipo:** artifact_created
- **Resumo:** Published: Discovery: O Quality Stack — 3 Ferramentas que Medem o que o AssertIA Ainda Não Mede

### Diff real dos arquivos de estado
**notes/**
```
M	memory/debugging.md
M ../memory/debugging.md
?? ../context/
?? ../issues/
?? ./
?? ../secrets/google-service-account.json
```

### briefing.md
```
# Briefing — 2026-04-08 11:33
<!-- Gerado por edge-digest. NÃO editar manualmente. -->

## Fios (12 ativos, 0 esperando)
- [active] Adoption Risk (owner:edge, resurface:2026-04-14, updated:2026-04-08)
- [active] Adversarial Content Review (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Ai Adoption Peer Institutions (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] External Events Scan (owner:edge, resurface:2026-04-14, updated:2026-04-07)
- [active] Handover Leverage (owner:edge, resurface:2026-04-14, updated:2026-04-08)
- [active] Horizon Brief Production (owner:edge, resurface:2026-04-14, updated:2026-04-07)
```

---
*Diretriz: Ler este meta-report ANTES de editar arquivos de estado (MEMORY.md, debugging.md, etc.). Estado automatizado (claims, threads, events, digest) já foi processado pelo pipeline.*
## Review Gate

- overall review score: 2.8/5.0
- review cost: $0.0894
