Discovery: O Quality Stack para Legal RAG

3 ferramentas que medem o que o AssertIA ainda não mede

Resumo Executivo

0.979
AUC HalluGraph (docs estruturados)
0.89
AUC HalluGraph (tarefas generativas)
60→92%
Naive RAG → Contextual RAG (domínio genérico)
+1-2 F1
RRPO sobre baseline GTE (multilingual)

1. O Problema

Ação anterior O que trouxe Conexão com este trabalho
Brief #001 (7 abr) 4 sinais de custo: TurboQuant, Flash-Lite, open-weight MoE Adversarial: viés custo, zero qualidade
Discovery: alucinação legal-AI (7 abr) Stanford: 17-33% hallucination. Taxonomia document-grounded vs memory-dependent Diagnóstico existe, ferramentas para medir não estavam mapeadas
Research: governança IA TCU (8 abr) Res. 347 é estrutura org, não framework IA. PL 2338 é risco real Compliance precisará de métricas — quais métricas?
Strategy: triagem (8 abr) 12 threads, 39 gaps, prioridade = provar o loop fechando gaps Este beat fecha o gap 'zero quality signals'

O Horizon Brief #001 trouxe 4 sinais sobre como pagar menos por inferência. A revisão adversarial identificou o viés: nenhum sinal sobre como fazer melhor. Uma alucinação mais barata continua sendo uma alucinação. Este beat buscou o lado da qualidade — não para prescrever implementação (domínio técnico), mas para que o time saiba que as ferramentas existem.

2. A Descoberta — Quality Stack

HalluGraph
Detecção de alucinação via alinhamento de knowledge graphs. Mede Entity Grounding (entidades na resposta existem na fonte?) e Relation Preservation (relações afirmadas são suportadas?). Produz trilha de auditoria. AUC 0.979 (estruturado) / 0.89 (generativo). arXiv:2512.01659, dez 2025.
Contextual RAG
Pilha de 3 camadas: hybrid search (70% semântico / 30% keyword, +15-20% recall), cross-encoder reranking (+5-8% accuracy, 100-200ms), training-free reranking (+10-20% NDCG). De ~60% para 88-92% em domínio genérico. Meterra 2026.
RRPO Reranker
Reinforcement Learning para otimizar rerankers. Base gte-multilingual-reranker-base (suporta PT). +1-2 F1 sobre GTE, supera RankZephyr 7B. Plug-and-play: transfere entre LLMs sem fine-tuning. arXiv:2604.02091, abr 2026.
JurisTCU (já no corpus)
Benchmark do próprio TCU: 16k docs, 358 queries, 2020 relevance judgments. OpenAI embeddings superam BERT em ~70%. Conecta com o quality stack como camada de MEDIÇÃO. arXiv:2503.08379, mar 2025.

HalluGraph — a trilha de auditoria importa mais que o AUC

O valor do HalluGraph não é o número (0.979 AUC) — é a rastreabilidade. Em vez de um score opaco ('75% de certeza'), ele produz: 'entidade X da resposta NÃO aparece no documento fonte' e 'relação Y afirmada na resposta NÃO é suportada pelo contexto'. Isso é o que governance e compliance precisam: não um semáforo, mas uma trilha de auditoria da assertiva ao documento.

Detecção tradicional
  • Score de similaridade semântica (BERTScore, BLEURT)
  • Output: número entre 0-1
  • Tolera substituição de entidades (0.95 de similaridade mas partido errado)
  • Sem rastreabilidade — não explica O QUE está errado
HalluGraph
  • Alinhamento estrutural de knowledge graphs
  • Output: Entity Grounding + Relation Preservation
  • Detecta substituição de entidades (party X ≠ party Y)
  • Trilha de auditoria: assertiva → relação → documento fonte
Limitação crítica (adversarial): HalluGraph detecta erros de ENTIDADE e RELAÇÃO, não erros de RACIOCÍNIO jurídico. Se o modelo interpreta uma norma incorretamente, pondera precedentes de forma errada, ou chega a uma conclusão que não segue das premissas, HalluGraph não detecta. Em legal-AI, reasoning errors podem ser mais graves que entity substitution.

Contextual RAG — o salto de qualidade está no retrieval

Camada Ganho Latência Fit para legal-PT
Hybrid search (70/30 sem/kw) +15-20% recall +20-50ms ALTO — texto jurídico tem artigos, leis, números específicos
Cross-encoder reranking +5-8% accuracy +100-200ms ALTO — análise jurídica é high-stakes, latência aceitável
Training-free reranking (LLM) +10-20% NDCG custo LLM call MÉDIO — custo adicional, ganho incremental
RRPO (RL reranker) +1-2 F1 inference only ALTO — base multilingual suporta PT, plug-and-play
Números NÃO transferíveis: 60% → 92% é de domínio genérico (tech/produto). Legal-PT pode ser melhor (textos formais, vocabulário controlado) ou pior (docs longos, precedentes conflitantes, hierarquia normativa). Sem medir no domínio real, esses números são direção, não previsão.

RRPO — reranker que fala português

O achado mais prático: RRPO usa como base o gte-multilingual-reranker-base, que suporta português. Isso significa que um reranker otimizado para legal-PT é tecnicamente viável sem treinar um modelo do zero. O reranker treinado com Qwen-7B transfere sem fine-tuning para GPT-4o, Claude-3.5, Gemini-2.5 — propriedade plug-and-play que permite trocar o modelo gerador sem retreinar o reranker.

3. Aplicação — O que muda para o AssertIA

Sem quality stack
  • Não sabe onde erra (entity? retrieval? reasoning?)
  • Sem baseline = sem métrica de progresso
  • PL 2338 compliance: 'não medimos' é resposta frágil
  • Otimização de custo sem saber impacto na qualidade
Com quality stack (quando justificado)
  • Sabe tipo de erro dominante por agente/tarefa
  • Baseline permite medir impacto de cada mudança
  • Compliance: 'medimos via X, tipo dominante é Y'
  • Custo e qualidade otimizados juntos, iterativamente
Revisão adversarial GPT-5.4: 'Quality-before-cost é falsa dicotomia. Reduzir custo pode ser pré-condição para medir qualidade em escala.' Aceito. A recomendação não é sequenciar (primeiro qualidade, depois custo) — é garantir que ambos sejam considerados. O Brief #001 só olhou custo. Este beat adiciona o outro lado.
Revisão adversarial Grok: 'PL 2338 não prescreve tech stack. Exige governance, accountability, supervisão humana — não AUC em benchmark.' Aceito. HalluGraph é uma ferramenta possível para atender accountability, não uma exigência regulatória.

4. Próximos Passos

1Mapear erros do AssertIA

Classificar erros por tipo: entity substitution, retrieval failure, reasoning error. Sem isso, qualquer recomendação de quality tool é especulativa. Depende de acesso ao pipeline (domínio do roberto).

2Incluir quality signal no Brief #002

HalluGraph + contextual RAG como 5o sinal (qualidade). Qualifica o viés custo-only do #001. Deadline: 15 abr.

3Acompanhar HalluGraph

Paper under review (OpenReview). Se aceito, vira referência. Se reproduzido no domínio legal-PT, vira ferramenta candidata. Resurface: 30 dias.

5. O Que Não Sei

#GapO que preciso saberStatus
QS-1 Tipo de erro dominante no AssertIA: entity, retrieval, ou reasoning Acesso a logs de erro ou amostra de outputs com revisão humana OPEN
QS-2 Performance real do pipeline RAG do AssertIA: onde no espectro 60-92%? Avaliação com JurisTCU ou amostra real de queries OPEN
QS-3 Viabilidade de KG para domínio jurídico brasileiro: custo de construção/manutenção, drift quando legislação muda Estimativa de engenharia + consulta ao roberto OPEN
QS-4 RRPO em legal-PT: ganho real ao treinar gte-multilingual com supervisor LLM em Portuguese legal QA Experimento com amostra JurisTCU OPEN
Incerteza crítica: se o erro dominante do AssertIA for reasoning (interpretação jurídica incorreta), NENHUMA das 3 ferramentas resolve. Supervisão humana continua sendo a camada de controle para erros de raciocínio. O quality stack é complementar, não substituto.

6. Contextualização e Glossário

Este report é para gestores e coordenadores do projeto AssertIA que precisam entender o que existe em termos de medição de qualidade para sistemas de IA jurídica. Não pressupõe conhecimento técnico de RAG ou NLP — os conceitos são explicados no glossário. A decisão sobre implementação é técnica (domínio do roberto); o valor aqui é informacional: saber que as ferramentas existem e o que fazem.

Termos usados neste report sobre qualidade de sistemas RAG para domínio jurídico.
RAG (Retrieval-Augmented Generation)
Arquitetura onde o modelo de IA busca documentos relevantes antes de gerar a resposta. Reduz alucinação ao ancorar a resposta em fontes reais.
Knowledge Graph (KG)
Representação estruturada de conhecimento como rede de entidades e relações. Ex: 'Acórdão 1234' → 'cita' → 'Lei 8.666'. HalluGraph usa KGs para verificar se as relações na resposta existem nas fontes.
Entity Grounding
Métrica HalluGraph: as entidades mencionadas na resposta (nomes, leis, datas) aparecem nos documentos fonte? Score baixo = entidade fabricada.
Relation Preservation
Métrica HalluGraph: as relações afirmadas na resposta (X cita Y, Z revoga W) são suportadas pelo contexto? Score baixo = relação inventada.
Hybrid Search
Combinação de busca semântica (por significado) e busca por palavra-chave. Essencial para texto jurídico onde termos exatos (artigos, números de lei) são tão importantes quanto o significado.
Reranking
Segunda fase de busca: após recuperar N documentos candidatos, um modelo menor reordena por relevância. Custo: 100-200ms. Ganho: +5-8% accuracy.
RRPO
Reranker Reinforcement Policy Optimization. Método de treinar um reranker usando RL com feedback de um LLM. Base multilingual suporta português.
AUC
Area Under the ROC Curve. Métrica de discriminação: 1.0 = perfeito, 0.5 = aleatório. HalluGraph atinge 0.979 (quase perfeito) em docs estruturados.

Referencias

  1. Noël et al., HalluGraph: Auditable Hallucination Detection for Legal RAG Systems via Knowledge Graph Alignment https://arxiv.org/abs/2512.01659 ArXiv
  2. Meterra, RAG in 2026: Beyond Naive Retrieval https://meterra.ai/blog/rag-technology-2026 Blog
  3. Wu et al., Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning https://arxiv.org/abs/2604.02091 ArXiv
  4. Ganatra et al., HalluDetect: A Multi-Level Framework for Real-Time Hallucination Detection in Legal AI https://aclanthology.org/2025.emnlp-industry.128.pdf EMNLP 2025
  5. Ribeiro et al., JurisTCU: A Brazilian Portuguese Information Retrieval Dataset https://link.springer.com/article/10.1007/s10579-025-09881-w Springer
  6. Magesh et al., Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools https://law.stanford.edu/wp-content/uploads/2024/05/Legal_RAG_Hallucinations.pdf Stanford Law