Resumo Executivo
- Contexto: Brief #001 trouxe 4 sinais de custo, zero de qualidade. Adversarial pediu pelo menos 1 quality signal.
- Descoberta: 3 ferramentas recentes que permitem medir e melhorar qualidade em legal RAG — HalluGraph (detecção de alucinação via KG), Contextual RAG (60% → 88-92%), RRPO (reranker multilingual treinável via RL).
- Recomendação: Mapear erros reais do AssertIA por tipo antes de investir em quality infra. Sem baseline, qualquer recomendação é especulativa.
1. O Problema
| Ação anterior | O que trouxe | Conexão com este trabalho |
|---|---|---|
| Brief #001 (7 abr) | 4 sinais de custo: TurboQuant, Flash-Lite, open-weight MoE | Adversarial: viés custo, zero qualidade |
| Discovery: alucinação legal-AI (7 abr) | Stanford: 17-33% hallucination. Taxonomia document-grounded vs memory-dependent | Diagnóstico existe, ferramentas para medir não estavam mapeadas |
| Research: governança IA TCU (8 abr) | Res. 347 é estrutura org, não framework IA. PL 2338 é risco real | Compliance precisará de métricas — quais métricas? |
| Strategy: triagem (8 abr) | 12 threads, 39 gaps, prioridade = provar o loop fechando gaps | Este beat fecha o gap 'zero quality signals' |
O Horizon Brief #001 trouxe 4 sinais sobre como pagar menos por inferência. A revisão adversarial identificou o viés: nenhum sinal sobre como fazer melhor. Uma alucinação mais barata continua sendo uma alucinação. Este beat buscou o lado da qualidade — não para prescrever implementação (domínio técnico), mas para que o time saiba que as ferramentas existem.
2. A Descoberta — Quality Stack
Detecção de alucinação via alinhamento de knowledge graphs. Mede Entity Grounding (entidades na resposta existem na fonte?) e Relation Preservation (relações afirmadas são suportadas?). Produz trilha de auditoria. AUC 0.979 (estruturado) / 0.89 (generativo). arXiv:2512.01659, dez 2025.
Pilha de 3 camadas: hybrid search (70% semântico / 30% keyword, +15-20% recall), cross-encoder reranking (+5-8% accuracy, 100-200ms), training-free reranking (+10-20% NDCG). De ~60% para 88-92% em domínio genérico. Meterra 2026.
Reinforcement Learning para otimizar rerankers. Base gte-multilingual-reranker-base (suporta PT). +1-2 F1 sobre GTE, supera RankZephyr 7B. Plug-and-play: transfere entre LLMs sem fine-tuning. arXiv:2604.02091, abr 2026.
Benchmark do próprio TCU: 16k docs, 358 queries, 2020 relevance judgments. OpenAI embeddings superam BERT em ~70%. Conecta com o quality stack como camada de MEDIÇÃO. arXiv:2503.08379, mar 2025.
HalluGraph — a trilha de auditoria importa mais que o AUC
O valor do HalluGraph não é o número (0.979 AUC) — é a rastreabilidade. Em vez de um score opaco ('75% de certeza'), ele produz: 'entidade X da resposta NÃO aparece no documento fonte' e 'relação Y afirmada na resposta NÃO é suportada pelo contexto'. Isso é o que governance e compliance precisam: não um semáforo, mas uma trilha de auditoria da assertiva ao documento.
- Score de similaridade semântica (BERTScore, BLEURT)
- Output: número entre 0-1
- Tolera substituição de entidades (0.95 de similaridade mas partido errado)
- Sem rastreabilidade — não explica O QUE está errado
- Alinhamento estrutural de knowledge graphs
- Output: Entity Grounding + Relation Preservation
- Detecta substituição de entidades (party X ≠ party Y)
- Trilha de auditoria: assertiva → relação → documento fonte
Contextual RAG — o salto de qualidade está no retrieval
| Camada | Ganho | Latência | Fit para legal-PT |
|---|---|---|---|
| Hybrid search (70/30 sem/kw) | +15-20% recall | +20-50ms | ALTO — texto jurídico tem artigos, leis, números específicos |
| Cross-encoder reranking | +5-8% accuracy | +100-200ms | ALTO — análise jurídica é high-stakes, latência aceitável |
| Training-free reranking (LLM) | +10-20% NDCG | custo LLM call | MÉDIO — custo adicional, ganho incremental |
| RRPO (RL reranker) | +1-2 F1 | inference only | ALTO — base multilingual suporta PT, plug-and-play |
RRPO — reranker que fala português
O achado mais prático: RRPO usa como base o gte-multilingual-reranker-base, que suporta português. Isso significa que um reranker otimizado para legal-PT é tecnicamente viável sem treinar um modelo do zero. O reranker treinado com Qwen-7B transfere sem fine-tuning para GPT-4o, Claude-3.5, Gemini-2.5 — propriedade plug-and-play que permite trocar o modelo gerador sem retreinar o reranker.
3. Aplicação — O que muda para o AssertIA
- Não sabe onde erra (entity? retrieval? reasoning?)
- Sem baseline = sem métrica de progresso
- PL 2338 compliance: 'não medimos' é resposta frágil
- Otimização de custo sem saber impacto na qualidade
- Sabe tipo de erro dominante por agente/tarefa
- Baseline permite medir impacto de cada mudança
- Compliance: 'medimos via X, tipo dominante é Y'
- Custo e qualidade otimizados juntos, iterativamente
4. Próximos Passos
5. O Que Não Sei
| # | Gap | O que preciso saber | Status |
|---|---|---|---|
| QS-1 | Tipo de erro dominante no AssertIA: entity, retrieval, ou reasoning | Acesso a logs de erro ou amostra de outputs com revisão humana | OPEN |
| QS-2 | Performance real do pipeline RAG do AssertIA: onde no espectro 60-92%? | Avaliação com JurisTCU ou amostra real de queries | OPEN |
| QS-3 | Viabilidade de KG para domínio jurídico brasileiro: custo de construção/manutenção, drift quando legislação muda | Estimativa de engenharia + consulta ao roberto | OPEN |
| QS-4 | RRPO em legal-PT: ganho real ao treinar gte-multilingual com supervisor LLM em Portuguese legal QA | Experimento com amostra JurisTCU | OPEN |
6. Contextualização e Glossário
Este report é para gestores e coordenadores do projeto AssertIA que precisam entender o que existe em termos de medição de qualidade para sistemas de IA jurídica. Não pressupõe conhecimento técnico de RAG ou NLP — os conceitos são explicados no glossário. A decisão sobre implementação é técnica (domínio do roberto); o valor aqui é informacional: saber que as ferramentas existem e o que fazem.
- RAG (Retrieval-Augmented Generation)
- Arquitetura onde o modelo de IA busca documentos relevantes antes de gerar a resposta. Reduz alucinação ao ancorar a resposta em fontes reais.
- Knowledge Graph (KG)
- Representação estruturada de conhecimento como rede de entidades e relações. Ex: 'Acórdão 1234' → 'cita' → 'Lei 8.666'. HalluGraph usa KGs para verificar se as relações na resposta existem nas fontes.
- Entity Grounding
- Métrica HalluGraph: as entidades mencionadas na resposta (nomes, leis, datas) aparecem nos documentos fonte? Score baixo = entidade fabricada.
- Relation Preservation
- Métrica HalluGraph: as relações afirmadas na resposta (X cita Y, Z revoga W) são suportadas pelo contexto? Score baixo = relação inventada.
- Hybrid Search
- Combinação de busca semântica (por significado) e busca por palavra-chave. Essencial para texto jurídico onde termos exatos (artigos, números de lei) são tão importantes quanto o significado.
- Reranking
- Segunda fase de busca: após recuperar N documentos candidatos, um modelo menor reordena por relevância. Custo: 100-200ms. Ganho: +5-8% accuracy.
- RRPO
- Reranker Reinforcement Policy Optimization. Método de treinar um reranker usando RL com feedback de um LLM. Base multilingual suporta português.
- AUC
- Area Under the ROC Curve. Métrica de discriminação: 1.0 = perfeito, 0.5 = aleatório. HalluGraph atinge 0.979 (quase perfeito) em docs estruturados.
Referencias
- Noël et al., HalluGraph: Auditable Hallucination Detection for Legal RAG Systems via Knowledge Graph Alignment https://arxiv.org/abs/2512.01659 ArXiv
- Meterra, RAG in 2026: Beyond Naive Retrieval https://meterra.ai/blog/rag-technology-2026 Blog
- Wu et al., Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning https://arxiv.org/abs/2604.02091 ArXiv
- Ganatra et al., HalluDetect: A Multi-Level Framework for Real-Time Hallucination Detection in Legal AI https://aclanthology.org/2025.emnlp-industry.128.pdf EMNLP 2025
- Ribeiro et al., JurisTCU: A Brazilian Portuguese Information Retrieval Dataset https://link.springer.com/article/10.1007/s10579-025-09881-w Springer
- Magesh et al., Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools https://law.stanford.edu/wp-content/uploads/2024/05/Legal_RAG_Hallucinations.pdf Stanford Law