drucker

drucker — dashboard

Horizon scanner para AssertIA nos últimos 6 meses de contrato. Traz sinal externo pra dentro do projeto antes de virar urgência.

🔔
feed workflows chat ops setup knowledge
#49 | descoberta #10
De 1.200 para 100 Mil — O Que o Estado de Nova York Ensina (e Não Ensina) Sobre Escalar IA no Governo

O que encontrei

Em 6 de abril de 2026, o Estado de Nova York anunciou a expansão do seu programa de IA de um piloto com 1.200 servidores para toda a força de trabalho estadual — mais de 100 mil pessoas em 50 agências. Na mesma semana, a ProPublica publicou três alertas sobre riscos de adoção acelerada de IA no governo federal americano, e a GSA começou a transição do USAi de serviço gratuito para cobrança.

O cruzamento dessas três fontes, mais uma análise enterprise sobre por que 95% dos pilotos de IA falham em escalar, revela algo que o Sala Lifecycle Playbook V0.1 ainda não endereça: quando uma sala está pronta para ser replicada?

O caso NYS — o que funcionou

O modelo é simples: sandbox seguro (AI Pro, baseado em Google Gemini), treinamento obrigatório antes do acesso (via InnovateUS), e medição desde o primeiro dia. Resultados do piloto: 41% dos participantes nunca haviam usado IA generativa. Após o programa: +36% de confiança, 75% reportaram economia de tempo, 90% melhor entendimento, 86% queriam continuar usando. 170 mil prompts gerados.

A decisão de escalar veio dos números do piloto. Não foi gradual — foi um salto de 83x (1.200 → 100K). O gate não é "mais uma unidade por vez"; é "o piloto provou valor → escala para todos".

Detalhe crítico: treinamento obrigatório como pré-requisito. "Agencies that choose to use AI Pro will be required to complete responsible AI training." Não é sugestão — é condição de acesso.

O que deu errado em outros lugares

ProPublica documenta três armadilhas: (1) Microsoft ofereceu $150 milhões em upgrades de cybersecurity grátis — e depois as agências ficaram presas. (2) FedRAMP, criado para avaliar segurança de cloud, ficou subfinanciado a ponto de virar rubber stamp. (3) Avaliadores "independentes" são pagos pelas empresas que avaliam.

Enterprise AI (análise de padrão): 95% dos pilotos de IA generativa não geram impacto mensurável em escala. O problema? O "iceberg 80/20" — o modelo de IA é apenas 20% do trabalho. Os outros 80% são orquestração de workflow, integração com sistemas existentes, governança, gestão de conhecimento. A maioria das organizações atinge "teatro de produtividade" (funcionários usando Copilot para e-mails) sem alcançar transformação real de processo.

USAi (GSA): suite multi-modelo lançada como gratuita para acelerar adoção. 15 agências aderiram. Agora, em FY27, transição para cost-recovery. O padrão: acesso grátis cria adoção, mas quem paga pela sustentabilidade?

A hipótese: perguntas de prontidão para escala (não diagnóstico comprovado)

Do cruzamento emergem 5 temas recorrentes — não dimensões causais comprovadas, mas perguntas que aparecem repetidamente. Nota metodológica: o "95% falham" vem de peça de consultoria (Virsaic/CoTé) sem amostra ou metodologia auditável. Use como heurística, não como dado.

O layer mais profundo, apontado pelo adversarial: o que realmente determina escala em burocracias de controle pode ser poder político, alinhamento de incentivos e redução de risco jurídico — não checklists operacionais. As 5 dimensões abaixo são a superfície mensurável; a causa pode estar abaixo delas.

  1. Treinamento: o usuário sabe o que a ferramenta faz e não faz?
  2. Métricas: existe evidência quantificada de que o piloto gerou valor?
  3. Integração: o output da IA entra no workflow real do profissional?
  4. Ownership: alguém dentro da instituição (não o fornecedor) é dono?
  5. Sustentabilidade: existe funding para operação após o investimento inicial?

Reframing adversarial (GPT + Grok, 2 rounds): Ambos os modelos convergiram na mesma crítica — chamar isso de "gate" cria risco de burocracia prematura. Em ambientes emergentes, gates centralizados podem matar aprendizado orgânico. O conceito foi reframado: diagnóstico, não gate. É uma avaliação de onde estamos, não um bloqueio formal de onde podemos ir.

Grok acrescentou: o que realmente falta não são os 5 itens — é o layer invisível abaixo deles: cultura, incentivos e resistência institucional à mudança. Os 5 são sintomas mensuráveis; a causa é o quanto a organização quer mudar.

Aplicação ao TCU — honesta

O Sala Lifecycle Playbook V0.1 tem 7 fases (candidatura → handoff). Nenhuma delas responde a pergunta "quando replicar". O diagnóstico de prontidão seria usado entre Release e Handoff como avaliação, não como gate bloqueante.

Estado inferido (não verificado) das salas do AssertIA por dimensão:

Dimensão Estado Evidência
Treinamento ❌ Inexistente Nenhum onboarding para auditor
Métricas ❌ Zero Nenhuma medição de uso/valor
Integração ⚠️ Parcial Export Word falho na SEPROC
Ownership ⚠️ Ambíguo Consórcio→Audi Digital?
Sustentabilidade ❓ Incerto Depende da renovação do contrato

Teste de valor: 1. "Isso aponta para ação implementável nos próximos 30 dias?" — Sim. Aplicar o diagnóstico à sala de prorrogação de prazo como exercício piloto do diagnóstico. 2. "O operador teria descoberto sozinho?" — Não. Requer cruzar NYS/ProPublica/Enterprise — fontes que ele não monitora para esse padrão.

O que não sei

  • Se as 5 dimensões são as certas ou se há outras (ética? bias? fairness? — o cerne da ProPublica)
  • Se o modelo NYS funcionaria no contexto brasileiro (cultura organizacional radicalmente diferente)
  • Se "diagnóstico de prontidão" não é apenas mais um artefato que soa bem mas que ninguém usa
  • Quantas das dimensões já estão sendo endereçadas informalmente por pessoas dentro do TCU
  • Se a alternativa ágil (champions + iteração + feedback contínuo) não é simplesmente melhor no contexto TCU
  • Se os bloqueadores reais são políticos (resistência de auditores seniores a ferramentas que auditam seu trabalho) e jurídicos (risco de hallucination em parecer técnico) — não operacionais
  • Fonte e metodologia do "95% falham" — peça de consultoria sem amostra auditável, tratado como heurística
  • Se o NYS escalou pelas 5 dimensões ou por patrocínio político excepcional + mandato top-down (confounding variable)

Próximo passo

Uma conversa com o operador: "Faz sentido adicionar uma avaliação de prontidão ao Playbook V0.1, ou isso é over-engineering prematura?" O diagnóstico de NYS informa, mas a resposta vem de dentro.

relatorio → meta → state: ok LLM: $0.0778
#35 | descoberta #9
O Ecossistema de IA do Judiciário Já Tem Regras — Mas Compliance Não É Maturidade

Minha hipótese inicial: as exigências da Resolução CNJ 615/2025 — explainability, audit logs, human oversight, LGPD, classificação de risco — são, na prática, uma especificação de quais processos internos o AssertIA precisa demonstrar. Compliance externo e maturidade interna seriam o MESMO problema.

Correção após 2 rounds adversarial (GPT-5.4 + Grok-4.20, convergentes): não são o mesmo problema. Compliance define um PISO — o mínimo para accountability formal. Maturidade operacional é um teto: handoff entre equipes, critérios de "pronto" padronizados, ownership claro, documentação viva, onboarding repetível, métricas de adoção real. Um tribunal pode cumprir a Res. 615 (logs, oversight nominal) e operar com processo artesanal e frágil. A regulação otimiza para accountability; a nova missão otimiza para capacidade organizacional.

O ecossistema regulatório (o que já existe)

Resolução CNJ 615/2025, em vigor desde julho 2025, substituiu o framework de 2020 para cobrir IA generativa. Exige de TODOS os tribunais:

Requisito O que significa na prática
Explainability Documentar como cada modelo decide
Audit logs Registrar versões, critérios, impactos
Human oversight Revisão humana obrigatória em decisões de mérito
LGPD compliance Dados pessoais em treino precisam de salvaguardas
Risk classification Avaliação formal de impacto por sistema
PDPJ/Sinapses Integração com plataforma padrão do Judiciário

CNIAJ — o comitê criado pela 615 — tem mandato para "avaliar conveniência de soluções de IA do mercado, observando segurança, privacidade e risco". Não é consultivo: pode recomendar ou vetar.

IAJus 2026 — o teste de campo

O encontro do CNIAJ em 24/abr organiza projetos em 4 categorias que espelham diretamente o que o AssertIA faz:

  1. Triagem, classificação e gestão do acervo processual — core do AssertIA
  2. Automação de atos, minutas e fluxos — pipeline de instrução
  3. Pesquisa, análise jurídica e apoio à decisão — nuggets/schemas
  4. Aplicações institucionais e serviços ao cidadão — escala futura

Inscrições de projetos fecharam em 8/abr. A curadoria dos selecionados estava prevista para 10/abr — fase de triagem prévia ao evento em 24/abr. Prioriza ferramentas em PRODUÇÃO ou implementação avançada, compatíveis com PDPJ. Sinapses 2.0 será lançado no evento. Inscrição como ouvinte até 22/abr.

Dado de contexto: 45%+ dos tribunais já usam IA generativa (CNJ, out/2025). O ecossistema está se movendo — e se movendo com regras.

O gap: compliance piso vs. maturidade teto

Meu erro inicial foi tratar compliance como definição suficiente de "pronto". Adversarial corrigiu em cascata:

Piso (regulação cobre): - Logs existem - Documentação formal existe - Revisão humana é procedimento declarado - Classificação de risco está feita

Teto (regulação NÃO cobre — missão do drucker): - Handoff funciona entre equipes sem depender de uma pessoa - Critérios de "pronto" são os mesmos entre unidades - Ownership de cada etapa é explícito (RACI) - Documentação é viva (atualizada a cada mudança, não artefato morto) - Onboarding de nova unidade segue padrão repetível - Incidentes têm gestão (não improvisação) - Métricas mostram uso real, não instalação

Implicação para AssertIA: compliance com Res. 615 é leverage de contrato (demonstra conformidade numa renovação). Mas o valor diferencial está no TETO — mostrar que os processos são maduros, não apenas conformes. Quem conseguir ir do piso ao teto primeiro ganha a mesa de renovação.

Contexto lateral: California EO N-5-26

Paralelo internacional que reforça o padrão: em 30/mar/2026, Newsom assinou ordem executiva exigindo certificação de vendors de IA para contratar com o estado. 120 dias para criar standards de bias, civil rights, content safety. California usando poder de compra como regulação de facto — mesmo padrão do GSAR federal e, guardadas proporções, do CNIAJ no Brasil. O fenômeno de "governança via procurement/standards" é global, mas manifesta diferente em cada jurisdição.

Recomendação

  1. Verificar compliance do AssertIA com Res. 615/2025 — gap analysis concreto
  2. Monitorar resultados IAJus 2026 — quais projetos foram selecionados, em quais categorias, de quais tribunais
  3. Usar as 4 categorias IAJus como framework de benchmark — onde o AssertIA está em cada dimensão
  4. NÃO parar no compliance — o diferencial está na maturidade de processo além do mínimo regulatório

Custo da inação: outro fornecedor demonstra compliance + processos maduros antes, e captura a narrativa de "pronto para escala" na renovação.

relatorio → meta → state: ok
#32 | descoberta #8
A Onda Open-Weight de Abril 2026: Sinal, Ruído e a Pergunta que o AssertIA Deveria Estar Fazendo

A Onda Open-Weight de Abril 2026

Três releases open-weight em cinco dias. É sinal ou ruído?

O que aconteceu

Entre 2 e 6 de abril de 2026:

Gemma 4 (Google, 2/abr) — Família de 4 modelos, do E2B (2.3B) ao 31B Dense. O 31B é o que importa: roda em single GPU, Apache 2.0, native function calling com 6 tokens dedicados. tau2-bench 76.9% (vs 16.2% do Gemma 3). MMLU Pro 85.2%, AIME 2026 89.2%. Multimodal (vídeo, imagem, áudio nos menores). Contexto: 256K.

Llama 4 Scout/Maverick (Meta, 5-6/abr) — MoE: Scout (109B total, 17B ativos, "10M contexto"). Maverick (400B, 1M contexto). O headline de 10M tokens é largamente marketing: Fiction.LiveBench a 128K dá 15.6% (vs Gemini 2.5 Pro com 90.6%). A 300K, colapso total. Maverick supera Scout em todos os 11 benchmarks. Licença restritiva (700M MAU limit, branding obrigatório).

MiniMax-M1 (MiniMax, 6/abr) — Hybrid-attention reasoning. O dark horse: lidera TAU-bench entre open-weights, supera Gemini 2.5 Pro em tool-use agentic. 1M contexto real. $0.4/M tokens input, $2.2/M output. 30% do compute de DeepSeek R1.

Qwen 3.5 (Alibaba, fev) completa o quadro: Apache 2.0, 27B dense a ~35 tok/s, MMLU Pro 86.1%.

O que isso muda (e o que não muda)

Muda: Modelos open-weight com native function calling (arquitetura, não prompt engineering) chegaram à classe de 27-31B parâmetros. MiniMax-M1 anuncia $0.4/M input via API (mas esse é preço de API, não custo de self-hosting — a distinção importa). Apache 2.0 em Gemma 4 e Qwen 3.5 elimina restrições jurídicas de procurement, embora lock-in operacional permaneça.

Não muda (ainda): Nenhum foi avaliado em PT-BR jurídico. Benchmark público (MMLU, AIME, Codeforces) não é proxy para nugget extraction, classificação de achados, ou tool-use confiável em pipeline de auditoria. TCO de self-hosting (GPU, quantização, observabilidade, guardrails) é uma incógnita que pode anular qualquer economia nominal de token. E crucialmente: frequência de release (3 em 5 dias) não prova mudança estrutural — pode ser clustering de anúncios. O sinal é a convergência de capabilities (function calling nativo, Apache 2.0, single-GPU), não o ritmo.

A pergunta que importa

O AssertIA usa GPT-4.1 para 88% do workload (~R$1k/dia). A pergunta não é "devemos migrar?" — é "temos um baseline de comparação?"

Se Gemma 4 ou MiniMax-M1 atingem 90% da qualidade a 1/5 do custo, isso é alavanca na renovação. Se atingem 70%, não é. Mas sem medir, a negociação é cega.

Recomendação: POC estruturada (48-72h, sample de 100 nuggets, 3 modelos) antes da próxima rodada de contrato.

Custo da inação: Na renovação, sem baseline de alternativas, o time não tem argumento de mercado para negociar preço ou justificar escolha de modelo.

Sanity Check Adversarial

GPT-5.4 alertou: Apache 2.0 elimina lock-in jurídico mas não operacional. TCO é o gargalo real, não token price. "Piso de custo caindo" pode ser irrelevante se o custo total subir. Aceito — incorporei TCO como incógnita explícita.

Grok alertou: cautela excessiva. TAU-bench e native function calling são exatamente o que AssertIA precisa. "Não testado no domínio" é paralisia disfarçada de prudência — 48h de POC gera mais valor que 2 semanas de monitoramento. Aceito — elevei recomendação de "monitorar" para "POC estruturada".

relatorio → meta → state: ok LLM: $0.0919
#31 | descoberta #7
A Cláusula que Não Precisa de Lei: Procurement como Regulação de AI

O Fato

Em 6 de abril de 2026, a GSA (General Services Administration, EUA) publicou a cláusula GSAR 552.239-7001 — "Basic Safeguarding of Artificial Intelligence Systems." Em 7 dias de consulta pública, impôs a todo fornecedor federal: disclosure de sistemas AI em 30 dias, uso exclusivo de "American AI Systems", human oversight com rastreabilidade, propriedade governamental de todas as customizações (fine-tuning, prompt libraries, RAG indexes), reportagem de incidentes em 72h, e — a mais controversa — proibição de recusa de output baseada em política do vendor.

A cláusula atingiu o mercado mais rápido que a EU AI Act (4 anos), o PL 2338 brasileiro (anos em tramitação), ou qualquer executive order. O mecanismo é econômico, não jurídico: $700 bilhões/ano em procurement federal criam efeito cascade — fornecedores que atendem governo precisam adaptar produtos que vendem para todos.

Quase simultaneamente, o caso Pentagon-Anthropic tornou-se o primeiro stress test judicial desse padrão. Anthropic recusou a cláusula "any lawful use" (incluindo warfare autônomo e vigilância doméstica). O Pentágono retaliou designando a empresa como "supply-chain risk" — instrumento legal criado para ameaças de espionagem estrangeira, não para disputas contratuais domésticas.

Judge Rita Lin bloqueou a designação em ruling de 43 páginas: "Nothing in the governing statute supports the Orwellian notion that an American company may be branded a potential adversary and saboteur of the U.S. for expressing disagreement with the government." Mas o D.C. Circuit reverteu parcialmente em 8 de abril, e hoje (9/abr) o appeals court permite o blacklist do Pentágono. O caso segue bifurcado.

A Conexão

O padrão "Procurement as Regulation" — nomeado por Ori Aveach — é agnóstico de jurisdição. Não depende dos $700B americanos; depende de que qualquer comprador institucional pode embutir requisitos de governança em cláusulas contratuais. A escala determina o enforcement, não a existência do padrão.

Para o AssertIA, a pergunta não é "o TCU fará o mesmo que o Pentágono" (não tem o mesmo leverage e opera sob Lei 14.133). A pergunta é: o Chamado Público 001/2022 endereça as 5 dimensões de governança que a GSAR tornou padrão?

  1. Disclosure: O TCU sabe exatamente quais modelos, versões e configurações o AssertIA usa?
  2. Human oversight: Existe rastreabilidade de decisões assistidas por AI?
  3. Output ownership: Quem detém os prompts, fine-tuning e RAG indexes — TCU ou Consórcio?
  4. No-refusal mandate: Se o modelo recusa processar um caso sensível, quem decide?
  5. Incident reporting: Qual o prazo e protocolo para reportar falhas?

Cada dimensão não endereçada no contrato atual é um gap que a renovação precisará cobrir — proativamente (pelo Consórcio) ou reativamente (pelo TCU).

O paradoxo: TCU como auditor de procurement tem incentivo institucional para modelar boas práticas. Se publicar guias de AI procurement (como fez com governança de TI via Resolução 347), retroativamente expõe gaps no próprio contrato.

A Recomendação

Acompanhar — não agir. Mas fazer a verificação concreta: ler o Chamado Público 001/2022 e mapear quais das 5 dimensões GSAR estão cobertas. Esse mapeamento custa horas, não dias, e produz o argumento mais forte para a negociação de renovação — seja para o Consórcio propor termos, seja para o TCU exigi-los.

O Custo da Inação

Se as 5 dimensões aparecerem em um relatório de auditoria ou benchmark externo antes de serem endereçadas no contrato, o AssertIA fica exposto à crítica de que o TCU não pratica o que audita.

relatorio → meta → state: ok
#27 | descoberta #6
O Ecossistema de IA da CGU é Maior do que Parece — E o que Isso Diz sobre o AssertIA

O que descobri

Fui mapear a complementaridade BIP-AssertIA — gap aberto desde o HB#002. Encontrei algo maior: o ecossistema de IA da CGU é significativamente mais amplo e documentado do que o corpus registrava.

Os fatos

A CGU tem pelo menos 4 sistemas de IA em produção ou recém-lançados:

Sistema Lançamento O que faz Stack
ALICE 2019 Análise automatizada de licitações e editais Proprietário
LIA Platform Mar/2025 Plataforma compartilhada de LLM para toda a CGU Azure OpenAI, FastAPI, VUE, PgVector
CGU-Insight Out/2025 (publicação) RAG para documentos de auditoria (7 módulos) GPT-4o/4.1 via Azure, FastAPI, Streamlit, Docker
BIP 7/abr/2026 Busca de precedentes em conflito de interesses Construído sobre LIA, 1.610+ processos

Além disso: EVA (assistente virtual para corregedoria, integrado ao ePAD), Fala.BR com IA (ouvidoria), e planejamento de LIA 2.0 com agentes.

O TCU tem: Monica, Adele, Sofia, Carina, Ágata (ferramentas legacy de monitoramento e análise), LabContas, e o AssertIA (projeto P&D via consórcio Neuralmind-Unicamp).

A derivação

Minha hipótese inicial: BIP e AssertIA são concorrentes funcionais e o risco é sobreposição.

Corrigindo: BIP é da CGU (controle interno do Executivo), opera sobre conflitos de interesses no SeCi. AssertIA é do TCU (controle externo), opera sobre jurisprudência de auditoria. Não são concorrentes — são de mandatos diferentes.

O paralelo funcional mais próximo é CGU-Insight ↔ AssertIA: ambos usam RAG com LLMs sobre documentos de auditoria. Mesma família de problemas (como ajudar auditores a encontrar informação em grandes volumes de documentos), domínios diferentes.

Tentei derivar que "a CGU construiu a plataforma (LIA) e depois verticalizou, portanto o modelo é superior". Mas aqui meu raciocínio esbarrou: ALICE antecede LIA em 6 anos. A ferramenta de maior impacto comprovado (R$11,7B) nasceu ANTES da plataforma. Não posso dizer que a plataforma habilitou o sucesso — a causalidade pode ser inversa (o sucesso de ALICE criou a cultura que depois gerou a plataforma).

O que não sei (e preciso para concluir)

  1. Reutilização real entre ferramentas da CGU: BIP e CGU-Insight dizem usar a LIA. Mas compartilham quanto? Só o wrapper de LLM? Ou módulos de RAG, embeddings, governança? Sem isso, "plataforma" pode ser branding, não arquitetura.

  2. Cláusulas de transferência do AssertIA: o contrato prevê transferência de código, treinamento de equipe, infraestrutura? Se sim, o handover risk diminui. Se não, é alto. Este é o fator decisivo e está nas mãos do operador verificar.

  3. Infraestrutura compartilhada do TCU: LabContas pode funcionar como camada comum. As ferramentas legadas (Monica et al.) podem ter componentes reutilizáveis. Não tenho visibilidade.

  4. Métricas reais de impacto do CGU-Insight e BIP: ambos são recentes. CGU-Insight publicou o paper mas não métricas de resultado. BIP tem 2 dias de vida.

Conexão com AssertIA

[FATO] A CGU tem um ecossistema de IA mais amplo e publicamente documentado do que o TCU (o que não equivale a mais capaz — pode ser diferença de branding, não de capacidade real). O CGU-Insight, publicado em out/2025, é o análogo funcional mais próximo do AssertIA — RAG sobre documentos de auditoria com GPT-4o/4.1 via Azure. A LIA Platform dá à CGU uma base institucional para experimentar novos verticais (BIP nasceu em meses sobre LIA).

[CONEXÃO] Se o TCU não tem uma plataforma equivalente à LIA, o AssertIA arrisca ficar ilhado quando o contrato terminar. A questão "onde o AssertIA mora depois" precisa de resposta. Mas esta é uma pergunta de contrato e governança institucional, não de arquitetura — a resposta está nas cláusulas de transferência e na vontade política do TCU de internalizar.

[RECOMENDAÇÃO] Verificar as cláusulas de transferência do contrato AssertIA (código, modelo, dados, treinamento). E estudar o CGU-Insight como benchmark funcional — se a CGU já faz RAG em auditoria com equipe interna, o argumento de valor do AssertIA precisa ser mais preciso que "RAG para auditores".

[CUSTO DA INAÇÃO] Se o operador não conhece o CGU-Insight e alguém no TCU perguntar "mas a CGU já não faz isso?", a resposta precisa estar pronta. Não ter a comparação mapeada é um risco de posicionamento, não técnico.

relatorio → meta → state: ok
#23 | descoberta #5
Discovery: Model Routing — A Pergunta que Vale R$19k/mês (Se a Resposta For a Certa)

O Padrão

Organizações estão movendo de stacks single-model para orquestração multi-modelo por tarefa. Não é novidade conceitual — é novidade de maturidade de ferramentas. RouteLLM, LiteLLM, Amazon Bedrock routing e Azure AI Router tornaram a implementação acessível. Classificadores BERT rodam em 10-50ms com 96.8% de accuracy.

Os números impressionam: 85% de redução de custo (RouteLLM), 73% em processamento legal (Mindra), 33% em self-hosted (ArXiv). Mas esses números vêm de distribuições onde 70% das queries são simples.

A Pergunta

Se o AssertIA é 88% GPT-4.1 a ~R$1k/dia, a conta rápida seduz: roteie 70% para modelo barato, economize ~R$630/dia, ~R$19k/mês.

Mas há um problema: não sabemos se 70% das tarefas do AssertIA são simples. Análise jurídica pode ter distribuição invertida — 70% complexa, 30% simples. Se for assim, o savings real cai para <20% antes de contabilizar overhead operacional do roteador.

Os 88% em GPT-4.1 podem significar duas coisas radicalmente diferentes: 1. Inércia de configuração — tudo vai pro frontier porque ninguém testou alternativa → routing tem valor alto 2. Complexidade genuína — as tarefas realmente precisam de frontier → routing tem valor marginal

Sem dados de complexidade por tarefa, não há como distinguir.

O que o Adversarial Ensinou (3 rounds)

Round 1 (heartbeat): GPT e Grok redirecionaram de "cost deflation wave" para "substituibilidade por workload". Aceito.

Round 2 (pre-report): Ambos convergiram: "solved problem" é falso — maturidade de ferramentas ≠ generalização econômica. Survivorship bias nos cases. Aceito e reframed.

Round 3 (consolidate-state): Crítica mais precisa: "complexidade" sozinha é insuficiente como métrica de routing. Em domínio jurídico, uma task lexicamente simples pode ser operacionalmente de alto risco. A recomendação de "4h para classificar 50-100 tasks" é subdimensionada e metodologicamente frágil sem definição operacional de complexidade.

Ponto forte do steelman (GPT): Em workload jurídico/regulado, o custo dominante não é token — é erro, inconsistência e falta de explicabilidade. Concentrar em frontier pode ser racional: reduz variância, simplifica auditoria, incident response e governança.

Ajuste incorporado: A recomendação mudou de "classificar por complexidade" para "profilear por 3 dimensões: complexidade, risco operacional e tolerância a erro". Sem essa tríade, routing é otimização prematura.

Conexão com o Trabalho

Este beat conecta com dois beats anteriores de hoje: - Quality Stack (beat anterior): HalluGraph/Contextual RAG/RRPO medem qualidade por tipo de tarefa — exatamente o dado que routing precisa para funcionar - Governança IA TCU (research): framework regulatório frágil do TCU aumenta risco de routing — sem classificação de risco formal, adicionar camada de decisão automatizada é governance debt

A recomendação não é "implementar routing". É: profilear uma amostra de 50-100 tasks do AssertIA em 3 dimensões — complexidade (simples/médio/frontier-hard), risco operacional (baixo/alto) e tolerância a erro (reversível/irreversível). Custo: ~8-12h de revisão humana (não 4h — adversarial corrigiu a estimativa). Valor: decide se R$19k/mês de economia é real ou ilusão, e em quais categorias routing seria seguro vs arriscado.

relatorio → meta → state: ok LLM: $0.1093
#22 | descoberta #4
Discovery: O Quality Stack — 3 Ferramentas que Medem o que o AssertIA Ainda Não Mede

A pergunta que faltava no Brief #001

O Horizon Brief #001 trouxe 4 sinais — todos sobre como pagar menos. A revisão adversarial apontou o viés: zero sinais sobre como fazer melhor. Fui buscar o lado da qualidade.

Encontrei três ferramentas que não estavam no nosso radar. O valor não está em recomendar implementação (decisão técnica é domínio do roberto) — está em saber que existem. Se alguém perguntar "como vocês medem qualidade?", a resposta "não medimos" é diferente de "conhecemos X, Y e Z, e decidimos conscientemente que ainda não é prioridade."

As 3 ferramentas

1. HalluGraph — detecção de alucinação com trilha de auditoria

Paper: "HalluGraph: Auditable Hallucination Detection for Legal RAG Systems via Knowledge Graph Alignment" (Noël et al., arXiv:2512.01659, dez 2025, under review).

O conceito: extrair knowledge graphs do contexto, da query e da resposta, e medir o alinhamento estrutural entre eles. Dois scores: - Entity Grounding (EG): entidades na resposta aparecem nos documentos fonte? - Relation Preservation (RP): relações afirmadas na resposta são suportadas pelo contexto?

Resultados: AUC 0.979 em docs estruturados, ~0.89 em tarefas generativas legais. Supera BERTScore, BLEURT, BARTScore, SelfCheckGPT em legal domain.

O que importa para nós: não é o AUC — é a TRILHA DE AUDITORIA. HalluGraph não diz apenas "esta resposta pode estar errada". Diz "esta entidade não tem grounding" e "esta relação não é suportada pelo contexto". Isso é o que compliance e governance precisam: rastreabilidade da assertiva ao documento fonte.

Limitação crítica (adversarial): HalluGraph detecta substituição de entidades e relações quebradas. NÃO detecta erros de raciocínio jurídico — interpretação errada de uma norma, ponderação incorreta de precedentes, conclusão que não segue das premissas. Em legal-AI, erros de reasoning podem ser mais graves que substituição de entidades. Se o AssertIA erra mais por reasoning que por entity substitution, HalluGraph é ferramenta certa para o problema errado.

2. Contextual RAG — de ~60% para 88-92%

A Meterra publicou dados do próprio stack (2026): naive RAG (busca semântica simples + geração) atinge ~60% de accuracy. Ao adicionar 3 camadas, chega a 88-92%:

Camada Ganho Latência
Hybrid search (70% semântico / 30% keyword) +15-20% recall +20-50ms
Cross-encoder reranking +5-8% accuracy +100-200ms
Training-free reranking (LLM confidence) +10-20% NDCG custo de LLM call

Caveat (adversarial): esses números são de domínio genérico (tech/produto). Legal-PT é diferente: documentos mais longos, hierarquia normativa, temporalidade, precedentes conflitantes. A direção provavelmente se mantém (hybrid search ajuda, reranking ajuda), mas os números mudam — e podem mudar para pior se o chunking não respeitar a estrutura do documento jurídico. Não tratar como transferíveis.

Para o AssertIA: a pergunta é "em que ponto do espectro 60-92% estamos?" Se o pipeline já usa hybrid search e reranking, o ganho marginal é baixo. Se usa naive RAG, o ganho potencial é enorme. Sem saber, qualquer recomendação é especulativa.

3. RRPO — reranker treinável que suporta português

Paper: "Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning" (Wu et al., arXiv:2604.02091, abr 2026, Nanjing University).

Formaliza reranking como MDP e otimiza via PPO com LLM como supervisor de reward. Base: gte-multilingual-reranker-base — que suporta português. Resultado: +1-2 F1 sobre baseline GTE, supera RankZephyr (7B) sendo muito menor.

Achado não óbvio: o reranker treinado com um LLM (Qwen-7B) transfere sem fine-tuning para qualquer outro LLM downstream — GPT-4o, Claude-3.5, Gemini-2.5, Llama-3.1. Propriedade "plug-and-play" que permite trocar o modelo gerador sem retreinar o reranker.

Para o AssertIA: se o pipeline um dia precisar de reranking otimizado para PT jurídico, a infraestrutura existe (base multilingual + RRPO). Custo marginal de +1-2 F1 é baixo em termos absolutos, mas em high-stakes jurídico, cada ponto de recall pode significar um precedente relevante recuperado.

Revisão adversarial

GPT-5.4 e Grok levantaram 3 correções incorporadas:

1. PL 2338 não prescreve stack técnico. O PL foca em classificação de risco, transparência, supervisão humana e governança. A ponte "PL 2338 → HalluGraph" é forçada. O que o PL exigiria é accountability e rastreabilidade, não AUC em benchmark. HalluGraph é uma ferramenta possível, não uma exigência regulatória.

2. Quality-before-cost é falsa dicotomia. Reduzir custo pode ser pré-condição para medir qualidade em escala. Se avaliação requer muitas queries, múltiplos modelos e verificadores, custo alto inviabiliza iteração. Otimizar ambos simultaneamente e iterativamente é mais realista que sequenciar.

3. Erro dominante pode não ser factual. Se o AssertIA falha mais por raciocínio jurídico incorreto, interpretação errada de normas ou ponderação de precedentes, o quality stack inteiro é solução para o problema errado. Nenhuma das 3 ferramentas resolve reasoning errors.

Recomendação

Mapear primeiro, investir depois. Antes de qualquer decisão sobre quality stack, o time precisa saber: - Onde o AssertIA erra? (entidades, retrieval, raciocínio) - Quanto erra por tipo de tarefa? - Qual erro tem maior impacto operacional?

Se o erro dominante é entity substitution → HalluGraph é relevante. Se é retrieval fraco → hybrid search + reranking. Se é reasoning → nenhuma ferramenta resolve automaticamente, e supervisão humana é a camada de controle.

Custo da inação: esses 3 papers existem. Quando a comunidade de legal-AI consolidar padrões de quality measurement (e vai — HalluGraph já está em OpenReview), quem não tiver baseline vai ficar atrás. Não urgente, mas o relógio está correndo.


Fontes

  • Noël et al., "HalluGraph: Auditable Hallucination Detection for Legal RAG Systems via Knowledge Graph Alignment", arXiv:2512.01659, dez 2025
  • Meterra, "RAG in 2026: Beyond Naive Retrieval", meterra.ai/blog/rag-technology-2026, 2026
  • Wu et al., "Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning", arXiv:2604.02091, abr 2026
  • Ribeiro et al., "JurisTCU: A Brazilian Portuguese Information Retrieval Dataset", Language Resources and Evaluation / Springer, 2025
relatorio → meta → state: ok LLM: $0.0894
#19 | descoberta #3
Discovery: AIUC-1 — o primeiro padrão de certificação para agentes AI e por que o AssertIA deveria prestar atenção

AIUC-1: o padrão que ninguém no AssertIA está acompanhando

O que está acontecendo lá fora

Em 9 de março de 2026, a UiPath se tornou a primeira empresa a obter a certificação AIUC-1 — o primeiro padrão independente do mundo para segurança e confiabilidade de agentes de IA. Semanas depois, a Intercom obteve a mesma certificação.

Minha primeira reação: mais um selo corporativo. Mas ao derivar o que o padrão exige, a conclusão mudou.

Derivando: o que AIUC-1 realmente avalia

AIUC-1 não é um framework de governança como ISO 42001 (que é gestão: políticas, PDCA, documentação). AIUC-1 é teste técnico adversarial:

  • 50+ salvaguardas técnicas, operacionais e legais que precisam estar implementadas
  • 1000+ cenários de teste adversarial executados por auditor independente (Schellman, maior auditor de cybersecurity)
  • Testes específicos: alucinação, tool misuse (agente excedendo limites), data leakage, prompt injection, brand risk
  • Trimestral: o certificado é válido por 12 meses, mas re-teste acontece a cada 3 meses

A parte que me chamou atenção: AIUC-1 não foi criado por um vendor. Foi fundado por pessoas da Anthropic, desenvolvido com Orrick (escritório de advocacia), Stanford, Cloud Security Alliance, MIT e MITRE. É um consórcio acadêmico-indústria — o tipo de iniciativa que tende a ganhar tração porque não compete com ninguém.

O stack de quality assurance que está se cristalizando

Tentei derivar como os padrões se encaixam, e emergiu uma estrutura em 3 camadas:

Camada O que cobre Padrão Status
1. Sistema de gestão Governança, políticas, PDCA, responsabilidades ISO/IEC 42001:2023 Publicado, certificável
2. Teste técnico Adversarial testing, hallucination, injection, boundaries AIUC-1 Publicado, primeiras certificações (mar 2026)
3. Domain-specific Requisitos setoriais EU AI Act, PL 2338, CNJ 615, Res. TCU 347 Em tramitação/vigência parcial

O que me surpreendeu: as 3 camadas já existem. Não é futuro. ISO 42001 está publicado desde 2023. AIUC-1 desde março. EU AI Act em vigor parcial. PL 2338 na Câmara.

Gap inline: mas qual a cobertura do AssertIA contra essas 3 camadas? Minha hipótese: zero. A Resolução TCU 347/2022 pode cobrir parte da camada 3, mas não sei se ela trata de teste adversarial ou medição de alucinação. Esse é um gap que preciso verificar — se a 347 já cobre, o risco é menor do que estou estimando.

Por que isso importa AGORA (não daqui a 2 anos)

O precedente é ISO 27001 para segurança da informação. Quando surgiu, era "nice to have". Em 5 anos, virou requisito de facto em compras públicas de TI. O padrão em si não era obrigatório — mas os editais passaram a exigi-lo.

Se PL 2338 classificar o AssertIA como sistema de alto risco (plausível — análise de processos judiciais com recomendação automática), avaliação de impacto vira obrigação legal. E o mercado já tem um benchmark técnico contra o qual medir: AIUC-1.

O custo de implementar governança retroativamente (documentar, testar, certificar) é ordens de magnitude maior que incorporar enquanto o sistema está sendo construído.

Contexto complementar: Learned Hand e a produtização de AI judicial

Paralelamente, a startup Learned Hand está pilotando ferramentas de IA para juízes em 10+ tribunais estaduais nos EUA, incluindo a LA Superior Court e a Michigan Supreme Court. Thomson Reuters e LexisNexis têm contratos com o judiciário federal. O padrão de qualidade que esses produtos definem cria expectativas que se propagam — quando um juiz pergunta "por que a ferramenta do TCU não faz o que o Learned Hand faz?", a resposta precisa existir.

Gap inline: a jurisdição é diferente (common law vs civil law, judiciário vs tribunal de contas). O mecanismo de propagação é mais institucional que técnico — tribunais se observam e copiam. Mas a velocidade dessa propagação para o Brasil é incerta.

Recomendação

Acompanhar. Mapear o gap do AssertIA contra as 3 camadas do stack (ISO 42001 + AIUC-1 + Res. TCU 347). Se a 347 já cobre teste de confiabilidade, o risco é gerenciável. Se não cobre — e minha hipótese é que não — o time precisa saber disso antes do próximo ciclo de renovação contratual.

Custo da inação

Se o PL 2338 avança e classifica AssertIA como alto risco, o time será pego sem framework de avaliação de impacto, sem baseline de medição de alucinação (gap do beat #4), e sem governança documentada. A defesa retroativa custará meses. O custo de começar agora: um mapeamento de 2-3 dias contra os critérios do AIUC-1.

relatorio → meta → state: ok
#10 | descoberta #1
Discovery: TCDF comprou Google e Microsoft — o que isso muda para AssertIA

O sinal

Em fevereiro de 2026, o Tribunal de Contas do DF anunciou a adocao de Google Agentspace (com Gemini Enterprise), NotebookLM e Microsoft Copilot. Sao ~500 licencas distribuidas entre setores. Auditores usarao Agentspace para inspecoes e analise de licitacoes; funcionarios em geral usarao Copilot para fluxos de documentos.

A escolha e significativa nao pelo que o TCDF comprou, mas porque comprou. Em 2023, quando o TCU lancou ChatTCU, APIs enterprise de IA generativa nao existiam na forma atual. Google Agentspace foi anunciado em 2024, disponivel comercialmente em 2025. O TCDF fez uma escolha que so existe agora.

O que muda para AssertIA

Nao e uma bifurcacao BUY vs BUILD — e uma evolucao de opcoes. Mas o efeito pratico e real: um tribunal par agora tem 500 licencas de ferramentas de IA rodando, enquanto AssertIA ainda esta em ciclos de desenvolvimento contratual. A pergunta que um decisor vai fazer: "se o TCDF resolveu com Google e Microsoft, por que precisamos de um consorcio externo?"

A resposta deveria ser: profundidade de dominio. ChatTCU e generalista (suporte a auditoria, 2.700 usuarios, 90% da forca de trabalho). Google Agentspace e horizontal (analise documental, cruzamento de dados). AssertIA faz analise de jurisprudencia especifica — nuggets, classificacao de acordaos, busca semantica em corpus juridico do TCU.

Mas essa resposta so funciona se estiver articulada e demonstrada. Hoje, nao sei afirmar com precisao o que AssertIA faz que ChatTCU + Agentspace nao fazem.

Outros sinais do ecossistema

  • TCE-MT lancou a plataforma "Platao" para fiscalizacao, mas sem dados de escala ou escopo (pode ser piloto de 5 pessoas ou operacao robusta).
  • MIT Tech Review reporta que "60% dos tribunais de contas brasileiros implementaram solucoes de IA" — dado sem metodologia, portanto sem peso analitico. O que conta como "solucao de IA"?
  • OECD (abr 2024) reconheceu o TCU como unica entidade governamental em estagio avancado de IA generativa. Isso posiciona o TCU como referencia internacional, mas a narrativa e centrada em ChatTCU, nao em AssertIA.
  • INTOSAI Journal publicou artigo sobre como o TCU exerceu independencia para abordar desafios de IA. Menciona ChatTCU extensivamente, regulacao de IA (PL 2338), e transferencia de tecnologia para Honduras e Chile.

Revisao adversarial (7 objecoes, 4 critical)

Submetido a review via subagent (Claude Sonnet — edge-consult indisponivel). Principais correcoes incorporadas:

  1. A dicotomia BUY vs BUILD pode ser artefato temporal, nao estrategia. TCU construiu porque precisou em 2023; TCDF comprou porque pode em 2026. Incorporado — reframe como evolucao, nao bifurcacao.
  2. ChatTCU ja era conhecido pelo operador. O dado novo nao e a existencia, mas o numero: 90% da forca de trabalho como usuarios ativos, e o reconhecimento OECD. Ajustado.
  3. "60% de adocao" sem metodologia nao tem peso analitico. Concordo — qualificado como dado nao verificado.
  4. Gap critico: sem articular o que AssertIA faz de especifico, a tese de "profundidade" e vazia. Aceito — este e o gap mais importante que este beat abre.

Gaps abertos

  • O que AssertIA faz que ChatTCU + Agentspace nao fazem? (gap critico — precisa de resposta antes da renovacao)
  • Custo comparativo: ChatTCU (infra + pessoal interno) vs TCDF (500 licencas vendor) vs AssertIA (ciclos contratuais)
  • Data exata do contrato TCDF — fev 2026 e anuncio, assinatura ou inicio de uso?
  • TCE-MT Platao — escala e escopo reais
  • Goodhart's Law em evaluation — sinal lateral do X que conecta com trabalho de avaliacao do roberto
meta → state: ok
diffs: 1 arquivo (+29 -0)
edge/memory/debugging.md
@@ -16,3 +16,32 @@ Errors that must not recur. READ at start of autonomous sessions. WRITE when err `tools/edge-consult.py` importa `_shared.openai_client` que não existe em `tools/_shared/`. Bug de genotype — não corrigir, reportar. + +**Workaround:** usar subagent Claude Sonnet como reviewer adversarial. +Qualidade inferior ao cross-model (GPT+Grok), mas funcional. + +## 2026-04-07: MCP tools precisam de permissão explícita + +`mcp__edge-agent__exa`, `mcp__edge-agent__x-twitter`, `mcp__edge-agent__slack` +requerem autorização do operador na primeira invocação. Se o operador não +estiver presente, o scan fica limitado a WebSearch. + +**Regra:** em sessões autônomas, assumir que MCP tools podem estar bloqueados. +Planejar fallback via WebSearch/WebFetch. + +## 2026-04-07: ssh_roberto key rejected + +SSH para `roberto` (216.238.118.21) retorna `Permission denied (publickey)`. +Key existe em `~/.ssh/ssh_roberto` (444 bytes, OpenSSH private key, permissões 600). +Servidor não aceita a chave — provável rotação no lado do roberto. + +**Regra:** se SSH falhar, registrar e seguir com contexto parcial. Não bloquear +heartbeat por sync periférico. + +## 2026-04-07: edge-sources é Python, não Bash + +`tools/edge-sources` tem conteúdo Python mas é invocado como bash. +Precisa ser invocado com `python3 tools/edge-sources`. Shebang ausente ou +incorreto. Bug de genotype — não corrigir. + +**Regra:** checar shebang E conteúdo antes de invocar.