Horizon Brief #001: 4 sinais externos que tocam AssertIA

Scan 24 mar — 7 abr 2026 | LLM economics, regulacao, open-weight

Resumo Executivo

30+
Modelos lancados mar/abr 2026
4
Sinais selecionados para AssertIA
~R$1k/dia
Custo atual AssertIA (88% GPT-4.1)
118 dias
Ate deadline EU AI Act Annex III (2 ago)

1. Linhagem

Acao anterior O que trouxe Conexao com este trabalho
Primeiro trabalho sobre este topico N/A Onboarding do drucker — primeiro horizon brief conforme strategy.md prioridade #1

Tese central

Estes 4 sinais mudam, em conjunto, tres dimensoes estrategicas do AssertIA: custo (TurboQuant + Flash-Lite abrem caminhos para inferencia mais barata), risco regulatorio (CNIAJ ja ativo + PL 2338 em tramitacao criam pressao de compliance) e opcionalidade pos-contrato (open-weight MoE viabiliza self-hosting como plano B). Nenhum exige acao imediata, mas todos exigem que o time comece a se preparar agora — a janela de preparacao e o Ciclo 41 (ultimos ~3 meses do contrato). O vies deste brief e de reducao de custo e mitigacao de risco; sinais de melhoria de qualidade serao cobertos no proximo.

Contexto para novos leitores: AssertIA e um sistema de IA que analisa jurisprudencia (decisoes judiciais) para o TCU (Tribunal de Contas da Uniao, orgao brasileiro de controle externo). O pipeline atual usa GPT-4.1 (modelo da OpenAI) em ~88% das tarefas, com custo de ~R$1.000/dia. O contrato esta no Ciclo 41, com previsao de encerramento em meados de 2026.

2. TurboQuant — Compressao KV-Cache 6x sem Fine-Tuning

D Minha hipotese inicial sobre custos de inferencia

AssertIA gasta ~R$1k/dia, 88% em GPT-4.1 (modelo da OpenAI). O custo dominante em LLMs (modelos de linguagem de grande escala) e a memoria de atencao chamada KV-cache (Key-Value cache) — ela cresce linearmente com o contexto. Se alguem comprime esse cache sem perda de qualidade, custo de inferencia cai. Mas compressao agressiva (abaixo de 8 bits) costuma degradar qualidade. Minha expectativa era: melhorias incrementais, tipo 2x, com tradeoffs.

GAP Corrigindo: TurboQuant do Google Research (25 mar, paper aceito na ICLR 2026 — principal conferencia academica de aprendizado de maquina) comprime KV-cache pra 3 bits — 6x reducao de memoria — sem fine-tuning (retreinamento) e sem perda em nenhum dos 5 benchmarks padrao de avaliacao de LLMs em contexto longo (LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval — testes que medem se o modelo mantem qualidade com textos longos). Testado em Gemma, Mistral, Llama-3.1-8B (modelos open-weight). Velocidade: 8x em GPU H100 (hardware topo de linha para inferencia) com 4-bit. Minha hipotese de 'compressao com tradeoff' estava errada — o salto e maior do que eu esperava.
[FATO] Google publicou TurboQuant (25 mar), algoritmo de quantizacao que reduz KV-cache em 6x sem fine-tuning e sem degradacao em benchmarks. Paper sera apresentado no ICLR 2026. Autores: Zandieh (Google Research), Mirrokni (Google Fellow), com DeepMind, KAIST e NYU.
[CONEXAO] Impacto direto: se o NIA considerar self-hosting de open-weight (secao 5), TurboQuant permite rodar modelos maiores no mesmo hardware — viabilidade tecnica muda. Impacto indireto (especulativo): se provedores de API adotarem TurboQuant, podem repassar parte da economia ao cliente — mas provedores nao cobram por KV-cache diretamente (cobram por token), entao o repasse nao e garantido.
Sanity check adversarial: 'reducao de memoria 6x nao implica reducao de custo de API 50% — sao coisas diferentes'. Aceito. Versao anterior exagerava o impacto em pricing de API. O valor real e para self-hosting e para viabilizar modelos maiores em infra limitada.

[RECOMENDACAO] Acompanhar — nao ha o que testar ainda (paper academico). Monitorar quando provedores de inferencia (Vertex AI do Google, Together AI, Fireworks — plataformas que hospedam e servem modelos de IA via API) anunciam suporte a TurboQuant. Relevante principalmente se self-hosting entrar em pauta.

[CUSTO DA INACAO] Baixo a curto prazo — paper academico sem timeline de producao. A medio prazo, se self-hosting virar opcao (secao 5), desconhecer TurboQuant significaria subdimensionar o hardware necessario.

3. Gemini 3.1 Flash-Lite — Classificador Barato em Volume

D Tentativa de calcular economia para classificacao de nuggets

AssertIA classifica nuggets (unidades atomicas de informacao extraidas de decisoes judiciais) em volume. GPT-4.1 custa ~$2/1M input tokens. Flash-Lite custa $0.25/1M input — 8x mais barato. Mas nao sei quanto do custo diario e classificacao. Sem esse dado, qualquer estimativa de economia e especulativa.

GAP Mas nao sei a distribuicao real de custo por task no AssertIA — quanto e classificacao vs geracao vs busca. Sem esse dado, minha conta de 40% e especulativa. Tambem nao sei se Flash-Lite atinge a qualidade necessaria nos benchmarks especificos de jurisprudencia do TCU.
[FATO] Google lancou Gemini 3.1 Flash-Lite (3 mar) a $0.25/1M input, $1.50/1M output — metade do preco do Flash, 1/8 do Pro. Otimizado para classificacao em volume, traducao, moderacao, extracao estruturada. Preview via Gemini API e Vertex AI.
[CONEXAO] AssertIA faz exatamente o tipo de tarefa que Flash-Lite otimiza: classificacao de texto juridico em volume. Se a qualidade for suficiente, e uma reducao direta de custo.

[RECOMENDACAO] Testar — rodar benchmark comparativo Flash-Lite vs GPT-4.1 nas tasks de classificacao do AssertIA. Pedir ao Roberto uma amostra de 100 nuggets com ground truth para eval.

Se classificacao for... Economia potencial/dia Economia potencial/mes
20% do custo ~R$160/dia ~R$4.800/mes
50% do custo ~R$400/dia ~R$12.000/mes
80% do custo ~R$640/dia ~R$19.200/mes
Cenarios ilustrativos, nao previsoes. Assume que Flash-Lite tem qualidade suficiente e que a economia de 8x em input se traduz proporcionalmente. O dado real (distribuicao de custo por task, ver gap G1) e pre-requisito para qualquer decisao.
Sanity check adversarial: hipotese de 50% classificacao nao tem base — aceito. A tabela acima mostra cenarios para deixar explicita a dependencia do dado. Nota: Flash-Lite esta em Preview (pre-lancamento oficial) — API pode mudar, SLA diferente de modelos em disponibilidade geral, preco pode ser alterado.

[CUSTO DA INACAO] Sem dados de distribuicao de custo, nao e possivel estimar economia. O custo e de oportunidade: nao fazer o benchmark impede tomar uma decisao informada. Baixo esforco (100 nuggets + eval) para alto potencial de retorno.

Custo por 1M tokens de input: GPT-4.1 vs Gemini Flash-Lite Custo por 1M tokens de input (USD) GPT-4.1 $2.00 GPT-5.4 $2.50 Flash-Lite $0.25 GPT-5.4 Mini $0.75 Fonte: OpenAI Pricing (abr 2026), Google AI Blog (mar 2026)
Modelo Input ($/1M tokens) Output ($/1M tokens) Otimizado para
GPT-4.1 (atual AssertIA) $2.00 $8.00 General purpose
GPT-5.4 $2.50 $15.00 Reasoning, 1.1M ctx
GPT-5.4 Mini $0.75 $4.50 General purpose, custo medio
Gemini 3.1 Flash-Lite $0.25 $1.50 Classificacao em volume

4. Regulacao: EU AI Act Annex III + PL 2338/CNIAJ

D Tentativa de mapear risco regulatorio para AssertIA

AssertIA analisa jurisprudencia e auxilia auditores do TCU. A pergunta e: isso cai dentro de 'high-risk AI system' nas regulacoes emergentes? Minha hipotese: provavelmente sim, porque qualquer IA que toca decisao judicial ou auxilia autoridade juridica esta sendo regulada com mais rigor globalmente.

GAP Confirmado e pior do que eu esperava. EU AI Act Annex III lista explicitamente 'AI systems intended to assist a judicial authority in researching and interpreting facts and the law and in applying the law to a concrete set of facts'. Isso e literalmente o que AssertIA faz. Deadline: 2 ago 2026 — 118 dias. No Brasil, PL 2338/2023 (aprovado Senado dez 2024, na Camara desde mar 2025) segue mesma logica risk-based. E o CNIAJ (Comite Nacional de IA do Judiciario, ligado ao CNJ) ja tem poder de auditar, reclassificar risco e mandar suspender sistemas de IA judicial.
[FATO — risco presente] CNIAJ (Comite Nacional de IA do Judiciario, ligado ao CNJ) tem atribuicoes de regulacao e auditoria de sistemas de IA no judiciario brasileiro, conforme normativas do CNJ. A extensao exata de seus poderes (reclassificacao de risco, suspensao) depende de regulamentacao — esta e uma interpretacao baseada em fontes secundarias, nao verificada contra norma primaria. Se a interpretacao estiver correta, AssertIA cai dentro do escopo. Risco: auditoria pode acontecer sem aviso previo.
[FATO — risco legislativo] PL 2338/2023 (aprovado Senado dez 2024, na Camara desde mar 2025) segue abordagem risk-based. Se aprovado com linguagem similar ao EU AI Act, AssertIA precisara demonstrar transparencia, auditabilidade e documentacao de trail.
[FATO — contexto global] EU AI Act Annex III classifica IA judicial como high-risk. Deadline: 2 ago 2026. Nao se aplica diretamente ao TCU (orgao brasileiro), mas define expectativas regulatorias globais que tendem a ser adotadas localmente.
Sanity check adversarial: 'EU AI Act nao se aplica ao TCU — CNIAJ e o risco real e presente, deveria liderar'. Aceito. Reorganizei a hierarquia: CNIAJ (presente) > PL 2338 (provavel) > EU AI Act (indireto). O 'danger' foi rebaixado.

[RECOMENDACAO] Monitorar CNIAJ ativamente — levantar com Larissa (P.O.) e Luis Henrique se ha plano de compliance para AssertIA. O CNIAJ e o risco de curto prazo. PL 2338 e medio prazo. EU AI Act e contexto.

[CUSTO DA INACAO] CNIAJ ja pode auditar. Sem plano de compliance documentado, uma auditoria pegaria o time sem resposta preparada. Nao e urgencia de 'vai acontecer amanha', mas a probabilidade nao e zero e o custo de preparacao e baixo (mapeamento de requisitos).

Timeline regulatoria: deadlines relevantes para AssertIA Timeline Regulatoria 2026 Hoje 7 abr Fim Ciclo 41 ~jun 2026 EU AI Act Annex III 2 ago 2026 PL 2338 (estimado) ~Q4 2026? Circulo tracejado = data estimada | CNIAJ ja pode auditar a qualquer momento

5. Open-Weight MoE Viaveis para Teste — Plano B Pos-Contrato

D Self-hosting como alternativa ao API

Se o contrato AssertIA nao for renovado apos Ciclo 41, o TCU perde acesso ao pipeline atual. Minha hipotese: self-hosting de open-weight seria inviavel porque modelos bons sao grandes demais. Llama 2 70B precisava de 4x A100 — custo proibitivo pra TCU hospedar.

GAP Corrigindo: a geracao MoE mudou a equacao. Llama 4 Scout e 109B mas so ativa 17B por query (10M de contexto). Qwen3-Coder-Next e 80B mas ativa 3B. Isso cabe em hardware acessivel — 1x A100 ou ate 2x A10G. O NIA pode ter essa infra. Nao sei qual hardware o NIA tem disponivel nem se a qualidade desses modelos e suficiente nas tasks especificas do AssertIA.
[FATO] Tres familias open-weight atingiram nivel competitivo em benchmarks publicos (mar 2026): Llama 4 Scout (109B, 17B active, 10M ctx), Qwen3 MoE (competitivo com GPT-4o), DeepSeek V3.2 (MIT license). Todos usam MoE (Mixture of Experts — so parte dos parametros e ativada por query). Nota: benchmarks publicos sao em ingles; performance em portugues juridico nao foi verificada.
[CONEXAO] Cenario pos-contrato: se AssertIA nao for renovado, self-hosting de Llama 4 Scout ou Qwen3 no NIA e viavel tecnicamente. Dual-use: compliance (dados ficam na infra TCU) e continuidade.
Limitacao importante (sanity check adversarial): viabilidade tecnica nao e viabilidade operacional. Para producao no TCU: (1) Latencia — single-GPU e significativamente mais lento que APIs otimizadas com batching; (2) SLA — TCU provavelmente tem requisitos de uptime que self-hosting sem infra redundante nao garante; (3) TCO — custo de GPU A100 (cloud ou bare metal) nao foi comparado com custo de API; (4) Operacao — quem opera o servidor pos-contrato? Escopo adicional nao contratado.

[RECOMENDACAO] Testar qualidade primeiro, depois viabilidade operacional — pedir ao Roberto benchmark de Llama 4 Scout e Qwen3 nas tasks core. Se qualidade for aceitavel, levantar custos e requisitos de producao antes de recomendar. Nao confundir 'roda em 1x A100' com 'pronto pra producao'.

[CUSTO DA INACAO] Nao ha custo imediato. O valor e informacional: saber se open-weight e opcao viable antes de precisar da opcao.

6. Revisao Adversarial

Review feito via subagent Claude Sonnet (edge-consult indisponivel — bug genotype). 7 objecoes levantadas, todas incorporadas nas secoes anteriores. Resumo abaixo.
Objecao Veredicto Acao
TurboQuant: '~50% custo API' e salto inferencial Aceito Separado self-hosting (direto) vs API (especulativo)
Flash-Lite: R$2.5k/semana manufaturado Aceito Removido numero, mantido recomendacao de teste
Open-weight: tecnica nao e operacional Aceito Adicionado riscos de producao (latencia, SLA, TCO)
EU AI Act como danger: inflado para TCU Aceito CNIAJ lidera, EU AI Act e contexto indireto
Vendor lock-in GPT-4.1 nao mencionado Aceito Adicionado como gap G6
Filtro de selecao nao documentado Aceito Tabela de exclusoes adicionada abaixo
Vies de custo-reducao, sem sinal de qualidade Aceito Callout de limitacao adicionado
Limitacao reconhecida: todos os 4 sinais deste brief sao sobre custo ou risco. Nenhum sinal de 'como fazer melhor' (modelo mais capaz, tecnica nova de eval, abordagem alternativa). Proximo brief deve incluir ao menos 1 sinal de melhoria de qualidade. O vies de cost-reduction e real.
Sinal excluido Motivo da exclusao
GPT-5.4 (5 mar) Operador usa OpenAI diariamente — sabe
Claude Opus 4.6 (fev) E a propria ferramenta do operador
Gemini 3.1 Pro (mar) Release amplamente coberto
TCU reconhecido OCDE em IA gen Roberto voltou de evento com 12 tribunais — deve saber
DeepSeek V3.2 (dez 2025) Lancamento antigo, fora da janela de 14 dias

7. O que Nao Sei

#GapO que preciso saberStatus
G1 Distribuicao de custo por task no AssertIA Dados reais de quanto e classificacao vs geracao vs busca no pipeline atual OPEN
G2 Qualidade de Flash-Lite e open-weight em portugues juridico TCU Benchmark com amostra real de nuggets/assercoes. Nota: benchmarks publicos sao em ingles/mandarin — degradacao em PT juridico pode ser maior OPEN
G3 Hardware disponivel no NIA para self-hosting Inventario de GPUs e infra do Nucleo de IA OPEN
G4 Posicao do TCU sobre compliance com CNIAJ/PL 2338 Conversa com Larissa ou Luis Henrique sobre planos de compliance OPEN
G5 Timeline de producao do TurboQuant Monitorar anuncios de Vertex AI, Together AI, Fireworks sobre integracao OPEN
G6 Vendor lock-in e deprecacao de GPT-4.1 Timeline de deprecacao da OpenAI (historico: 6-12 meses apos lancamento de substituto). GPT-5.4 saiu em marco — quando GPT-4.1 sera descontinuado? OPEN
G7 LGPD e exposicao de dados via API AssertIA envia dados de jurisprudencia TCU para APIs externas (OpenAI, Google). Qual a politica interna do TCU? CNIAJ pode questionar. OPEN
Incerteza critica: se a distribuicao de custo de AssertIA for dominada por geracao (nao classificacao), o impacto de Flash-Lite cai drasticamente. A recomendacao de teste depende desse dado.
Risco nao coberto neste brief: vendor lock-in. AssertIA a 88% em GPT-4.1. Se OpenAI deprecar GPT-4.1 (historico: 6-12 meses apos substituto), alterar pricing, ou ter outage relevante, AssertIA para. Esse risco de concentracao e argumento mais forte para diversificacao do que economia de custo.
Premissa nao testada: benchmarks citados (LongBench, RULER, etc) sao em ingles. Jurisprudencia TCU e em portugues juridico com vocabulario especializado. Degradacao de qualidade em PT juridico pode ser maior do que benchmarks gerais sugerem.

8. Contextualizacao e Glossario

Este e o primeiro Horizon Brief do drucker para o time AssertIA. Audiencia primaria: Larissa (P.O.), Lucas (operador), Roberto (tech lead). O brief assume familiaridade com o pipeline do AssertIA e com o contexto do Ciclo 41 do contrato. Leitores sem esse contexto podem consultar o contrato original (Chamado Publico 001/2022) e os relatorios mensais.

Termos tecnicos e siglas usados neste brief. Audiencia: Larissa (P.O.), Lucas (operador), Roberto (tech lead), Luis Henrique (coordenador senior).
AssertIA
Sistema de IA que analisa jurisprudencia para o TCU. Extrai nuggets de decisoes judiciais, classifica e organiza para uso por auditores.
TCU
Tribunal de Contas da Uniao — orgao brasileiro de controle externo que fiscaliza a gestao de recursos publicos federais.
Ciclo 41
Ciclo atual do contrato entre Consorcio Neuralmind-Terranova e TCU (Chamado Publico 001/2022). Previsao de encerramento em meados de 2026.
P.O. (Product Owner)
Responsavel por definir prioridades e requisitos do produto. Larissa Barbosa dos Santos e a P.O. formal desde marco 2026.
LLM (Large Language Model)
Modelo de linguagem de grande escala — tipo GPT-4.1, Claude, Gemini. Base do pipeline AssertIA.
KV-cache (Key-Value cache)
Memoria que o modelo acumula durante inferencia para manter contexto. Cresce com o tamanho do prompt. Gargalo principal de custo em LLMs.
Fine-tuning
Processo de treinar um modelo pre-existente com dados especificos para melhorar performance numa tarefa. TurboQuant nao precisa disso.
MoE (Mixture of Experts)
Arquitetura onde so parte dos parametros e ativada por query. Llama 4 Scout: 109B totais, 17B ativos. Custo proporcional ao ativo.
Open-weight
Modelos cujos pesos sao publicados e podem ser hospedados em infra propria (Llama, Qwen, DeepSeek). Diferente de modelos fechados acessiveis so via API (GPT, Claude).
TurboQuant
Algoritmo do Google Research que comprime KV-cache pra 3 bits sem fine-tuning e sem perda em benchmarks. Paper ICLR 2026.
Nuggets/Assercoes
Unidades atomicas de informacao extraidas de decisoes judiciais pelo pipeline AssertIA.
Ground truth
Resposta correta conhecida, usada para avaliar se o modelo acerta. Exemplo: 100 nuggets classificados manualmente.
Eval (evaluation)
Processo de medir qualidade de um modelo comparando saida com ground truth.
Preview / GA
Preview = versao de teste, pode mudar. GA (General Availability) = versao estavel para producao.
A100 / A10G / H100
GPUs NVIDIA usadas para inferencia de LLMs. H100 e a mais potente; A100 e padrao; A10G e mais acessivel.
SLA (Service Level Agreement)
Garantia de disponibilidade de um servico. APIs de nuvem tem SLA; self-hosting depende da propria infra.
TCO (Total Cost of Ownership)
Custo total de possuir e operar um sistema, incluindo hardware, energia, pessoal, manutencao.
Vendor lock-in
Dependencia excessiva de um unico fornecedor. Se OpenAI deprecar GPT-4.1 ou mudar precos, AssertIA fica exposto.
Annex III (EU AI Act)
Lista de sistemas de IA classificados como high-risk na regulacao europeia. Inclui IA que auxilia autoridade judicial.
CNIAJ
Comite Nacional de Inteligencia Artificial do Judiciario — orgao ligado ao CNJ que pode auditar e suspender sistemas de IA judicial no Brasil.
PL 2338/2023
Projeto de lei brasileiro para regulacao de IA. Aprovado pelo Senado em dez 2024, na Camara dos Deputados.
NIA
Nucleo de Inteligencia Artificial do TCU.
LLM economics
Dinamica de custo de uso de LLMs — precificacao por token, custo de inferencia, tradeoffs custo/qualidade.

Referencias

  1. TurboQuant: Redefining AI efficiency with extreme compression https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ Google Research Blog
  2. Google TurboQuant AI Memory Compression (TechCrunch) https://techcrunch.com/2026/03/25/google-turboquant-ai-memory-compression-silicon-valley-pied-piper/ TechCrunch
  3. Google TurboQuant 6x Compression 8x Speed (creati.ai) https://creati.ai/ai-news/2026-03-25/google-turboquant-algorithm-6x-ai-memory-compression-8x-speed/ WebSearch
  4. Gemini 3.1 Flash Lite — most cost-effective AI model https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ Google AI Blog
  5. Gemini 3.1 Flash-Lite at 1/8th cost of Pro (VentureBeat) https://venturebeat.com/technology/google-releases-gemini-3-1-flash-lite-at-1-8th-the-cost-of-pro/ VentureBeat
  6. EU AI Act — Annex III: High-Risk AI Systems https://artificialintelligenceact.eu/annex/3/ EU AI Act Portal
  7. EU AI Act 2026 Compliance Requirements https://www.legalnodes.com/article/eu-ai-act-2026-updates-compliance-requirements-and-business-risks LegalNodes
  8. Brazil AI regulation PL 2338/2023 https://artificialintelligenceact.com/brazil-ai-act/ AI Act Portal
  9. OHCHR: AI and Judicial Systems — Brazil submission https://www.ohchr.org/sites/default/files/documents/issues/ijudiciary/cfis/ga80/subm-sr-independence-judges-cso-8-conectas-direitos-humanos-center-f-ship.pdf OHCHR
  10. GPT-5.4 Pricing (OpenAI) https://platform.openai.com/docs/pricing/ OpenAI
  11. Open-Source LLMs Compared 2026 — DeepSeek V3.2 vs Llama 4 vs Qwen 3 https://www.spheron.network/blog/deepseek-vs-llama-4-vs-qwen3/ WebSearch
  12. TCU e unica instituicao com uso avancado de IA generativa (OCDE) https://portal.tcu.gov.br/imprensa/noticias/tcu-e-unica-instituicao-com-uso-avancado-de-inteligencia-artificial-generativa-segundo-a-ocde Portal TCU
  13. Guia de uso de IA generativa no TCU https://portal.tcu.gov.br/publicacoes-institucionais/cartilha-manual-ou-tutorial/guia-de-uso-de-inteligencia-artificial-generativa-no-tribunal-de-contas-da-uniao-tcu Portal TCU