Resumo Executivo
- Periodo: 24 mar — 7 abr 2026 (14 dias)
- Fontes: WebSearch (HN, arXiv, release pages), Google Research Blog, OpenAI Pricing, EU AI Act portal, TCU portal, legislacao brasileira
- Resultado: 4 sinais selecionados de ~30 model releases e dezenas de papers. Filtro aplicado: 'o operador teria descoberto sozinho esta semana?'
- Itens de acao: 2 recomendacoes de teste (Flash-Lite, open-weight), 1 monitoramento regulatorio, 1 acompanhamento tecnico (TurboQuant)
1. Linhagem
| Acao anterior | O que trouxe | Conexao com este trabalho |
|---|---|---|
| Primeiro trabalho sobre este topico | N/A | Onboarding do drucker — primeiro horizon brief conforme strategy.md prioridade #1 |
Tese central
Estes 4 sinais mudam, em conjunto, tres dimensoes estrategicas do AssertIA: custo (TurboQuant + Flash-Lite abrem caminhos para inferencia mais barata), risco regulatorio (CNIAJ ja ativo + PL 2338 em tramitacao criam pressao de compliance) e opcionalidade pos-contrato (open-weight MoE viabiliza self-hosting como plano B). Nenhum exige acao imediata, mas todos exigem que o time comece a se preparar agora — a janela de preparacao e o Ciclo 41 (ultimos ~3 meses do contrato). O vies deste brief e de reducao de custo e mitigacao de risco; sinais de melhoria de qualidade serao cobertos no proximo.
Contexto para novos leitores: AssertIA e um sistema de IA que analisa jurisprudencia (decisoes judiciais) para o TCU (Tribunal de Contas da Uniao, orgao brasileiro de controle externo). O pipeline atual usa GPT-4.1 (modelo da OpenAI) em ~88% das tarefas, com custo de ~R$1.000/dia. O contrato esta no Ciclo 41, com previsao de encerramento em meados de 2026.
2. TurboQuant — Compressao KV-Cache 6x sem Fine-Tuning
AssertIA gasta ~R$1k/dia, 88% em GPT-4.1 (modelo da OpenAI). O custo dominante em LLMs (modelos de linguagem de grande escala) e a memoria de atencao chamada KV-cache (Key-Value cache) — ela cresce linearmente com o contexto. Se alguem comprime esse cache sem perda de qualidade, custo de inferencia cai. Mas compressao agressiva (abaixo de 8 bits) costuma degradar qualidade. Minha expectativa era: melhorias incrementais, tipo 2x, com tradeoffs.
[RECOMENDACAO] Acompanhar — nao ha o que testar ainda (paper academico). Monitorar quando provedores de inferencia (Vertex AI do Google, Together AI, Fireworks — plataformas que hospedam e servem modelos de IA via API) anunciam suporte a TurboQuant. Relevante principalmente se self-hosting entrar em pauta.
[CUSTO DA INACAO] Baixo a curto prazo — paper academico sem timeline de producao. A medio prazo, se self-hosting virar opcao (secao 5), desconhecer TurboQuant significaria subdimensionar o hardware necessario.
3. Gemini 3.1 Flash-Lite — Classificador Barato em Volume
AssertIA classifica nuggets (unidades atomicas de informacao extraidas de decisoes judiciais) em volume. GPT-4.1 custa ~$2/1M input tokens. Flash-Lite custa $0.25/1M input — 8x mais barato. Mas nao sei quanto do custo diario e classificacao. Sem esse dado, qualquer estimativa de economia e especulativa.
[RECOMENDACAO] Testar — rodar benchmark comparativo Flash-Lite vs GPT-4.1 nas tasks de classificacao do AssertIA. Pedir ao Roberto uma amostra de 100 nuggets com ground truth para eval.
| Se classificacao for... | Economia potencial/dia | Economia potencial/mes |
|---|---|---|
| 20% do custo | ~R$160/dia | ~R$4.800/mes |
| 50% do custo | ~R$400/dia | ~R$12.000/mes |
| 80% do custo | ~R$640/dia | ~R$19.200/mes |
[CUSTO DA INACAO] Sem dados de distribuicao de custo, nao e possivel estimar economia. O custo e de oportunidade: nao fazer o benchmark impede tomar uma decisao informada. Baixo esforco (100 nuggets + eval) para alto potencial de retorno.
| Modelo | Input ($/1M tokens) | Output ($/1M tokens) | Otimizado para |
|---|---|---|---|
| GPT-4.1 (atual AssertIA) | $2.00 | $8.00 | General purpose |
| GPT-5.4 | $2.50 | $15.00 | Reasoning, 1.1M ctx |
| GPT-5.4 Mini | $0.75 | $4.50 | General purpose, custo medio |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | Classificacao em volume |
4. Regulacao: EU AI Act Annex III + PL 2338/CNIAJ
AssertIA analisa jurisprudencia e auxilia auditores do TCU. A pergunta e: isso cai dentro de 'high-risk AI system' nas regulacoes emergentes? Minha hipotese: provavelmente sim, porque qualquer IA que toca decisao judicial ou auxilia autoridade juridica esta sendo regulada com mais rigor globalmente.
[RECOMENDACAO] Monitorar CNIAJ ativamente — levantar com Larissa (P.O.) e Luis Henrique se ha plano de compliance para AssertIA. O CNIAJ e o risco de curto prazo. PL 2338 e medio prazo. EU AI Act e contexto.
[CUSTO DA INACAO] CNIAJ ja pode auditar. Sem plano de compliance documentado, uma auditoria pegaria o time sem resposta preparada. Nao e urgencia de 'vai acontecer amanha', mas a probabilidade nao e zero e o custo de preparacao e baixo (mapeamento de requisitos).
5. Open-Weight MoE Viaveis para Teste — Plano B Pos-Contrato
Se o contrato AssertIA nao for renovado apos Ciclo 41, o TCU perde acesso ao pipeline atual. Minha hipotese: self-hosting de open-weight seria inviavel porque modelos bons sao grandes demais. Llama 2 70B precisava de 4x A100 — custo proibitivo pra TCU hospedar.
[RECOMENDACAO] Testar qualidade primeiro, depois viabilidade operacional — pedir ao Roberto benchmark de Llama 4 Scout e Qwen3 nas tasks core. Se qualidade for aceitavel, levantar custos e requisitos de producao antes de recomendar. Nao confundir 'roda em 1x A100' com 'pronto pra producao'.
[CUSTO DA INACAO] Nao ha custo imediato. O valor e informacional: saber se open-weight e opcao viable antes de precisar da opcao.
6. Revisao Adversarial
| Objecao | Veredicto | Acao |
|---|---|---|
| TurboQuant: '~50% custo API' e salto inferencial | Aceito | Separado self-hosting (direto) vs API (especulativo) |
| Flash-Lite: R$2.5k/semana manufaturado | Aceito | Removido numero, mantido recomendacao de teste |
| Open-weight: tecnica nao e operacional | Aceito | Adicionado riscos de producao (latencia, SLA, TCO) |
| EU AI Act como danger: inflado para TCU | Aceito | CNIAJ lidera, EU AI Act e contexto indireto |
| Vendor lock-in GPT-4.1 nao mencionado | Aceito | Adicionado como gap G6 |
| Filtro de selecao nao documentado | Aceito | Tabela de exclusoes adicionada abaixo |
| Vies de custo-reducao, sem sinal de qualidade | Aceito | Callout de limitacao adicionado |
| Sinal excluido | Motivo da exclusao |
|---|---|
| GPT-5.4 (5 mar) | Operador usa OpenAI diariamente — sabe |
| Claude Opus 4.6 (fev) | E a propria ferramenta do operador |
| Gemini 3.1 Pro (mar) | Release amplamente coberto |
| TCU reconhecido OCDE em IA gen | Roberto voltou de evento com 12 tribunais — deve saber |
| DeepSeek V3.2 (dez 2025) | Lancamento antigo, fora da janela de 14 dias |
7. O que Nao Sei
| # | Gap | O que preciso saber | Status |
|---|---|---|---|
| G1 | Distribuicao de custo por task no AssertIA | Dados reais de quanto e classificacao vs geracao vs busca no pipeline atual | OPEN |
| G2 | Qualidade de Flash-Lite e open-weight em portugues juridico TCU | Benchmark com amostra real de nuggets/assercoes. Nota: benchmarks publicos sao em ingles/mandarin — degradacao em PT juridico pode ser maior | OPEN |
| G3 | Hardware disponivel no NIA para self-hosting | Inventario de GPUs e infra do Nucleo de IA | OPEN |
| G4 | Posicao do TCU sobre compliance com CNIAJ/PL 2338 | Conversa com Larissa ou Luis Henrique sobre planos de compliance | OPEN |
| G5 | Timeline de producao do TurboQuant | Monitorar anuncios de Vertex AI, Together AI, Fireworks sobre integracao | OPEN |
| G6 | Vendor lock-in e deprecacao de GPT-4.1 | Timeline de deprecacao da OpenAI (historico: 6-12 meses apos lancamento de substituto). GPT-5.4 saiu em marco — quando GPT-4.1 sera descontinuado? | OPEN |
| G7 | LGPD e exposicao de dados via API | AssertIA envia dados de jurisprudencia TCU para APIs externas (OpenAI, Google). Qual a politica interna do TCU? CNIAJ pode questionar. | OPEN |
8. Contextualizacao e Glossario
Este e o primeiro Horizon Brief do drucker para o time AssertIA. Audiencia primaria: Larissa (P.O.), Lucas (operador), Roberto (tech lead). O brief assume familiaridade com o pipeline do AssertIA e com o contexto do Ciclo 41 do contrato. Leitores sem esse contexto podem consultar o contrato original (Chamado Publico 001/2022) e os relatorios mensais.
- AssertIA
- Sistema de IA que analisa jurisprudencia para o TCU. Extrai nuggets de decisoes judiciais, classifica e organiza para uso por auditores.
- TCU
- Tribunal de Contas da Uniao — orgao brasileiro de controle externo que fiscaliza a gestao de recursos publicos federais.
- Ciclo 41
- Ciclo atual do contrato entre Consorcio Neuralmind-Terranova e TCU (Chamado Publico 001/2022). Previsao de encerramento em meados de 2026.
- P.O. (Product Owner)
- Responsavel por definir prioridades e requisitos do produto. Larissa Barbosa dos Santos e a P.O. formal desde marco 2026.
- LLM (Large Language Model)
- Modelo de linguagem de grande escala — tipo GPT-4.1, Claude, Gemini. Base do pipeline AssertIA.
- KV-cache (Key-Value cache)
- Memoria que o modelo acumula durante inferencia para manter contexto. Cresce com o tamanho do prompt. Gargalo principal de custo em LLMs.
- Fine-tuning
- Processo de treinar um modelo pre-existente com dados especificos para melhorar performance numa tarefa. TurboQuant nao precisa disso.
- MoE (Mixture of Experts)
- Arquitetura onde so parte dos parametros e ativada por query. Llama 4 Scout: 109B totais, 17B ativos. Custo proporcional ao ativo.
- Open-weight
- Modelos cujos pesos sao publicados e podem ser hospedados em infra propria (Llama, Qwen, DeepSeek). Diferente de modelos fechados acessiveis so via API (GPT, Claude).
- TurboQuant
- Algoritmo do Google Research que comprime KV-cache pra 3 bits sem fine-tuning e sem perda em benchmarks. Paper ICLR 2026.
- Nuggets/Assercoes
- Unidades atomicas de informacao extraidas de decisoes judiciais pelo pipeline AssertIA.
- Ground truth
- Resposta correta conhecida, usada para avaliar se o modelo acerta. Exemplo: 100 nuggets classificados manualmente.
- Eval (evaluation)
- Processo de medir qualidade de um modelo comparando saida com ground truth.
- Preview / GA
- Preview = versao de teste, pode mudar. GA (General Availability) = versao estavel para producao.
- A100 / A10G / H100
- GPUs NVIDIA usadas para inferencia de LLMs. H100 e a mais potente; A100 e padrao; A10G e mais acessivel.
- SLA (Service Level Agreement)
- Garantia de disponibilidade de um servico. APIs de nuvem tem SLA; self-hosting depende da propria infra.
- TCO (Total Cost of Ownership)
- Custo total de possuir e operar um sistema, incluindo hardware, energia, pessoal, manutencao.
- Vendor lock-in
- Dependencia excessiva de um unico fornecedor. Se OpenAI deprecar GPT-4.1 ou mudar precos, AssertIA fica exposto.
- Annex III (EU AI Act)
- Lista de sistemas de IA classificados como high-risk na regulacao europeia. Inclui IA que auxilia autoridade judicial.
- CNIAJ
- Comite Nacional de Inteligencia Artificial do Judiciario — orgao ligado ao CNJ que pode auditar e suspender sistemas de IA judicial no Brasil.
- PL 2338/2023
- Projeto de lei brasileiro para regulacao de IA. Aprovado pelo Senado em dez 2024, na Camara dos Deputados.
- NIA
- Nucleo de Inteligencia Artificial do TCU.
- LLM economics
- Dinamica de custo de uso de LLMs — precificacao por token, custo de inferencia, tradeoffs custo/qualidade.
Referencias
- TurboQuant: Redefining AI efficiency with extreme compression https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/ Google Research Blog
- Google TurboQuant AI Memory Compression (TechCrunch) https://techcrunch.com/2026/03/25/google-turboquant-ai-memory-compression-silicon-valley-pied-piper/ TechCrunch
- Google TurboQuant 6x Compression 8x Speed (creati.ai) https://creati.ai/ai-news/2026-03-25/google-turboquant-algorithm-6x-ai-memory-compression-8x-speed/ WebSearch
- Gemini 3.1 Flash Lite — most cost-effective AI model https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/ Google AI Blog
- Gemini 3.1 Flash-Lite at 1/8th cost of Pro (VentureBeat) https://venturebeat.com/technology/google-releases-gemini-3-1-flash-lite-at-1-8th-the-cost-of-pro/ VentureBeat
- EU AI Act — Annex III: High-Risk AI Systems https://artificialintelligenceact.eu/annex/3/ EU AI Act Portal
- EU AI Act 2026 Compliance Requirements https://www.legalnodes.com/article/eu-ai-act-2026-updates-compliance-requirements-and-business-risks LegalNodes
- Brazil AI regulation PL 2338/2023 https://artificialintelligenceact.com/brazil-ai-act/ AI Act Portal
- OHCHR: AI and Judicial Systems — Brazil submission https://www.ohchr.org/sites/default/files/documents/issues/ijudiciary/cfis/ga80/subm-sr-independence-judges-cso-8-conectas-direitos-humanos-center-f-ship.pdf OHCHR
- GPT-5.4 Pricing (OpenAI) https://platform.openai.com/docs/pricing/ OpenAI
- Open-Source LLMs Compared 2026 — DeepSeek V3.2 vs Llama 4 vs Qwen 3 https://www.spheron.network/blog/deepseek-vs-llama-4-vs-qwen3/ WebSearch
- TCU e unica instituicao com uso avancado de IA generativa (OCDE) https://portal.tcu.gov.br/imprensa/noticias/tcu-e-unica-instituicao-com-uso-avancado-de-inteligencia-artificial-generativa-segundo-a-ocde Portal TCU
- Guia de uso de IA generativa no TCU https://portal.tcu.gov.br/publicacoes-institucionais/cartilha-manual-ou-tutorial/guia-de-uso-de-inteligencia-artificial-generativa-no-tribunal-de-contas-da-uniao-tcu Portal TCU