Aviso de calibragem antes de começar
Este é um exercício de interpretação de uma reunião de 1h06 com três participantes. Dois reviewers adversariais (GPT-5.4 + Grok-4.20-multi-agent) apontaram o mesmo buraco: eu não tenho dado quantitativo pra afirmar diagnóstico sistêmico. Sem inventário de salas, sem taxa de continuidade pós-estagiário, sem número de usuários ativos, sem histórico de incidentes, qualquer conclusão aqui é leitura, não medição. Tratei a seção 3 abaixo ("nomeação dos sinais") nesse registro. A proposta final sobrevive a isso porque é justamente pra fechar esse gap.
Os reviewers também fizeram um steelman que eu quero registrar no topo em vez de esconder no meio: o modelo atual — descentralizado, sem cadência compartilhada, sem critério único de pronto, cada unidade com seu estagiário — pode ser o estágio correto pra fase de exploração em que o projeto ainda está. Padronizar cedo demais congela aprendizado, impõe overhead, e pode afugentar as poucas pessoas que estão fazendo a coisa funcionar. Esse é o argumento mais forte contra minha leitura. Não acho que vence, mas vou explicitar por quê abaixo.
O contexto da reunião
Hoje (10/04) houve reunião entre Lucas, Guilherme Braga Lopes e Solange Santolin. 1h06, 409 turnos de fala, em formato VTT (meu include list estava quebrado — corrigido no beat anterior). Não teve Larissa, não teve Raja, não teve Roberto. É uma conversa de ajuste operacional: Lucas reportando o que está emergindo nas salas de cada unidade, Guilherme e Solange trazendo o retorno da semana com auditores que estão testando.
Três falas ancoram a análise. A ambição, o gargalo estrutural e o medo:
(Lucas) "imagina que o pessoal tá usando a gente de laboratório para botar isso no TCU inteiro... no TCU inteiro pode ter 50 processos desse rodando ao mesmo tempo. Ele tem que ser gerenciável."
(Guilherme) "a gente não tem gente e acho que não vai ter num futuro bem; esse perfil de codificação é raro, muito raro."
(Lucas) "eu estou com muito medo de, não sei, talvez o processo não seja rigoroso o suficiente, dar besteira e cair isso em nome do sistema."
A primeira é pra onde o projeto quer ir. A segunda é uma restrição de talento, não de processo — o que é um ponto importante que eu subvalorizei na versão inicial. Formalizar rituais não cria gente. A terceira é o risco de produto. Entre as três falas existe um trabalho a fazer, mas o tamanho e o tipo desse trabalho dependem de como elas se relacionam — e essa relação ainda é hipótese, não diagnóstico.
Sinais que a reunião trouxe — ordenados por risco material, não por narrativa
Revisando ordem depois do adversarial: processo vem no fim, não no começo. Risco material e dependência estrutural vêm antes.
A. Triagem de cautelar — hipótese forte, ainda não demonstrada
1. Pode ser a primeira sala decisória — ou pode ser só mais uma assistiva. Ainda não sei. Lucas mapeou com Italo: a Auditoria de Contratações recebe representações com pedido de cautelar (3% deferidas), prazo de 5 dias. A proposta é automatizar 2 dos 3 critérios — periculum in mora + inverso; plausibilidade jurídica fica fora por ser análise jurídica, o próprio Italo excluiu.
Onde minha versão anterior errou (e o adversarial round-2 pegou): eu chamei isso de "primeira sala decisória" como se fosse fato consumado. Não é. É hipótese. Falta mostrar como a saída da IA entra no fluxo real do auditor. As possibilidades mudam tudo:
- Pré-preenchimento de despacho que o auditor sempre lê, edita e assina → assistiva, override default, risco baixo. Moldura de "laboratório" sobrevive.
- Recomendação ranqueada ("estas 3 representações podem ser descaracterizadas") → triagem assistiva com auditor como gate. Risco moderado, depende do grau de auto-aceite.
- Sinalização silenciosa que afeta priorização sem o auditor perceber (ordem da fila, cor de ícone) → decisório sub-reptício. Risco alto, porque a influência não é visível.
- Bloqueio ou pré-seleção automática sem revisão plena → decisório material. Aí o framing de "laboratório" quebra.
O meeting não explicitou qual das quatro. Lucas disse "fazer uma triagem muito rápida ali sobre se consegue rapidamente descaracterizar algum elemento da cautelar para já fazer uma pré-análise". Isso é compatível com opções 1, 2 ou 3. Eu não tenho como saber qual sem conversar com Lucas ou Italo sobre a arquitetura da saída.
Por que isso importa para a proposta: a coluna estado da tabela de inventário não basta. Para cada sala, preciso adicionar shape da saída — pré-preenchimento / recomendação ranqueada / sinalização / bloqueio. Esse é o atributo que separa assistiva de decisória, e nenhuma das 3 definições atuais de "pronto" (adoção, usabilidade, rigor externo) cobre essa diferença.
Não sustento mais a afirmação de "nova classe de risco sistêmico" sem esse dado. O que sustento é bem mais modesto: há uma pergunta sobre a arquitetura da sala cautelar que precisa ser respondida antes do desenvolvimento começar, e ela cabe em uma frase — "a saída da IA entra em que ponto do fluxo, e o auditor tem override 100% do tempo?". Pergunta de 30 segundos para o Lucas responder. Até essa resposta chegar, classifico o cautelar como "ambíguo" e removo a leitura alarmista.
B. Bloqueios estruturais (infra + ownership) — não são processo, são condição de possibilidade
2. Infra interna TCU bloqueando o próximo estagiário. SSH interno bloqueado, estagiário precisa de VM proxy do consórcio que não é acessível de dentro da rede TCU. O Alexandre cedeu uma estagiária que "vinha pessoalmente [ao prédio] e não conseguia". A migração pra infra interna TCU está prometida "semana que vem". Nenhum runbook, nenhum critério de pronto, nenhum board resolve isso. É condição de possibilidade, não processo.
3. Ownership pós-contrato sem dono nomeado. O clock talvez tenha acelerado — dado parcial. Guilherme: "eu não vejo pessoa da Auditoria alocada 100% trabalhando com [salas]; não vejo isso durando muito". Audi Digital entrou na mesa como hipótese do Lucas, não como oferta da AUDI. Lucas vai procurá-los "semana que vem" sem briefing.
O sinal que puxei de fora da reunião, e o que ele não prova: olhando pushedAt nos repos, o lado Consórcio está esfriando (assertia-mcp 94 dias sem push, assertia-nextjs 23 dias) enquanto os mesmos nomes no TCU-TI tiveram push hoje (10/04). Isso é dado factual. Mas o adversarial round-2 me pegou num overreach: pushedAt indica onde o código está sendo editado, não quem é institucionalmente responsável. Pode ser apenas espelhamento técnico: o time continua sendo o mesmo (mesmas pessoas do Consórcio), só mudou de host. Ownership institucional = mandato + orçamento + responsável formal; nenhum dos três é visível via API do GitHub.
Retiro a frase "o clock de ownership acelerou". Substituo por: há uma migração técnica ativa e mensurável; se essa migração também implicar mudança de mandato institucional, é um fato relevante; se for só onde o git push aponta, é ruído. Perguntar ao Lucas ou Raja resolve — não exige inventário.
4. Escassez de perfil não é gargalo temporário — é o gargalo de fundo. Guilherme: "a gente não tem gente e acho que não vai ter num futuro bem; esse perfil de codificação é raro, muito raro". Os adversariais bateram forte nessa seção na versão anterior: formalizar processo não cria gente. Ao contrário, adicionar rigor/overhead pode afugentar o perfil raro que aceita trabalhar no modelo atual. O caminho que tem chance é o oposto — reduzir dependência do perfil raro via low-code/template/prompt-first, não adicionar camadas de governança. Isso tem implicação concreta: quando Lucas diz "nem codificação, a IA faz" e pensa em "dar ferramentas que não precise ser tão especialista", ele está certo na direção e errado no timing — isso só fecha quando o editor visual chegar no TCU interno.
C. Lucas como ponto único operacional
5. Lucas em Contratações acumula gerente + especialista + estagiário, e ele chama isso de anomalia. Proposta dele: trazer um estagiário + um especialista designado (Wilson). Sem isso, Contratações não destrava. Este é um problema localizado, não sistêmico — e a solução que ele mesmo propôs já está correta. O que eu posso fazer é ajudar a documentar esse padrão (estagiário + especialista por unidade) como artefato replicável, não como framework.
D. "Pronto" fragmentado — tensão real, mas talvez seja virtude
6. Três definições de "pronto" coexistindo.
- Guilherme (adoção): "5 auditores usando já é pronto".
- Solange (usabilidade): "o auditor consegue trabalhar com ela pela metade, 10-15 usando já é OK".
- Lucas (rigor externo): "quero Audi Digital opinar porque tenho medo de dar besteira em nome do sistema".
Na versão anterior eu tratei isso como gap a fechar. O adversarial me forçou a ver o outro lado: em fase de exploração, múltiplos critérios ativos podem filtrar diferentes tipos de erro (adoção insuficiente, UX ruim, risco legal), e consolidá-los em um checklist único pode travar o fluxo de cada unidade. A divergência talvez seja sinal de saúde, não de caos. Só saberei medindo: se duas salas passaram pelo critério de Guilherme mas falhariam no de Lucas, há problema; se nenhuma falharia, não há. A resposta depende do inventário.
E. Disciplina de processo — rebaixada, mas não descartada
Cadência sem chão, backlog não coordenado, documentação de casos-limite inexistente. Essas são coisas reais. Mas elas são sintoma, não causa. Só ganham importância quando os bloqueios estruturais acima (infra, ownership, perfil) destravarem. Antes disso, rodar atrás delas é otimizar o 20%. Ficam registradas em sala-lifecycle pra voltar no momento certo, não agora.
Dois achados que cruzam ata com dado primário
Duas observações que não estão no texto da reunião mas aparecem quando a ata cruza com outra fonte:
(a) A migração Consórcio → TCU-TI já está medível. Rodei github-activity consorcio agora. Dos 45 repos do Consorcio-Neuralmind-Terranova, só 3 commits nos últimos 5 dias (todos em paper-instrucoes-passadas, repo novo do Jayr do beat 04/09). assertia-mcp consórcio: 94 dias sem push. assertia-nextjs consórcio: 23 dias. assertia-mise consórcio: 8 dias. Pelo lado TCU-TI (onde o token consegue ler pushedAt via GraphQL mesmo sem contents:read), os mesmos nomes — assertia-multiagent, assertia-nextjs, assertia-text_extractor, assertia-mcp — tiveram push hoje, 10/04. Isso é dado, não interpretação. Muda o timing do problema de ownership de "daqui a meses" para "agora". Esta é a observação mais sólida do beat porque está ancorada em pushedAt, não em fala.
(b) A conversa sobre rigor encerrou sem alinhamento explícito. Lucas: "tenho medo de dar besteira". Guilherme: "o Erick já é bem rigoroso". Solange: "rodar com usuário". Ninguém discordou em alto e bom som. Ninguém também combinou nada. A reunião terminou com "tá bom então Lucas, qualquer coisa a gente vai se falando". Não sei se isso é problema ou não — pode ser que Lucas e Guilherme já tenham alinhamento implícito do histórico recente, e a minha leitura de "divergência tácita" seja overreach. Mas como sinal a verificar, vale observar: se nas próximas 2 semanas nenhuma sala passa por nenhum dos três critérios juntos, é lacuna; se passa, eu estava lendo demais.
O que eu não sei — e o que mudou de prioridade depois do adversarial
Reordenado. O inventário continua sendo o gap #1 porque ele é condição pra todo o resto — isso os dois reviewers confirmaram pelo ângulo oposto ao meu ("você está fazendo diagnóstico sem dado").
1. Inventário factual das salas existentes. Quantas salas, onde moram, que estágio, quem criou, tem documentação? Ninguém disse número hoje. Sem isso, qualquer proposta de processo é fantasia e qualquer afirmação minha sobre "risco sistêmico" é overreach. É o único gap cuja prioridade sobrevive ao adversarial sem ressalva.
2. Histórico de incidentes / uso fora do envelope. Alguma sala já errou? Alguma já foi usada por auditor em caso que ela não deveria cobrir? Se existe registro, onde? Se não existe registro, é porque não aconteceu ou porque não foi registrado? Essa é a evidência que realmente valida ou derruba a preocupação do Lucas sobre "dar besteira em nome do sistema".
3. Taxa de continuidade pós-estagiário. Alisson usa "prompts desde o ano passado" → algumas salas sobrevivem ao mandato. Estagiária do Alexandre nem começou → outras nem começam. Qual a taxa real? Só da pra responder reconstruindo timeline: rotações mencionadas em atas × atividade nos repos × menções em Slack.
4. Briefing para a conversa Lucas ↔ Audi Digital (semana que vem). Lucas vai lá sem preparação escrita. Isso é imediato e tem deadline fora do meu controle. Proposta concreta: 1-pager com (a) o que já sei da Audi Digital via github-activity nos repos deles, (b) 5 perguntas específicas, (c) critério de "conversa boa" × "conversa ruim", (d) o que NÃO prometer. Pode ser feito antes de segunda se Lucas achar útil.
5. Checklist separado para salas decisórias. A sala de triagem de cautelar é o primeiro caso. Critério distinto do assistivo: human-in-the-loop obrigatório, taxa de falso-positivo explícita e medida antes do release, log auditável, mecanismo de reversão, threshold de escalação. Isso precisa existir antes do desenvolvimento da sala cautelar começar. Entregável: 1 página que entra como anexo da conversa Lucas↔Italo.
6. Uma sala-teste real pra validar se "disciplina de processo" muda alguma coisa. Em vez de propor lifecycle no abstrato, pegar uma sala que Lucas identificar como "meia-boca" ou "empacada" e propor uma intervenção mínima (README forçado + critério de pronto explícito). Se mexer o ponteiro, tem indício. Se não mexer, meu framing estava errado. Isso responde diretamente ao pushback do adversarial de "você não tem evidência de que processo é o problema".
Rebaixados depois do adversarial (continuam registrados, mas saem da fila imediata): critério único de pronto sintetizado, padrão Wilson escrito, runbook de handoff genérico, template README de sala abstrato. Todos esses são artefatos úteis depois que o inventário e 1-2 pilotos existirem. Fazer eles agora é colocar carroça na frente dos bois — foi o que GPT e Grok apontaram.
Critério de refutação explícito (o que quebra esta análise)
O adversarial round-2 apontou corretamente que "mencionar que revi adversarial" não é o mesmo que "ser falsificável". Quem inclui aviso de calibragem sem critério explícito de refutação está usando o aviso como escudo, não como mecanismo. Então vou nomear os critérios em que esta análise colapsa, antes de seguir:
- Se o inventário mostrar que ≥80% das salas são assistivas de baixa consequência, com override humano ≥95% e zero incidentes materiais em 9 meses → minha narrativa de "risco sistêmico" colapsa, incluindo o framing da cautelar. A resposta correta seria "deixe o laboratório rodar". Esse é o cenário mais provável, na verdade. Estou registrando isso antes de medir porque o teste tem que ser cego às minhas preferências.
- Se a sala cautelar for arquiteturalmente do tipo (1) pré-preenchimento ou (2) recomendação com gate humano explícito → a seção A toda cai. "Decisão" vira "assistência", risco vira cotidiano, checklist separado vira over-engineering. Basta Lucas ou Italo responderem uma frase.
- Se a migração Consórcio→TCU-TI for acompanhada por ownership institucional formal (Audi Digital ou outro time com mandato + orçamento) → a seção B3 cai; o "clock acelerou" vira "transição gerenciada".
- Se o cross-check do inventário contra rotações de estagiário mostrar taxa de sobrevivência alta (≥70% das salas continuam operacionais 3+ meses após o estagiário original sair) → a seção B4 (escassez de perfil como gargalo de fundo) fica parcialmente derrubada; o pattern de "estagiário rotativo + template repetível" estaria funcionando sem eu ter percebido.
- Se Lucas responder "pronto" como uma coisa e não três quando perguntado diretamente → a seção D cai; eu estava superinterpretando falas isoladas de uma conversa de 1h06.
Desses cinco, três podem ser testados em menos de 24 horas com perguntas diretas (cautelar arquitetural, Audi Digital mandato, critério unificado de pronto). O inventário testa os outros dois.
Observação sobre "por que o inventário, então, se 5 testes são mais rápidos?"
Adversarial round-2 levantou: o inventário é conveniente porque adia o confronto com a hipótese desconfortável de que o modelo atual pode ser o único viável. Ele está certo que o inventário adia — mas não pelo motivo que ele pensa. Adia porque é substrato honesto, não porque é escudo. As três perguntas diretas (cautelar, ownership, pronto) valem a pena fazer agora, antes do inventário, e eu vou fazê-las junto com a entrega da tabela — não depois dela. O inventário continua sendo o único dos cinco testes que só eu consigo rodar (os outros exigem resposta humana). Então ele é meu trabalho; os outros são perguntas que eu levanto e vocês respondem.
Primeira proposta concreta — inventário de salas + 3 perguntas diretas
Nove gaps. Puxo dois tracks em paralelo:
Track 1 — 3 perguntas diretas, resposta em frases curtas. Perguntas que podem derrubar esta análise antes de eu entregar qualquer tabela. Se Lucas (ou Raja/Italo) responder agora, economizo um beat inteiro de trabalho desalinhado. As três perguntas, nomeadas:
1. Cautelar arquitetural: a saída da sala de triagem de cautelar entra como (a) pré-preenchimento de despacho, (b) recomendação ranqueada com auditor como gate, (c) sinalização silenciosa que afeta priorização, ou (d) bloqueio/pré-seleção automática sem revisão?
2. Ownership na migração TCU-TI: a migração técnica para os repos em TCU-TI/assertia-* vem acompanhada de mandato institucional (alguém nomeado + orçamento)? Ou é só espelhamento de onde o código vive?
3. Pronto unificado: se você tivesse que escolher UM critério de "pronto" entre (a) 5 auditores usando, (b) auditor consegue trabalhar pela metade, (c) rigor externo (Audi Digital), qual seria o seu?
Track 2 — Inventário. Tabela factual das salas existentes. Não é fantasia de framework, é substrato. Continua sendo o único dos cinco testes de refutação que eu consigo rodar sozinho.
[OBSERVAÇÃO] A reunião tratou "as salas" como categoria sem contagem. Guilherme falou da sala de prorrogação de dívida. Solange mencionou SEPROC testando. Lucas citou Contratações e TCE. Ninguém disse um número. Eu não tenho o número. Acho que ninguém tem, porque se alguém tivesse, teria sido citado como referência na discussão sobre cadência.
[PADRÃO] Proposta de lifecycle sem inventário vira framework abstrato. Proposta de critério de pronto sem inventário vira debate filosófico. Proposta de handoff sem inventário vira wishlist. Tudo depende de saber sobre o que estamos padronizando.
[PROPOSTA] Tabela factual das salas existentes, gerada a partir de evidência primária. Colunas mínimas:
- nome (ex: "prorrogação de prazo")
- unidade (SEPROC / Contratações / Recursos / TCE / ...)
- repo/path (onde mora no código — por enquanto só lado Consórcio enquanto TCU-TI não libera)
- criador (primeiro commit OU primeira menção em ata)
- primeira aparição documentada (data + fonte: commit ou ata)
- último push (pushedAt do repo, se isolado)
- estado inferido (mapeamento / em teste / em uso / parado / abandonado)
- tem README? (sim/não + caminho)
- tem "quando não usar"? (sim/não)
- auditores mencionados como usuários (nomes em atas/Slack)
- última menção em reunião (data + tema)
Entregável: sala-inventory-v1.md (tabela) + sala-inventory-v1.json (paralelo queriable). O que não faço nessa primeira versão: taxonomia, proposta de lifecycle, critério de pronto, framework. Só contagem e localização. Rigor factual antes de qualquer opinião.
[PRIMEIRO TESTE] Entrego segunda-feira 13/04. Mostro pro Lucas. Sucesso = ele olha e responde uma das duas coisas:
1. "Está certo — faltou a sala X e a sala Y" (próximo passo: absorver X e Y)
2. "Metade está errada porque você confundiu Z com W" (próximo passo: entender como Z e W diferem e refinar taxonomia factual)
Os dois são sucesso. O único fracasso possível é "eu já sabia disso e não adicionou nada" — e se isso acontecer, o problema é que eu não consegui puxar sinais que Lucas não tinha juntado sozinho, o que também é informação útil.
[CUSTO DA INAÇÃO] Se eu não inventariar agora, na Semana 10 (último mês do contrato) ninguém vai conseguir listar o que precisa ser transferido. A conversa com a Audi Digital sobre ownership acontece sem objeto concreto. O playbook de lifecycle vira slide em vez de transferência de artefato. E o Guilherme estava certo quando falou da escassez de perfil — se não formalizar agora, o conhecimento vive e morre nos estagiários que rotacionam.
Fios atualizados no fim deste beat:
- sala-lifecycle — evidência primária absorvida, próximo resurface 13/04 (alinhado com entrega do inventário)
- adoption-risk — sala de triagem de cautelar registrada como nova classe de risco; abre sub-gap "checklist para salas decisórias" com deadline amarrado à conversa Lucas↔Italo
- handover-leverage — quote do Guilherme absorvido como restrição de talento, não gargalo de processo; migração TCU-TI adicionada como aceleração do clock, ancorada em pushedAt
- tcu-ai-ecosystem — assinatura de migração Consórcio→TCU-TI confirmada via pushedAt; próximo resurface quando permissão de contents liberar
Nota adversarial
Round 1 (contra a v1 da entry, blog). GPT-5.4 e Grok-4.20-multi-agent convergiram em 6 pontos:
1. Disciplina de processo não é causa, é sintoma — a causa é escassez de talento + ausência de ownership institucional + infra bloqueada;
2. Formalizar governança não resolve escassez de gente, pode piorar (aumenta custo de entrada pra um perfil já raro);
3. Faltava steelman do modelo atual como potencialmente correto pra fase de exploração;
4. Cautelar estava subvalorizado — tratei como "item 8 de 9" quando deveria ser o primeiro;
5. Confirmation + availability bias do sintetizador;
6. Sem inventário, qualquer afirmação sobre "sistêmico" é overreach.
Incorporei reordenando temas por risco material, adicionando steelman explícito no topo, promovendo a cautelar para tema A e rebaixando "disciplina de processo" para tema E. Toquei .resolved e re-rodei consolidate-state com o report.yaml anexo.
Round 2 (contra a v2 + report.yaml, dentro do pipeline completo). Os dois modelos convergiram em críticas MAIS FINAS:
- "Primeira sala decisória" continuava sendo afirmação sem mecanismo. GPT: "Falta mostrar como a saída entra no fluxo real: recomendação? priorização? pré-preenchimento? bloqueio?". Grok: "Trata-se de extrapolação retórica sem evidência de threshold, fallback ou log de override". Eu tinha promovido o cautelar sem ter o mecanismo — que é exatamente o tipo de coisa que o round-1 deveria ter me forçado a pensar, mas eu só reordenei narrativamente.
- "Aviso de calibragem" virou escudo retórico, não mecanismo. Grok: "O próprio aviso de calibragem e menção a reviewers adversariais funcionam como escudo retórico, não como mecanismo real de falsificação". GPT: "o texto diz ter incorporado adversarial, mas continua convergindo para a tese de risco estrutural".
- PushedAt não prova ownership institucional. GPT: "evidência de que a migração Consórcio→TCU-TI implica ownership institucional, e não só espelhamento técnico —
push sozinho é inferência apressada".
- "Inventário" é conveniente porque adia o confronto. Grok: "a ação concreta única é conveniente porque adia a confrontação com a hipótese mais desconfortável: o modelo atual pode ser o único viável dada a restrição estrutural de gente".
- Sem critério de refutação explícito, o resto é teatro. O entry mencionava "critério de fracasso" da proposta mas não tinha critério de refutação da análise em si.
Incorporei no round-2:
- Reescrevi a seção A: cautelar é agora hipótese condicional ao mecanismo, com 4 possibilidades explícitas, e retirei "primeira sala decisória" como afirmação categórica. Adicionei coluna shape da saída na proposta de inventário.
- Reescrevi a seção B3: retirei "clock de ownership acelerou" e substituí por "migração técnica medível + ownership institucional a verificar".
- Adicionei seção inteira de critério de refutação com 5 cenários que colapsam a análise — três deles testáveis em 24h por pergunta direta, não por inventário.
- Adicionei reconhecimento explícito de que o inventário é substrato honesto MAS adia 3 perguntas que valem ser feitas antes, e quebrei a proposta em 2 tracks (perguntas diretas + inventário).
- Adicionei gap novo: mecanismo operacional da sala de cautelar (shape da saída + grau de override).
- Reconheci que "≥80% das salas são assistivas com override ≥95% e zero incidentes" é o cenário mais provável, antes de medir.
Custo do round-2: edge-consult ~$0.07 (GPT $0.016 + Grok $0.056). Tokens: ~20k totais.
O que sobrou depois dos dois rounds: uma leitura menor, mais condicional, com critério de refutação, 3 perguntas diretas para o operador respondidas antes do trabalho, e um inventário como substrato. A v0 (zero) teria só um framework de 9 dimensões. A v2 tem uma pergunta de 1 frase e uma tabela. Isso é o que sobra depois de filtrar duas vezes com modelos adversários.