Observação
Peguei 4 relatórios enterprise publicados na primeira semana de abril 2026 — KPMG AI Quarterly Pulse (n=2400), Docebo AI Readiness Gap (n=2000), Writer Enterprise AI Adoption (n=2400), NimbleBrain Business-as-Code (guia metodológico) — e cruzei com as 5 hipóteses que o Playbook V0.1 levanta sobre por que salas de IA no TCU travam.
Resultado honesto: os dados são compatíveis com todas as 5 hipóteses, mas não confirmam nenhuma. São surveys cross-sectionais feitos por vendors com skin in the game, não testes controlados das nossas premissas causais. A adversarial (GPT-5.4 + Grok-4.20) flagou isso com precisão: "reinterpretação retroativa" e "confirmation bias sistemático disfarçado de síntese."
O que os dados fazem de útil: mostram que os problemas que vemos nas salas (ownership ambíguo, feature que não chega ao usuário, critérios divergentes, métricas ausentes, dependência de pessoa) aparecem em muitos contextos de adoção AI. Mas — e isso é crucial — "mesmos sintomas" não implica "mesmo mecanismo causal" (GPT-5.4, pipeline round 2). Empresa privada com $207M de budget, incentivo de lucro e poder hierárquico é fundamentalmente diferente de órgão público com Lei 8.666, accountability e incentivos burocráticos. O blocker real no TCU pode ser governança formal, risco jurídico, ausência de norma interna para uso de IA em atos oficiais, ou disputa de poder política — nenhum desses aparece nos surveys enterprise.
Risco de unfalsifiability (Grok-4.20, pipeline round 2): As 5 hipóteses estão elásticas o suficiente para que quase qualquer survey de adoção digital gere "compatibilidade". Se qualquer dado é "compatível", a hipótese não é testável — é narrativa. O que INVALIDARIA as hipóteses: (1) dados internos mostrando que salas com ownership claro travam igual; (2) sala bem documentada que trava no handover por outros motivos (ex: jurídico); (3) sala com deploy completo mas não usada por motivos regulatórios, não processuais.
Padrão — As 5 Hipóteses Sob Lente Enterprise
H1: Ownership como blocker — Writer: 75% admitem que estratégia AI é "mais pro show" + 36% sem plano de supervisão de agentes. KPMG: execução (não funding) é gargalo. Compatível com nossa hipótese, mas o dado enterprise AMPLIA: ownership não é "quem resolve o bug do Word" (tático) — é "quem decide mudar o processo" (estrutural). Os 29% que atingem ROI (Writer) todos têm ownership organizacional claro.
H2: Deploy gap — Docebo: 91% NÃO reestruturaram workflows apesar de 79% usarem AI. A citação que mata: "high levels of individual experimentation, but they return to the exact same operating workflows." O gap não é infra (a feature do .docx pode estar deployada) — é que feature disponível ≠ workflow alterado. Se 91% de empresas enterprise vivem isso, a SEPROC não estar usando o Word que existe é o padrão, não a exceção.
H3: Critério divergente — Writer: 79% apps criados em silos + 55% descrevem "chaotic free-for-all." Docebo: só 24% do learning alinhado com estratégia. Cada equipe define "pronto" de forma diferente porque ninguém convergiu a definição. Guilherme (adoção), Solange (usabilidade), Lucas (opinião externa) = exatamente o que Writer descreve em empresas enterprise.
H4: Métricas — Writer: 97% reportam benefício individual mas só 29% medem ROI organizacional. O problema não é "zero métricas" como hipotetizamos — é métricas erradas. Todo mundo mede "economizei tempo" (individual); quase ninguém mede "mudou o resultado do processo" (organizacional). NimbleBrain oferece 3 métricas concretas: taxa de intervenção, acurácia vs expert, horas humanas salvas.
H5: Dependência de pessoa — KPMG: 62% gap de skills (up de 25% trimestre anterior). Writer: super-users são 5x mais produtivos que não-adotantes. NimbleBrain chama de "tribal knowledge" — "a decision tree that exists only in one person's head." É o problema do estagiário em escala enterprise. O conhecimento de como a sala funciona vive na cabeça de quem a construiu.
H6 (NOVA): Resistência e sabotagem — Writer: 29% dos funcionários sabotam ativamente a estratégia AI (44% entre Gen Z). Só 35% dizem que seu gerente é um AI champion. Essa dimensão está totalmente ausente do Playbook V0.1. Se auditores não usam salas, pode não ser deploy gap — pode ser resistência passiva.
Proposta — Business-as-Code como Candidato a Reframe (Não Adotado)
NimbleBrain propõe um framework (Business-as-Code) que mapeia quase 1:1 com o que estamos tentando fazer:
| Business-as-Code | Sala Lifecycle V0.1 | O que muda |
|---|---|---|
| Knowledge Audit | Backlog + Planning | Antes de construir, mapear onde vive o conhecimento tácito |
| Schema Design | Critério de "pronto" | Definir entidades e atributos ANTES de construir |
| Skill Encoding | Build + Release | Codificar as regras de decisão, não só a interface |
| Context Layer | Documentação de domínio | Background que dá coerência aos skills |
| First Agent | Pilot + Review | Começar com human-in-the-loop, 15-20% intervenção → <5% |
| Recursive Loop | Monitoring + Handoff | Build → Operate → Learn, iteração contínua |
O reframe é condicional (adversarial flagou: sem evidência de que funciona em governo, e NimbleBrain é vendor): em vez de "como construímos salas" (processo), o playbook seria "como codificamos conhecimento transferível" (substância). O critério de "pronto" de cada fase seria: "o conhecimento para esta fase foi extraído de forma que outra pessoa/equipe consiga operar?"
Se isso for válido, o problema do estagiário se resolve parcialmente: o estagiário não é só um gargalo de mão-de-obra — é o repositório não-estruturado de como a sala funciona. O handover não é "alguém assume" — é "o tribal knowledge foi codificado."
Caveat honesto (reforçado pela adversarial pipeline round 2): Isso é especulação informada, não evidência. NimbleBrain é vendor com produto para vender — "Business-as-Code" pode ser marketing disfarçado de insight (Grok-4.20). As empresas que escalam AI sem knowledge audit formal (por rotação simples de pessoal, por exemplo) não aparecem nesses relatórios. O reframe pode ser framework theater — bonito mas impraticável no TCU com 6 meses de contrato. Status: candidato a teste, não adotado.
Primeiro Teste
Aplicar o conceito de knowledge audit a 1 sala existente (candidata: prorrogação de prazo/SEPROC): mapear quem sabe o quê, onde o conhecimento está (cabeça vs documentado vs código), quanto tempo levaria para outra pessoa operar. Se o exercício revelar que >50% do conhecimento é tácito (na cabeça de 1-2 pessoas), o reframe tem tração. Se a sala já está bem documentada, o reframe é overhead.
Custo da Inação
Se não testarmos o reframe e entregarmos o Playbook V0.2 como "7 fases de processo": o playbook pode ser correto mas irrelevante — porque o gargalo real é conhecimento tácito, não fluxo de trabalho. Salas vão continuar travando no handover independente de quantos gates processuais existam.