Resumo Executivo
- Problema: O AssertIA gasta ~R$30 mil/mês em API do GPT-4.1. Modelos open source permitem treinar um modelo próprio — mas vale a pena?
- Insight principal: Fine-tuning PODE reduzir custos em 50-75%, mas essa estimativa é especulativa sem dados reais de workload do AssertIA. O caminho seguro começa por roteamento de modelos (economia imediata) e só avança para fine-tuning após levantar dados de custo por tarefa.
- Para o administrador: Não é preciso escolher entre API e modelo próprio. A melhor estratégia é combinar: tarefas simples vão para modelos baratos, tarefas complexas ficam no GPT-4.1, e o fine-tuning entra apenas onde há volume e dados suficientes.
1. O que é Fine-Tuning — sem jargão
Software que lê e produz texto. GPT-4.1, Llama, Qwen são exemplos. Cada um tem um 'tamanho' medido em bilhões de parâmetros — como a quantidade de conexões no cérebro.
Processo de pegar um modelo genérico e retreiná-lo com dados específicos do seu domínio (acórdãos, pareceres, nuggets). O modelo fica melhor nas suas tarefas, mas pode perder um pouco de habilidade geral.
Modelos cujos 'pesos' (o conhecimento treinado) são públicos. Llama (Meta), Qwen (Alibaba), Mistral, DeepSeek. Você baixa, roda no seu servidor, e não paga por uso.
Técnicas que ajustam apenas uma pequena fração do modelo (1-5% dos parâmetros), reduzindo custo de treinamento em 90% e mantendo 95% da qualidade do treinamento completo.
O que o AssertIA já usa: busca jurisprudência relevante e passa ao modelo junto com a pergunta. Não muda o modelo — muda o que ele vê na hora de responder.
2. O cenário atual do AssertIA
['88% do gasto vai para GPT-4.1 da OpenAI', '~R$30 mil/mês em chamadas de API', 'Todas as tarefas (classificação, geração, busca) usam o mesmo modelo caro', 'Dependência total de um fornecedor — se OpenAI descontinuar GPT-4.1, é preciso migrar', 'Dados saem do TCU para servidores da OpenAI (via Azure, com contrato de confidencialidade)']
['Tarefas simples (classificação) rodam em modelo próprio', 'Tarefas complexas (raciocínio jurídico aberto) permanecem no GPT-4.1', 'Custos mensais entre R$5k-R$15k (dependendo do modelo e infraestrutura)', 'Redução de dependência do fornecedor — modelo próprio é portátil', 'Dados podem ficar 100% dentro da infraestrutura do TCU']
| Métrica | Hoje (API GPT-4.1) | Com roteamento de modelos | Com fine-tuning + self-hosting |
|---|---|---|---|
| Custo mensal estimado | ~R$30.000 | ~R$6.000-R$12.000 | ~R$5.000-R$15.000 |
| Dependência de fornecedor | Alta (OpenAI/Microsoft) | Média (múltiplos provedores) | Baixa (modelo próprio) |
| Dados saem do TCU? | Sim (via Azure) | Sim (múltiplos provedores) | Não (se self-hosted no NIA) |
| Qualidade em tarefas específicas | Referência | Variável por modelo | Pode igualar ou superar |
| Qualidade em raciocínio aberto | Referência | Similar | Inferior para modelos menores |
| Equipe técnica necessária | Nenhuma | DevOps básico | ML engineer (pode ser consultor) |
| Tempo para implementar | Já implementado | 2-4 semanas | 2-4 meses |
3. Como funciona o processo de fine-tuning (passo a passo)
Este é o passo mais crítico e mais trabalhoso. Você precisa de exemplos do tipo 'pergunta → resposta correta' no formato que o modelo deve produzir. Para o domínio jurídico, a literatura recomenda no mínimo 5.000 exemplos de alta qualidade. • Fontes possíveis no AssertIA: acórdãos classificados, nuggets já validados, pareceres com estrutura consistente • Qualidade > quantidade: 1.000 exemplos bem curados valem mais que 10.000 mediocres • Estimativa de esforço: 2-4 semanas de trabalho de um especialista de domínio + desenvolvedor • Custo estimado: R$5.000-R$15.000 (preparação manual ou semi-automatizada)
Nem todos os modelos funcionam bem em português jurídico. Com base nos benchmarks mais recentes (PoETa v2, LegalBench.PT, OAB-Bench): • Qwen 2.5 (7B-14B): melhor custo-benefício para português — supera Llama em ~10 pontos no PoETa v2 • Sabiá-4 (Maritaca AI): melhor modelo nativo em português, treinado em legislação brasileira — mas é proprietário (API) • Llama 4 Scout (17B ativo, MoE): maior contexto (10M tokens), mas desempenho em PT não é o melhor • DeepSeek V3.2: excelente relação custo/qualidade, mas menos testado em PT jurídico • Recomendação: começar com Qwen 2.5 7B (open weight, bom em PT, cabe em hardware modesto)
Com ferramentas modernas (Unsloth, Axolotl), o treinamento em si é rápido e barato — o gargalo é a preparação de dados, não o treinamento. • Técnica recomendada: QLoRA (ajusta 1-5% do modelo, usa 4x menos memória) • Hardware necessário: 1 GPU A100 ou H100 (aluguel: R$5-15/hora em nuvem) • Tempo de treinamento: 2-12 horas por rodada (modelo de 7B com QLoRA) • Custo por rodada: R$5-R$250 (dependendo do modelo e hardware) • Iterações típicas: 5-15 rodadas até encontrar configuração ótima • Custo total de treinamento: R$250-R$2.500
O passo que mais falha em projetos reais. Sem avaliação rigorosa, você não sabe se o modelo treinado é melhor ou pior que o GPT-4.1 para suas tarefas. • Criar conjunto de teste: 200-500 exemplos reservados (nunca usados no treinamento) • Métricas: acurácia, taxa de alucinação, aderência ao formato esperado • Benchmark contra GPT-4.1 nas mesmas tarefas — comparação lado a lado • Avaliação humana: juristas do Núcleo de Dados revisam amostra aleatória • Referência: OAB-Bench mostra que LLM-as-judge tem erro de 0.04-0.28 vs humanos • Risco real (caso Juru): modelo melhorou em direito mas piorou em conhecimento geral — catastrophic forgetting
Se a avaliação for positiva, o modelo precisa rodar 24/7 com confiabilidade. Isso requer infraestrutura e monitoramento. • Servir o modelo: vLLM (ferramenta padrão, otimiza throughput) • Hardware de produção: 1 GPU A100/H100 para modelo de 7B (~R$2.500-R$7.500/mês em nuvem) • Alternativa on-premises: se NIA tem GPU, custo é apenas eletricidade (~R$150-R$400/mês) • Monitoramento: acompanhar taxa de erro, latência, e degradação ao longo do tempo • Equipe necessária: DevOps com noções de ML, ou consultor externo por 2-3 meses
Input:
5.000 acórdãos classificados manualmente pelo Núcleo de Dados → formato {texto do acórdão, classificação correta}
Output:
Modelo Qwen 7B fine-tuned que classifica acórdãos novos com acurácia equivalente ao GPT-4.1, rodando no servidor do NIA, sem enviar dados para fora
# Custo estimado do ciclo completo: # Preparação de dados: R$10.000 (2 semanas, 1 especialista + 1 dev) # Treinamento (15 rodadas): R$750 # Avaliação: R$2.000 (tempo de juristas) # Implantação: R$5.000 (consultor ML, 2 semanas) # TOTAL: ~R$18.000 (investimento único) # Economia mensal estimada: R$15.000-R$25.000
4. Quem já fez isso (casos reais)
| Iniciativa | Domínio | Modelo base | Resultado | Lição para o AssertIA |
|---|---|---|---|---|
| AuditWen (China, 2024) | Auditoria governamental | Qwen 7B | Superou modelos genéricos em 15 tarefas de auditoria com 30k exemplos de treino | Caso mais relevante: auditoria é nosso domínio. 30k exemplos foi suficiente. |
| SaulLM (Edinburgh, NeurIPS 2024) | Direito (inglês) | Mistral 7B → 54B/141B | Estado da arte em LegalBench. Usou dados sintéticos para instrução. | Dados sintéticos podem complementar dados reais — reduz custo de preparação. |
| Juru (Brasil, 2024) | Direito brasileiro | Sabiá-2 | Melhorou OAB e ENADE, mas piorou em conhecimento geral | Alerta: catastrophic forgetting é real. Avaliar impacto em tarefas gerais. |
| ChatLaw (Peking U., 2024) | Direito chinês | InternLM (MoE 4x7B) | Superou GPT-4 em +7.73% no LawBench | Arquitetura MoE permite especialização sem perder generalidade. |
| PRUMe AI (Brasil, 2025) | Controle externo | RAG + explicabilidade | 89% de consistência entre justificativa do LLM e evidência citada | RAG com explicabilidade funciona bem para auditoria — e não requer fine-tuning. |
| Sabiá-4 (Maritaca AI, 2026) | Português + direito BR | Proprietário | Treinado em legislação brasileira, 128K contexto, avaliado em 64 exames BR | Se disponível via API, seria alternativa a GPT-4.1 com vantagem em PT-BR. |
5. As 4 estratégias possíveis (comparação honesta)
| Estratégia | Custo mensal estimado | Qualidade | Tempo para implementar | Risco | Requer ML? |
|---|---|---|---|---|---|
| A. Manter GPT-4.1 (status quo) | R$30.000 | Referência | Já implementado | Vendor lock-in, dados fora do TCU | Não |
| B. Roteamento de modelos | R$6.000-R$12.000 | Variável (90-100% por tarefa) | 2-4 semanas | Baixo — reversível | Não |
| C. Fine-tuning + self-hosting | R$5.000-R$15.000 | Pode igualar GPT-4.1 em tarefas específicas | 2-4 meses | Médio — requer dados, avaliação, infra | Sim (consultor) |
| D. Híbrido (B + C) | R$8.000-R$15.000 | Melhor combinação | 3-6 meses (gradual) | Médio, mitigado pela abordagem gradual | Sim (fase C) |
['Classificação simples → GPT-4.1 ($2.00/M input)', 'Geração de resumo → GPT-4.1 ($8.00/M output)', 'Busca semântica → GPT-4.1', 'Total: ~R$30.000/mês']
['Classificação simples → Gemini Flash ($0.15/M input) ou GPT-4.1 nano ($0.10/M input)', 'Geração de resumo → GPT-4.1 (mantém qualidade)', 'Busca semântica → modelo de embedding local (custo zero marginal)', 'Total estimado: ~R$6.000-R$12.000/mês']
6. Riscos que o administrador precisa conhecer
Ao treinar o modelo em dados jurídicos, ele pode 'esquecer' habilidades gerais. O caso Juru (Brasil, 2024) é emblemático: melhorou no exame da OAB mas piorou em conhecimento geral. Mitigação: usar LoRA (ajusta pouco do modelo), avaliar tarefas gerais antes e depois.
O modelo aprende o que você ensina — incluindo erros. Se os 5.000 exemplos de treino contêm classificações incorretas, o modelo vai reproduzir e amplificar esses erros. Mitigação: revisão humana de amostra, usar dados já validados pelo Núcleo de Dados.
O erro mais comum em projetos de fine-tuning: o modelo parece funcionar em testes informais, mas falha em produção. Referência: LegalBench.PT tem 12% de erros no próprio benchmark. Mitigação: avaliação formal com conjunto de teste separado, avaliação humana por juristas.
Um modelo fine-tuned não é 'instale e esqueça'. Precisa de monitoramento, retreinamento quando novos dados surgem, e manutenção de infraestrutura. Estimativa: multiplicar o custo de GPU por 1.5-2x para refletir custos reais (DevOps, monitoramento, redundância).
Pesquisa recente (ICLR 2025) mostra que fine-tuning pode enfraquecer as proteções de segurança do modelo — mesmo com dados de treino inofensivos. Para uso institucional no TCU, isso requer atenção e testes específicos.
7. Recomendações concretas para o AssertIA
Não requer fine-tuning, não requer ML engineer, não requer dados de treino. Resultado imediato. • Mapear quais tarefas consomem mais tokens (classificação? geração? busca?) • Rotear tarefas de classificação para Gemini Flash ou GPT-4.1 nano • Manter GPT-4.1 apenas para geração de texto e raciocínio complexo • Economia esperada: 60-80% do custo atual • Tempo: 2-4 semanas • Pré-requisito: levantar distribuição de custo por tarefa (gap já identificado no Brief #001)
Escolher UMA tarefa bem definida, com dados abundantes, e testar se um modelo fine-tuned atinge qualidade equivalente. • Candidata provável: classificação de acórdãos (alta volume, formato estruturado) • Modelo sugerido: Qwen 2.5 7B (melhor em PT entre open-weight) • Dados: 5.000+ exemplos já classificados pelo Núcleo de Dados • Avaliação: comparação cega (GPT-4.1 vs fine-tuned) com juristas do Núcleo • Custo do piloto: ~R$18.000 (investimento único — ver detalhamento na seção 3) • Decisão: se acurácia >= 95% do GPT-4.1, expandir; se não, abandonar
Maritaca AI é brasileira, Sabiá-4 foi treinado em legislação brasileira, e pode ser a alternativa mais direta ao GPT-4.1 sem necessidade de fine-tuning próprio. • Solicitar acesso à API da Maritaca AI • Benchmark Sabiá-4 vs GPT-4.1 nas tarefas do AssertIA • Avaliar custo por token da Sabiá-4 • Vantagem: modelo nativo em PT-BR, treinado em direito brasileiro
Se o NIA tem GPUs (A100, V100, ou equivalente), o self-hosting fica dramaticamente mais barato — custo cai de R$7.500/mês (nuvem) para ~R$400/mês (eletricidade). • Confirmar com Luis Henrique / SETIC que hardware está disponível e alocável • Verificar se infraestrutura de rede suporta servir modelo via API interna
8. NOTA: O que esta análise NÃO pode afirmar (revisão adversarial)
Citamos esse estudo para mostrar que fine-tuning + RAG supera cada abordagem isolada. Isso é verdade no domínio agrícola onde foi testado. A transferência para jurisprudência do TCU é uma hipótese, não um fato.
O treino em si é barato. Operar um modelo em produção com confiabilidade institucional (SLA, fallback, monitoramento, retreinamento) não é. A literatura sugere multiplicar custos de GPU por 1.5-2x — mas em contexto governamental, pode ser mais. Sem experiência operacional própria, este é um número desconhecido.
O TCU fiscaliza. Um modelo que erra classificação de acórdão pode gerar consequência institucional. A economia de R$20k/mês não compensa se gerar um incidente. Por isso a recomendação de piloto com avaliação rigorosa (não expansão direta) permanece — mas deve ser lida como 'teste a hipótese', não 'implemente a solução'.
9. Próximos passos
Referencias
- RAG vs Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture (UC Berkeley, 2024) https://arxiv.org/abs/2401.08406 ArXiv
- RAFT: Adapting Language Model to Domain-Specific RAG (UC Berkeley/Microsoft/Meta, 2024) https://arxiv.org/abs/2403.10131 ArXiv
- AuditWen: An Open-Source Large Language Model for Audit (CCL 2024 / FinNLP 2025) https://arxiv.org/abs/2410.10873 ArXiv
- SaulLM-7B/54B/141B: A Large Language Model for Law (NeurIPS 2024) https://arxiv.org/abs/2403.03883 ArXiv
- Juru: Legal Brazilian Large Language Model (2024) https://arxiv.org/html/2403.18140v1 ArXiv
- Sabiá-4 Technical Report (Maritaca AI, 2026) https://arxiv.org/html/2603.10213v1 ArXiv
- LegalBench.PT: Benchmark for Portuguese Legal NLP (2025) https://arxiv.org/abs/2502.16357 ArXiv
- PoETa v2: Portuguese Evaluation of Language Models (2025) https://arxiv.org/html/2511.17808 ArXiv
- OAB-Bench: Brazilian Bar Exam for LLMs (Maritaca AI, 2025) https://arxiv.org/abs/2504.21202 ArXiv
- Tucano 2: Open Portuguese LLMs (2026) https://arxiv.org/abs/2603.03543 ArXiv
- InternLM-Law: Legal LLM (COLING 2025) https://arxiv.org/html/2406.14887 ArXiv
- PRUMe AI: NLP + Explainability for External Control Audit (2025) https://periodicos.newsciencepubl.com/arace/article/view/8409 Periódico acadêmico
- LoRA Fine-Tuning Cost Analysis 2026 (Stratagem) https://www.stratagem-systems.com/blog/lora-fine-tuning-cost-analysis-2026 Blog técnico
- GPU Cloud Pricing Comparison 2026 (Spheron) https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/ Blog técnico
- LLM Total Cost of Ownership (Ptolemay, 2025) https://www.ptolemay.com/post/llm-total-cost-of-ownership Blog técnico
- TCU: Guia de Uso de IA Generativa https://portal.tcu.gov.br/data/files/42/F7/91/4B/B59019105E366F09E18818A8/Guia%20de%20uso%20de%20IA%20generativa%20no%20TCU.pdf Documento oficial TCU
- GAO AI Experimentation (FedScoop, 2025) https://fedscoop.com/gao-in-experimentation-phase-with-ai-model-to-query-reports-inform-its-work/ WebSearch