Fine-Tuning para o AssertIA: Vale a Pena Treinar Nosso Próprio Modelo?

Guia prático para administradores — o que é, quanto custa, quais os riscos, e o que recomendamos

Resumo Executivo

~R$30k
Gasto mensal atual com GPT-4.1
50-75%
Economia potencial com fine-tuning + self-hosting
R$250-R$2.500
Custo de um ciclo de fine-tuning (LoRA/QLoRA)
5.000+
Exemplos de treino necessários para domínio jurídico
3-6 meses
Tempo estimado para break-even

1. O que é Fine-Tuning — sem jargão

Modelo de linguagem (LLM)
Software que lê e produz texto. GPT-4.1, Llama, Qwen são exemplos. Cada um tem um 'tamanho' medido em bilhões de parâmetros — como a quantidade de conexões no cérebro.
Fine-tuning
Processo de pegar um modelo genérico e retreiná-lo com dados específicos do seu domínio (acórdãos, pareceres, nuggets). O modelo fica melhor nas suas tarefas, mas pode perder um pouco de habilidade geral.
Open source / Open weight
Modelos cujos 'pesos' (o conhecimento treinado) são públicos. Llama (Meta), Qwen (Alibaba), Mistral, DeepSeek. Você baixa, roda no seu servidor, e não paga por uso.
LoRA / QLoRA
Técnicas que ajustam apenas uma pequena fração do modelo (1-5% dos parâmetros), reduzindo custo de treinamento em 90% e mantendo 95% da qualidade do treinamento completo.
RAG (Retrieval-Augmented Generation)
O que o AssertIA já usa: busca jurisprudência relevante e passa ao modelo junto com a pergunta. Não muda o modelo — muda o que ele vê na hora de responder.
Ponto-chave para o administrador: Fine-tuning muda o modelo em si. RAG muda o que o modelo consulta. São estratégias complementares, não concorrentes. A pesquisa mostra que combiná-las produz os melhores resultados (86% de acurácia vs 75% do modelo base, em estudo da UC Berkeley).

2. O cenário atual do AssertIA

Hoje

['88% do gasto vai para GPT-4.1 da OpenAI', '~R$30 mil/mês em chamadas de API', 'Todas as tarefas (classificação, geração, busca) usam o mesmo modelo caro', 'Dependência total de um fornecedor — se OpenAI descontinuar GPT-4.1, é preciso migrar', 'Dados saem do TCU para servidores da OpenAI (via Azure, com contrato de confidencialidade)']

Possível com fine-tuning

['Tarefas simples (classificação) rodam em modelo próprio', 'Tarefas complexas (raciocínio jurídico aberto) permanecem no GPT-4.1', 'Custos mensais entre R$5k-R$15k (dependendo do modelo e infraestrutura)', 'Redução de dependência do fornecedor — modelo próprio é portátil', 'Dados podem ficar 100% dentro da infraestrutura do TCU']

Métrica Hoje (API GPT-4.1) Com roteamento de modelos Com fine-tuning + self-hosting
Custo mensal estimado ~R$30.000 ~R$6.000-R$12.000 ~R$5.000-R$15.000
Dependência de fornecedor Alta (OpenAI/Microsoft) Média (múltiplos provedores) Baixa (modelo próprio)
Dados saem do TCU? Sim (via Azure) Sim (múltiplos provedores) Não (se self-hosted no NIA)
Qualidade em tarefas específicas Referência Variável por modelo Pode igualar ou superar
Qualidade em raciocínio aberto Referência Similar Inferior para modelos menores
Equipe técnica necessária Nenhuma DevOps básico ML engineer (pode ser consultor)
Tempo para implementar Já implementado 2-4 semanas 2-4 meses

3. Como funciona o processo de fine-tuning (passo a passo)

Preparar os dados de treinamento

Este é o passo mais crítico e mais trabalhoso. Você precisa de exemplos do tipo 'pergunta → resposta correta' no formato que o modelo deve produzir. Para o domínio jurídico, a literatura recomenda no mínimo 5.000 exemplos de alta qualidade. • Fontes possíveis no AssertIA: acórdãos classificados, nuggets já validados, pareceres com estrutura consistente • Qualidade > quantidade: 1.000 exemplos bem curados valem mais que 10.000 mediocres • Estimativa de esforço: 2-4 semanas de trabalho de um especialista de domínio + desenvolvedor • Custo estimado: R$5.000-R$15.000 (preparação manual ou semi-automatizada)

Escolher o modelo base

Nem todos os modelos funcionam bem em português jurídico. Com base nos benchmarks mais recentes (PoETa v2, LegalBench.PT, OAB-Bench): • Qwen 2.5 (7B-14B): melhor custo-benefício para português — supera Llama em ~10 pontos no PoETa v2 • Sabiá-4 (Maritaca AI): melhor modelo nativo em português, treinado em legislação brasileira — mas é proprietário (API) • Llama 4 Scout (17B ativo, MoE): maior contexto (10M tokens), mas desempenho em PT não é o melhor • DeepSeek V3.2: excelente relação custo/qualidade, mas menos testado em PT jurídico • Recomendação: começar com Qwen 2.5 7B (open weight, bom em PT, cabe em hardware modesto)

Executar o treinamento

Com ferramentas modernas (Unsloth, Axolotl), o treinamento em si é rápido e barato — o gargalo é a preparação de dados, não o treinamento. • Técnica recomendada: QLoRA (ajusta 1-5% do modelo, usa 4x menos memória) • Hardware necessário: 1 GPU A100 ou H100 (aluguel: R$5-15/hora em nuvem) • Tempo de treinamento: 2-12 horas por rodada (modelo de 7B com QLoRA) • Custo por rodada: R$5-R$250 (dependendo do modelo e hardware) • Iterações típicas: 5-15 rodadas até encontrar configuração ótima • Custo total de treinamento: R$250-R$2.500

Avaliar a qualidade

O passo que mais falha em projetos reais. Sem avaliação rigorosa, você não sabe se o modelo treinado é melhor ou pior que o GPT-4.1 para suas tarefas. • Criar conjunto de teste: 200-500 exemplos reservados (nunca usados no treinamento) • Métricas: acurácia, taxa de alucinação, aderência ao formato esperado • Benchmark contra GPT-4.1 nas mesmas tarefas — comparação lado a lado • Avaliação humana: juristas do Núcleo de Dados revisam amostra aleatória • Referência: OAB-Bench mostra que LLM-as-judge tem erro de 0.04-0.28 vs humanos • Risco real (caso Juru): modelo melhorou em direito mas piorou em conhecimento geral — catastrophic forgetting

Implantar em produção

Se a avaliação for positiva, o modelo precisa rodar 24/7 com confiabilidade. Isso requer infraestrutura e monitoramento. • Servir o modelo: vLLM (ferramenta padrão, otimiza throughput) • Hardware de produção: 1 GPU A100/H100 para modelo de 7B (~R$2.500-R$7.500/mês em nuvem) • Alternativa on-premises: se NIA tem GPU, custo é apenas eletricidade (~R$150-R$400/mês) • Monitoramento: acompanhar taxa de erro, latência, e degradação ao longo do tempo • Equipe necessária: DevOps com noções de ML, ou consultor externo por 2-3 meses

Exemplo: ciclo completo de fine-tuning para classificação de acórdãos

Input:

5.000 acórdãos classificados manualmente pelo Núcleo de Dados → formato {texto do acórdão, classificação correta}

Output:

Modelo Qwen 7B fine-tuned que classifica acórdãos novos com acurácia equivalente ao GPT-4.1, rodando no servidor do NIA, sem enviar dados para fora
# Custo estimado do ciclo completo:
# Preparação de dados: R$10.000 (2 semanas, 1 especialista + 1 dev)
# Treinamento (15 rodadas): R$750
# Avaliação: R$2.000 (tempo de juristas)
# Implantação: R$5.000 (consultor ML, 2 semanas)
# TOTAL: ~R$18.000 (investimento único)
# Economia mensal estimada: R$15.000-R$25.000

4. Quem já fez isso (casos reais)

Iniciativa Domínio Modelo base Resultado Lição para o AssertIA
AuditWen (China, 2024) Auditoria governamental Qwen 7B Superou modelos genéricos em 15 tarefas de auditoria com 30k exemplos de treino Caso mais relevante: auditoria é nosso domínio. 30k exemplos foi suficiente.
SaulLM (Edinburgh, NeurIPS 2024) Direito (inglês) Mistral 7B → 54B/141B Estado da arte em LegalBench. Usou dados sintéticos para instrução. Dados sintéticos podem complementar dados reais — reduz custo de preparação.
Juru (Brasil, 2024) Direito brasileiro Sabiá-2 Melhorou OAB e ENADE, mas piorou em conhecimento geral Alerta: catastrophic forgetting é real. Avaliar impacto em tarefas gerais.
ChatLaw (Peking U., 2024) Direito chinês InternLM (MoE 4x7B) Superou GPT-4 em +7.73% no LawBench Arquitetura MoE permite especialização sem perder generalidade.
PRUMe AI (Brasil, 2025) Controle externo RAG + explicabilidade 89% de consistência entre justificativa do LLM e evidência citada RAG com explicabilidade funciona bem para auditoria — e não requer fine-tuning.
Sabiá-4 (Maritaca AI, 2026) Português + direito BR Proprietário Treinado em legislação brasileira, 128K contexto, avaliado em 64 exames BR Se disponível via API, seria alternativa a GPT-4.1 com vantagem em PT-BR.
Atenção: O AuditWen é o único caso público de fine-tuning específico para auditoria. A maioria dos casos é em direito genérico. Isso significa que AssertIA estaria em território relativamente novo — o que é tanto uma oportunidade (diferenciação) quanto um risco (menos referências para comparar).
Contexto institucional: O ChatTCU (TCU) usa GPT via Azure, sem fine-tuning. A OCDE reconheceu o TCU como a única instituição mundial com uso avançado de IA generativa. O GAO (EUA) está em 'fase de experimentação' com LLM próprio. A Índia (CAG) está desenvolvendo um LLM para auditoria. O AssertIA não está isolado — mas também não há um modelo pronto para copiar.

5. As 4 estratégias possíveis (comparação honesta)

Estratégia Custo mensal estimado Qualidade Tempo para implementar Risco Requer ML?
A. Manter GPT-4.1 (status quo) R$30.000 Referência Já implementado Vendor lock-in, dados fora do TCU Não
B. Roteamento de modelos R$6.000-R$12.000 Variável (90-100% por tarefa) 2-4 semanas Baixo — reversível Não
C. Fine-tuning + self-hosting R$5.000-R$15.000 Pode igualar GPT-4.1 em tarefas específicas 2-4 meses Médio — requer dados, avaliação, infra Sim (consultor)
D. Híbrido (B + C) R$8.000-R$15.000 Melhor combinação 3-6 meses (gradual) Médio, mitigado pela abordagem gradual Sim (fase C)
Recomendação: Estratégia D (híbrida), em duas fases. Fase 1 (imediata): roteamento de modelos — enviar tarefas simples para modelos mais baratos (Gemini Flash, GPT-4.1 mini, DeepSeek). Economia imediata de 60-80%. Fase 2 (mês 2-4): piloto de fine-tuning na tarefa de maior volume (classificação de acórdãos), com avaliação rigorosa antes de expandir.
Sem roteamento (hoje)

['Classificação simples → GPT-4.1 ($2.00/M input)', 'Geração de resumo → GPT-4.1 ($8.00/M output)', 'Busca semântica → GPT-4.1', 'Total: ~R$30.000/mês']

Com roteamento (Fase 1)

['Classificação simples → Gemini Flash ($0.15/M input) ou GPT-4.1 nano ($0.10/M input)', 'Geração de resumo → GPT-4.1 (mantém qualidade)', 'Busca semântica → modelo de embedding local (custo zero marginal)', 'Total estimado: ~R$6.000-R$12.000/mês']

6. Riscos que o administrador precisa conhecer

Catastrophic forgetting (esquecimento catastrófico)

Ao treinar o modelo em dados jurídicos, ele pode 'esquecer' habilidades gerais. O caso Juru (Brasil, 2024) é emblemático: melhorou no exame da OAB mas piorou em conhecimento geral. Mitigação: usar LoRA (ajusta pouco do modelo), avaliar tarefas gerais antes e depois.

Qualidade dos dados de treino

O modelo aprende o que você ensina — incluindo erros. Se os 5.000 exemplos de treino contêm classificações incorretas, o modelo vai reproduzir e amplificar esses erros. Mitigação: revisão humana de amostra, usar dados já validados pelo Núcleo de Dados.

Avaliação insuficiente

O erro mais comum em projetos de fine-tuning: o modelo parece funcionar em testes informais, mas falha em produção. Referência: LegalBench.PT tem 12% de erros no próprio benchmark. Mitigação: avaliação formal com conjunto de teste separado, avaliação humana por juristas.

Custo oculto de manutenção

Um modelo fine-tuned não é 'instale e esqueça'. Precisa de monitoramento, retreinamento quando novos dados surgem, e manutenção de infraestrutura. Estimativa: multiplicar o custo de GPU por 1.5-2x para refletir custos reais (DevOps, monitoramento, redundância).

Degradação de safety alignment

Pesquisa recente (ICLR 2025) mostra que fine-tuning pode enfraquecer as proteções de segurança do modelo — mesmo com dados de treino inofensivos. Para uso institucional no TCU, isso requer atenção e testes específicos.

Risco que ninguém está olhando: Não existe benchmark público consolidado para NLP jurídico em português. LegalBench.PT e OAB-Bench são recentes e limitados. Isso significa que avaliar se um modelo fine-tuned é realmente bom para o domínio do TCU vai requerer criar benchmarks internos — trabalho que ninguém está orçando.

7. Recomendações concretas para o AssertIA

Implementar roteamento de modelos (AGORA) ALTO IMPACTO

Não requer fine-tuning, não requer ML engineer, não requer dados de treino. Resultado imediato. • Mapear quais tarefas consomem mais tokens (classificação? geração? busca?) • Rotear tarefas de classificação para Gemini Flash ou GPT-4.1 nano • Manter GPT-4.1 apenas para geração de texto e raciocínio complexo • Economia esperada: 60-80% do custo atual • Tempo: 2-4 semanas • Pré-requisito: levantar distribuição de custo por tarefa (gap já identificado no Brief #001)

Pilotar fine-tuning na tarefa de maior volume (MÊS 2-3) MÉDIO IMPACTO

Escolher UMA tarefa bem definida, com dados abundantes, e testar se um modelo fine-tuned atinge qualidade equivalente. • Candidata provável: classificação de acórdãos (alta volume, formato estruturado) • Modelo sugerido: Qwen 2.5 7B (melhor em PT entre open-weight) • Dados: 5.000+ exemplos já classificados pelo Núcleo de Dados • Avaliação: comparação cega (GPT-4.1 vs fine-tuned) com juristas do Núcleo • Custo do piloto: ~R$18.000 (investimento único — ver detalhamento na seção 3) • Decisão: se acurácia >= 95% do GPT-4.1, expandir; se não, abandonar

Investigar Sabiá-4 como alternativa a GPT-4.1 (PARALELO) MÉDIO IMPACTO

Maritaca AI é brasileira, Sabiá-4 foi treinado em legislação brasileira, e pode ser a alternativa mais direta ao GPT-4.1 sem necessidade de fine-tuning próprio. • Solicitar acesso à API da Maritaca AI • Benchmark Sabiá-4 vs GPT-4.1 nas tarefas do AssertIA • Avaliar custo por token da Sabiá-4 • Vantagem: modelo nativo em PT-BR, treinado em direito brasileiro

Levantar inventário de hardware do NIA (PARALELO) INCREMENTAL

Se o NIA tem GPUs (A100, V100, ou equivalente), o self-hosting fica dramaticamente mais barato — custo cai de R$7.500/mês (nuvem) para ~R$400/mês (eletricidade). • Confirmar com Luis Henrique / SETIC que hardware está disponível e alocável • Verificar se infraestrutura de rede suporta servir modelo via API interna

8. NOTA: O que esta análise NÃO pode afirmar (revisão adversarial)

Este report foi submetido a revisão adversarial por GPT-5.4 e Grok-4.20. Ambos concordaram no ponto central: sem dados reais de distribuição de workload do AssertIA (quanto é classificação vs geração vs busca, custo por tarefa, volume por fluxo), toda estimativa de economia é especulativa. As cifras apresentadas (R$15-25k de economia mensal, break-even em 3-6 meses) são extrapolações de benchmarks genéricos, não projeções baseadas em evidência local.
O estudo da UC Berkeley (86% vs 75%) não é em domínio jurídico português

Citamos esse estudo para mostrar que fine-tuning + RAG supera cada abordagem isolada. Isso é verdade no domínio agrícola onde foi testado. A transferência para jurisprudência do TCU é uma hipótese, não um fato.

Custos operacionais estão provavelmente subestimados

O treino em si é barato. Operar um modelo em produção com confiabilidade institucional (SLA, fallback, monitoramento, retreinamento) não é. A literatura sugere multiplicar custos de GPU por 1.5-2x — mas em contexto governamental, pode ser mais. Sem experiência operacional própria, este é um número desconhecido.

Em contexto de alto risco institucional, erros custam mais que economia

O TCU fiscaliza. Um modelo que erra classificação de acórdão pode gerar consequência institucional. A economia de R$20k/mês não compensa se gerar um incidente. Por isso a recomendação de piloto com avaliação rigorosa (não expansão direta) permanece — mas deve ser lida como 'teste a hipótese', não 'implemente a solução'.

O que precisa existir antes de qualquer decisão: (1) Distribuição real de custo por tarefa no pipeline. (2) Avaliação de qualidade do GPT-4.1 nas tarefas atuais (baseline). (3) Inventário de hardware do NIA. Sem esses três dados, esta pesquisa é mapa teórico, não plano de ação.

9. Próximos passos

Agora
Mês 1-2
Mês 2-4
Para investigar depois

Referencias

  1. RAG vs Fine-Tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture (UC Berkeley, 2024) https://arxiv.org/abs/2401.08406 ArXiv
  2. RAFT: Adapting Language Model to Domain-Specific RAG (UC Berkeley/Microsoft/Meta, 2024) https://arxiv.org/abs/2403.10131 ArXiv
  3. AuditWen: An Open-Source Large Language Model for Audit (CCL 2024 / FinNLP 2025) https://arxiv.org/abs/2410.10873 ArXiv
  4. SaulLM-7B/54B/141B: A Large Language Model for Law (NeurIPS 2024) https://arxiv.org/abs/2403.03883 ArXiv
  5. Juru: Legal Brazilian Large Language Model (2024) https://arxiv.org/html/2403.18140v1 ArXiv
  6. Sabiá-4 Technical Report (Maritaca AI, 2026) https://arxiv.org/html/2603.10213v1 ArXiv
  7. LegalBench.PT: Benchmark for Portuguese Legal NLP (2025) https://arxiv.org/abs/2502.16357 ArXiv
  8. PoETa v2: Portuguese Evaluation of Language Models (2025) https://arxiv.org/html/2511.17808 ArXiv
  9. OAB-Bench: Brazilian Bar Exam for LLMs (Maritaca AI, 2025) https://arxiv.org/abs/2504.21202 ArXiv
  10. Tucano 2: Open Portuguese LLMs (2026) https://arxiv.org/abs/2603.03543 ArXiv
  11. InternLM-Law: Legal LLM (COLING 2025) https://arxiv.org/html/2406.14887 ArXiv
  12. PRUMe AI: NLP + Explainability for External Control Audit (2025) https://periodicos.newsciencepubl.com/arace/article/view/8409 Periódico acadêmico
  13. LoRA Fine-Tuning Cost Analysis 2026 (Stratagem) https://www.stratagem-systems.com/blog/lora-fine-tuning-cost-analysis-2026 Blog técnico
  14. GPU Cloud Pricing Comparison 2026 (Spheron) https://www.spheron.network/blog/gpu-cloud-pricing-comparison-2026/ Blog técnico
  15. LLM Total Cost of Ownership (Ptolemay, 2025) https://www.ptolemay.com/post/llm-total-cost-of-ownership Blog técnico
  16. TCU: Guia de Uso de IA Generativa https://portal.tcu.gov.br/data/files/42/F7/91/4B/B59019105E366F09E18818A8/Guia%20de%20uso%20de%20IA%20generativa%20no%20TCU.pdf Documento oficial TCU
  17. GAO AI Experimentation (FedScoop, 2025) https://fedscoop.com/gao-in-experimentation-phase-with-ai-model-to-query-reports-inform-its-work/ WebSearch