Fonte: Diário Oficial da União
Projeto elaborado com as PyLadies SP no Open Data Day (07/03/2026) que demonstra como automatizar a coleta de dados públicos, por meio de webscraping pelo Selenium, organizar os dados coletados e realizar uma análise exploratória inicial.
O Diário Oficial da União publica diariamente atos administrativos, incluindo contratos firmados por órgãos do governo federal. Neste projeto, realizamos uma busca pela palavra-chave: “materiais didáticos” para identificar contratos firmados com o Ministério da Educação (MEC) ao longo de 2025.
Demonstrar, de forma prática, como automatizar tarefas de coleta de dados na web, incluindo:
- navegação automatizada em páginas web
- interação com elementos da página (botões, campos de busca, filtros)
- extração de informações estruturadas
- navegação entre páginas de resultados
- organização dos dados para análise
O projeto utiliza:
- Python
- Google Colab
- Bibliotecas: Selenium, Pandas e Matplotlib
A raspagem de dados consiste em:
- acessar o site do Diário Oficial da União
- realizar uma busca pela expressão “materiais didáticos”
- aplicar filtros para identificar contratos do Ministério da Educação em 2025
- percorrer as páginas de resultados
- extrair informações relevantes de cada contrato
As principais informações coletadas são:
- número do processo
- órgão contratante
- empresa contratada
- objeto do contrato
- vigência
- valor total do contrato
- data de assinatura
Com isso, o conjunto de dados final possui as seguintes colunas:
processocontratantecontratadoobjetovigenciavalor_totaldata_assinaturames
Ao final do processo, o dataset é exportado em formato CSV, permitindo que ele seja utilizado em outras ferramentas de visualização e análise.
Após a coleta e limpeza dos dados, para entender o comportamento das contratações, foi feita a seguinte análise:
1️⃣Estatísticas descritivas dos contratos
2️⃣ Gasto total em materiais didáticos em 2025
3️⃣ Valor médio dos contratos
4️⃣ Top 10 contratos mais caros
5️⃣ Contrato mais barato
6️⃣ Licitantes mais selecionados
7️⃣ Concentração de fornecedores (HHI)
8️⃣ Mês com mais contratos
9️⃣ Mês com maior volume financeiro
Este projeto pode ser expandido de diversas formas, por exemplo:
- ampliar a coleta para outros anos
- analisar concentração de fornecedores
- construir dashboards interativos
- integrar a coleta com APIs ou automações periódicas