Pipelines de publicacao de dados do DestaquesGovBr.
Sincroniza noticias do PostgreSQL (Cloud SQL) para o HuggingFace, mantendo dois datasets publicos atualizados diariamente:
- nitaibezerra/govbrnews — dataset completo (24 colunas)
- nitaibezerra/govbrnews-reduced — dataset reduzido (4 colunas)
A DAG sync_postgres_to_huggingface roda diariamente as 6 AM UTC no Cloud Composer:
- Busca noticias do dia anterior no PostgreSQL
- Consulta IDs ja existentes no HuggingFace (via Dataset Viewer API)
- Filtra apenas registros novos
- Cria parquet shard e faz upload incremental
- Sanitiza metadata do README.md
Uso de memoria: ~10MB (apenas novos registros) vs ~1-2GB se baixasse o dataset completo.
src/data_publishing/hf/ # Modulos Python (deploy como plugins no Composer)
dags/ # DAGs Airflow
tests/unit/ # Testes unitarios