Arquitetura
Esta seção descreve o passo a passo completo da pipeline de forma geral.
1. Preparação dos Dados
- Realizamos o download do dataset histórico de corridas da Fórmula 1 no Kaggle.
- Exploramos os arquivos CSV para entender as tabelas disponíveis e os relacionamentos entre elas.
2. Modelagem Relacional
- A partir da análise, construímos um modelo entidade-relacionamento (ER)
- Criamos scripts SQL para:
- Criação das tabelas no SQL Server.
- Inserção dos dados a partir dos arquivos CSV.
3. Instanciar Banco Relacional
- Instanciamos um banco de dados SQL Server na nuvem, com as tabelas populadas.
- Esse banco relacional serviu como fonte para a extração de dados bruta da pipeline.
4. Armazenamento em Nuvem: Azure Data Lake
- Criamos uma conta de armazenamento no Azure Data Lake Gen2.
- Estruturamos os dados nas seguintes camadas conforme a arquitetura em formato de medalhão:
landing
: Dados brutos extraídos do SQL Server.bronze
: Dados organizados por pastas/tabelas, mas ainda sem transformações profundas.silver
: Dados limpos, com joins, nomes padronizados e tipos convertidos.gold
: Tabelas analíticas prontas para visualização e exploração (fatos e dimensões).
5. Processamento com Databricks + PySpark
- Utilizamos o Azure Databricks para construir os notebooks responsáveis por:
- Ingestão dos dados de cada camada do Data Lake.
- Aplicação das transformações.
- Construção do modelo dimensional com tabelas de fatos e dimensões.
6. Visualização de Dados
- Utilizando o Databricks construímos dashboards que apresentam:
- Os pilotos mais rápidos por circuito ao longo dos anos.
- As pistas com maior número de acidentes e colisões.
7. Provisionamento com Terraform
- Algumas partes do ambiente (como a criação do Azure Data Lake) foram automatizadas com Terraform, permitindo versionamento e reuso da infraestrutura.