Arquitetura

Esta seção descreve o passo a passo completo da pipeline de forma geral.

Arquitetura do Projeto

1. Preparação dos Dados

Realizamos o download do dataset histórico de corridas da Fórmula 1 no Kaggle.
Exploramos os arquivos CSV para entender as tabelas disponíveis e os relacionamentos entre elas.

Instanciamos um banco de dados SQL Server na nuvem, com as tabelas populadas.
Esse banco relacional serviu como fonte para a extração de dados bruta da pipeline.

Criamos uma conta de armazenamento no Azure Data Lake Gen2.
Estruturamos os dados nas seguintes camadas conforme a arquitetura em formato de medalhão:
landing: Dados brutos extraídos do SQL Server.
bronze: Dados organizados por pastas/tabelas, mas ainda sem transformações profundas.
silver: Dados limpos, com joins, nomes padronizados e tipos convertidos.
gold: Tabelas analíticas prontas para visualização e exploração (fatos e dimensões).

Algumas partes do ambiente (como a criação do Azure Data Lake) foram automatizadas com Terraform, permitindo versionamento e reuso da infraestrutura.