-
Notifications
You must be signed in to change notification settings - Fork 2
Organização de Pastas e Integração Final dos Scripts #28
Description
📦 Organização de Pastas e Integração Final dos Scripts
📌 Contexto
Atualmente, a pipeline de scraping está estruturada para processar dados de diferentes sites imobiliários (como df-imoveis, net-imoveis, quinto-andar, etc.). O fluxo segue a lógica abaixo:
🔄 Etapas para cada site:
O script realiza o web scraping.
(Opcional) Aplica funções auxiliares dos módulos utils/data_handler e utils/data_cleaning.
Essas funções podem ser aplicadas somente na fase final, mas estão sendo testadas individualmente nos scripts para facilitar o desenvolvimento.
São gerados dois arquivos de saída:
raw_listings: dados crus extraídos.
detailed_properties: dados parcialmente limpos e estruturados.
Em seguida, um processo central coleta todos os arquivos detailed_properties e os copia para a pasta pipeline/raw_final_output, dando início à fase de unificação dos dados.
🧪 Fase Final da Pipeline
Na pasta pipeline/, ocorre o seguinte fluxo:
✅ Objetivo da Issue
Implementar esse fluxo para os scripts que ainda não estão integrados com a fase final da pipeline. Isso inclui:
Garantir que cada script:
Gere corretamente os arquivos raw_listings e detailed_properties.
Envie seu detailed_properties para pipeline/raw_final_output.
🛠️ Scripts que precisam ser adaptados
quinto-andar
-
net-imoveis
-
viva-real
-
zap-imoveis
📌 Tarefas a Realizar
Revisar o código de cada script listado acima.
Garantir a geração dos arquivos raw_listings e detailed_properties.
Adicionar o mecanismo de cópia/movimentação para pipeline/raw_final_output.
Verificar se os formatos e nomes dos arquivos seguem o padrão esperado pela pipeline final.
(Opcional) Refatorar uso de utils se houver duplicações ou inconsistências.