Organização de Pastas e Integração Final dos Scripts

# 📦 Organização de Pastas e Integração Final dos Scripts

## 📌 Contexto
Atualmente, a pipeline de scraping está estruturada para processar dados de diferentes sites imobiliários (como df-imoveis, net-imoveis, quinto-andar, etc.). O fluxo segue a lógica abaixo:

## 🔄 Etapas para cada site:
O script realiza o web scraping.

(Opcional) Aplica funções auxiliares dos módulos utils/data_handler e utils/data_cleaning.

Essas funções podem ser aplicadas somente na fase final, mas estão sendo testadas individualmente nos scripts para facilitar o desenvolvimento.

São gerados dois arquivos de saída:

raw_listings: dados crus extraídos.

detailed_properties: dados parcialmente limpos e estruturados.

Em seguida, um processo central coleta todos os arquivos detailed_properties e os copia para a pasta pipeline/raw_final_output, dando início à fase de unificação dos dados.

## 🧪 Fase Final da Pipeline
Na pasta pipeline/, ocorre o seguinte fluxo:

<img width="1165" height="808" alt="Image" src="https://github.com/user-attachments/assets/3153d290-7529-41d6-a8ed-1e2aaa67c291" />

## ✅ Objetivo da Issue
Implementar esse fluxo para os scripts que ainda não estão integrados com a fase final da pipeline. Isso inclui:

Garantir que cada script:

Gere corretamente os arquivos raw_listings e detailed_properties.

Envie seu detailed_properties para pipeline/raw_final_output.

🛠️ Scripts que precisam ser adaptados
 quinto-andar

- [ ]  net-imoveis

- [ ]  viva-real

- [ ]   zap-imoveis

📌 Tarefas a Realizar
 Revisar o código de cada script listado acima.

 Garantir a geração dos arquivos raw_listings e detailed_properties.

 Adicionar o mecanismo de cópia/movimentação para pipeline/raw_final_output.

 Verificar se os formatos e nomes dos arquivos seguem o padrão esperado pela pipeline final.

 (Opcional) Refatorar uso de utils se houver duplicações ou inconsistências.




Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Organização de Pastas e Integração Final dos Scripts #28

📦 Organização de Pastas e Integração Final dos Scripts

📌 Contexto

🔄 Etapas para cada site:

🧪 Fase Final da Pipeline

✅ Objetivo da Issue

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Organização de Pastas e Integração Final dos Scripts #28

Description

📦 Organização de Pastas e Integração Final dos Scripts

📌 Contexto

🔄 Etapas para cada site:

🧪 Fase Final da Pipeline

✅ Objetivo da Issue

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions