Skip to content

ITA-Roome/roome-data-pipeline

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IKEA Product Data Preprocessing

IKEA 제품 크롤링 데이터를 카테고리별 태그 및 메타데이터로 전처리하는 도구입니다.

📂 프로젝트 구조

.
├── crawler.py              # IKEA 제품 크롤링 스크립트
├── category_logic.py       # 카테고리별 태그 추출 및 매핑 로직
├── main_preprocessor.py    # 공통 전처리 실행 스크립트
├── requirements.txt        # Python 의존성 패키지
├── data/                   # 크롤링된 원본 JSON 파일 저장 디렉토리
└── output/                 # 전처리된 결과 파일 저장 디렉토리

🚀 빠른 시작

1. 의존성 설치

pip install -r requirements.txt

2. 데이터 크롤링 (선택사항)

python crawler.py

크롤링된 데이터는 data/ 디렉토리에 저장됩니다.

3. 데이터 전처리

# 기본 사용법 (data/ 폴더에서 읽고 output/ 폴더에 저장)
python main_preprocessor.py blanket
python main_preprocessor.py chair
python main_preprocessor.py curtain
python main_preprocessor.py light
python main_preprocessor.py poster
python main_preprocessor.py textile
python main_preprocessor.py tablecloth
python main_preprocessor.py table

# 커스텀 경로 지정
python main_preprocessor.py blanket /path/to/data /path/to/output

📊 지원 카테고리

카테고리 설명 입력 파일 출력 접두사
blanket 침구류 blanket_products.json blanket_
chair 의자/테이블 chair_products.json chair_
curtain 커튼/블라인드 curtain_products.json curtain_
light 조명 light_products.json light_
poster 포스터/액자 poster_products.json poster_
textile 텍스타일(러그) rug_products.json textile_
tablecloth 식탁보 table_cloth_products.json tablecloth_
table 테이블/책상 table_products.json table_

📤 출력 파일

각 카테고리 전처리 시 3개의 파일이 생성됩니다:

  1. {category}_products_processed.json: 전처리된 제품 데이터

    • 제품 번호, 이름, 설명, 가격, 카테고리, 이미지 URL, 태그 포함
  2. {category}_tags_master.json: 고유 태그 마스터 리스트

    • 중복 제거된 모든 태그 정보 (name, type)
  3. {category}_product_tags.json: 제품-태그 매핑 정보

    • 각 제품에 연결된 태그 목록

🏷️ 태그 타입

모든 카테고리는 다음 태그 타입을 사용합니다:

  • MOOD: 감성적 분위기 (COZY, WARM, SOFT 등)
  • COLOR: 색상 (WHITE, BLACK, BEIGE 등)
  • MATERIAL: 소재 (COTTON, WOOD, METAL 등)
  • FEATURE: 기능적 특성 (ADJUSTABLE, DURABLE, EASY_CARE 등)
  • PRODUCT_TYPE: 제품 유형 (CHAIR, TABLE, CURTAIN 등)
  • SIZE: 크기 (SINGLE, DOUBLE, QUEEN 등)
  • USAGE: 사용 용도 (BEDROOM, LIVING_ROOM, OUTDOOR 등)
  • STYLE: 스타일 (MINIMALIST, MODERN, NORDIC 등)

📈 통계 정보

전처리 실행 시 다음 통계가 출력됩니다:

  • 카테고리별 제품 분포
  • 고유 태그 개수
  • 태그 타입별 개수
  • 가장 많이 사용된 태그 TOP 20
  • 제품당 평균 태그 수
  • 샘플 제품 데이터

🛠️ 기술 스택

  • Python 3.8+
  • Selenium: 웹 크롤링
  • Collections: 데이터 통계 처리

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages