IKEA 제품 크롤링 데이터를 카테고리별 태그 및 메타데이터로 전처리하는 도구입니다.
.
├── crawler.py # IKEA 제품 크롤링 스크립트
├── category_logic.py # 카테고리별 태그 추출 및 매핑 로직
├── main_preprocessor.py # 공통 전처리 실행 스크립트
├── requirements.txt # Python 의존성 패키지
├── data/ # 크롤링된 원본 JSON 파일 저장 디렉토리
└── output/ # 전처리된 결과 파일 저장 디렉토리
pip install -r requirements.txtpython crawler.py크롤링된 데이터는 data/ 디렉토리에 저장됩니다.
# 기본 사용법 (data/ 폴더에서 읽고 output/ 폴더에 저장)
python main_preprocessor.py blanket
python main_preprocessor.py chair
python main_preprocessor.py curtain
python main_preprocessor.py light
python main_preprocessor.py poster
python main_preprocessor.py textile
python main_preprocessor.py tablecloth
python main_preprocessor.py table
# 커스텀 경로 지정
python main_preprocessor.py blanket /path/to/data /path/to/output| 카테고리 | 설명 | 입력 파일 | 출력 접두사 |
|---|---|---|---|
blanket |
침구류 | blanket_products.json |
blanket_ |
chair |
의자/테이블 | chair_products.json |
chair_ |
curtain |
커튼/블라인드 | curtain_products.json |
curtain_ |
light |
조명 | light_products.json |
light_ |
poster |
포스터/액자 | poster_products.json |
poster_ |
textile |
텍스타일(러그) | rug_products.json |
textile_ |
tablecloth |
식탁보 | table_cloth_products.json |
tablecloth_ |
table |
테이블/책상 | table_products.json |
table_ |
각 카테고리 전처리 시 3개의 파일이 생성됩니다:
-
{category}_products_processed.json: 전처리된 제품 데이터- 제품 번호, 이름, 설명, 가격, 카테고리, 이미지 URL, 태그 포함
-
{category}_tags_master.json: 고유 태그 마스터 리스트- 중복 제거된 모든 태그 정보 (name, type)
-
{category}_product_tags.json: 제품-태그 매핑 정보- 각 제품에 연결된 태그 목록
모든 카테고리는 다음 태그 타입을 사용합니다:
- MOOD: 감성적 분위기 (COZY, WARM, SOFT 등)
- COLOR: 색상 (WHITE, BLACK, BEIGE 등)
- MATERIAL: 소재 (COTTON, WOOD, METAL 등)
- FEATURE: 기능적 특성 (ADJUSTABLE, DURABLE, EASY_CARE 등)
- PRODUCT_TYPE: 제품 유형 (CHAIR, TABLE, CURTAIN 등)
- SIZE: 크기 (SINGLE, DOUBLE, QUEEN 등)
- USAGE: 사용 용도 (BEDROOM, LIVING_ROOM, OUTDOOR 등)
- STYLE: 스타일 (MINIMALIST, MODERN, NORDIC 등)
전처리 실행 시 다음 통계가 출력됩니다:
- 카테고리별 제품 분포
- 고유 태그 개수
- 태그 타입별 개수
- 가장 많이 사용된 태그 TOP 20
- 제품당 평균 태그 수
- 샘플 제품 데이터
- Python 3.8+
- Selenium: 웹 크롤링
- Collections: 데이터 통계 처리