- 경희대학교 최적 사업 아이템 선정
-
경희대와 비슷한 상권을 찾기 위해 경기도 내 대학 7개(경기대, 단국대,명지대,성균관대,수원대,아주대,용인대)의 데이터 수집
→ 상권의 수요와 공급의 측면에서 유사성 판단
- 상권 데이터(공급)
- 유동 인구 데이터(수요)
-
유사도 측정법
-> 코사인 유사도 사용
→ 왜 하필 코사인 유사도?
❗ 벡터의 방향, 즉 패턴이 중요했기 때문
ex. 경희대 상권에 10대 5천명, 20대 2만명 있다고 치자. 아주대 상권은 10대 500명, 20대 2천명일 수 있음. 절대 숫자는 다르지만, 10대:20대 비율이 똑같으면 두 상권은 “유사한 연령 구조”라고 볼 수 있음.
-
코드 파일
-
결과
- 상권 데이터(공급, sim_market) 유사도
경기대 : 0.944
단국대 : 0.775
명지대 : 0.869
용인대 : 0.714
성균관대 : 0.685
수원대 : 0.659
아주대 : 0.816
- 유동 인구 데이터(수요, sim_demo) 유사도
경기대 : -0.284
단국대 : 0.538
명지대 : 0.508
용인대 : 0.438
성균관대 : 0.313
수원대 : -0.620
아주대 : -0.698
- 최종 유사도 판단
FinalSim=α⋅sim_market+(1−α)⋅sim_demo
- α = 0.3으로 설정!
상권을 이용하는 ‘수요’의 측면이 상권별 유사도와 더 직결적으로 연결된다고 판단했기에, 유동 인구의 유사도에 더욱 가중치를 부여
최종 결과
1위 명지대
2위 단국대
3위 용인대
-
크게 수요, 공급, 지속성,수익성 4개의 특성을 반영해 최종 사업 성공 여부 예측
-
수요
- 구글 검색량 데이터 : 사람들의 관심도 반영
→ 2022 01 - 2024 12 3년간의 검색량 추이를 기울기화
-
공급
- 업종 과밀도 : (해당 카테고리 매장 수) / (전체 매장 수)
- 점포수 데이터 전처리
-
지속성
- 매출 안정성
- 2022 01 - 2024 12 3년간의 매출의 평균, 표준편차를 활용해 CV(변동계수) 계산
- 변동계수 (CV) = 표준편차 ÷ 평균
< 0.1: 매우 안정적
0.1-0.2: 안정적
0.2-0.3: 보통
0.3 > : 불안정 - 매출 데이터 전처리
- 생존율
- 생존율 데이터 전처리
- 매출 안정성
-
수익성
- 순이익 데이터 (매출 - 임대료)
- ‘성공 여부’라는 변수를 점수화?
- 비지도 학습
❗비지도 학습 선택
타겟 변수가 없는 상황(라벨이 없다)에서 성공/실패에 대한 기준을 잡고자 비지도학습 사용
-
KMeans 군집화 사용
-
K=4,5,6각각 수행, PCA 및 클러스터별 동향 분석 -> K=6
-
엘보, 실루엣 계수 방법을 활용해서 K=6 선택
-
💡경희대 근처 21개의 카테고리 출력(cluster 2)
최종적으로 5개의 카테고리를 추천하자!
→ KMeans 방식으로 출력된 cluster3 : 유망 / 이외 : 비유망으로 라벨을 매긴 후 랜덤포레스트 모델을 만들어 특성의 중요도 파악
→ 해당 중요도 별로 가중치를 매겨 ‘최종점수’ 특성 생성
💡 최종 5개 카테고리 출력
- 중식
- 간이음식 포장전문점
- 별식/퓨전요리
- 세탁/가사서비스
- 일반스포츠