민간협력형 : 날씨에 따른 소비패턴 분석 ⛅️
- 온라인 판매 데이터로 날씨에 따른 소비패턴을 분석하고 예측하여, 날씨와 아이템 특성을 반영한 상품을 추천합니다.
- 보고서 를 통해 분석 과정에 대해 확인하실 수 있으며, Dashboard 를 통해 날씨 빅데이터 마케팅 플랫폼을 경험하실 수 있습니다.
- 날씨에 민감한 상품군 분석
- 소비패턴 트렌드 분석
- 날씨에 따른 수요 예측
- 결과 활용 방안 제시
주어진 내부 데이터는 2018.01 ~ 2019.12 2년 동안의 온라인 구매이력과 소셜 데이터 입니다.
2년간의 날씨 데이터, 외부 이슈 데이터, 지역 데이터를 추가로 수집해 분석하였습니다.
분석은 다음 순서로 진행되며, 분석 과정을 클릭하시면 자세한 설명을 참고하실 수 있습니다.
1. 상품 필터링 & 분류
: 상관관계 분석 & 단위근 검정
- Spearman Correlation 기준으로, 날씨와 상관관계 높은 상품을 선택합니다.
- 날씨와 상관관계가 높은 상품에 대하여, 2년간의 일별 판매량 추이에 대해 ADF Test 를 통해
정상 (일별 판매량 변동성이 크지 않고, 계절성이 크지 않은 상품),
비정상 (일별 판매량 변동성이 크고, 계절에 따른 판매량 차이가 큰 상품) 시계열 상품군으로 구분합니다.
2. 날씨와의 인과관계 검정
: Granger Causality Test
- 날씨가 상품 판매량에 영향을 미치는, 날씨변수와 인과관계가 있는 상품군을 선택하기 위한 과정입니다.
- 날씨・상품 판매량이 모두 정상 시계열인 경우 VAR & Granger 인과관계 검정을 수행하며,
날씨・상품 판매량 중 하나라도 비정상 시계열인 경우 VECM & Granger 인과관계 검정을 수행합니다.
3. 상품 판매량 예측
: LSTM / Time Series Clustering + Machine Learning
- 정상 시계열 상품의 경우, 인과관계가 있는 날씨 변수를 선택하여 LSTM 을 통해 예측합니다.
- 비정상 시계열 상품의 경우, Time Series Clustering을 통해 비슷한 추세를 가진 상품군끼리 묶은 후,
각 군집별로 Machine Learning 모델을 통해 상품 판매량 추세를 예측합니다. - 날씨의 영향력을 파악하기 위해, 날씨 변수 별로 시간에 따른 SHAP 을 시각화하여 결과를 해석했습니다.
4. 날씨 기반 추천시스템
: Recommender System
- Item-based CF 기반으로, 해당 상품의 특성을 반영하여 다른 상품을 추천합니다.
- 고객 타겟층을 설정하고, 날씨(강수 여부/미세먼지)를 설정해 유사도 기반으로 상품을 추천합니다.
5. Dashboard
: 온라인 소비패턴 분석 서비스
- 고객 맞춤형 전략을 위한 날씨 빅데이터 마켓팅 플랫폼 Dashboard 입니다.
- 1 상품의 특성 (날씨와의 인과관계 여부), 2 날씨와의 관계, 3 상품 분석 (성・연령별 구매건수 추이),
4 SNS 언급량 (상품 판매량에 유의한 lag + 언급량 추세), 5 추천시스템 으로 구성되어 있습니다. - 대회 규정에 따라 Dashboard 링크는 제공하지 않습니다.
Bomin Kim |
Jaebeen Lee |
Hyerin Lee |
📂 빠른이들
├── 1-Data-Preprocessing.ipynb
├── 2-Correlation.ipynb
├── 3-Granger-Causality-Test.ipynb
├── 4-LSTM.ipynb
├── 5-TSClustering_ML.ipynb
├── 6-Recommender-System.ipynb
│
├── dataload.py
├── HIVEdataload.R # SQL : 날씨마루 데이터 불러오기
│
├── 📂 기상청데이터
├── 📂 내부데이터
│ ├── buy2018_1.csv
│ ├── ...
│ └── sns2019_2.csv
│
├── 📂 외부데이터
│ ├── trendsearch.csv # 네이버 검색어 트렌드
│ ├── trend_with_weather.csv # 네이버 날씨 정보 검색어 트렌드
│ ├── 시도별_주민등록_인구현황.csv # 통계청 시도별 총인구수
│ ├── 소비자심리지수_seoul_past.csv # 통계청 서울 소비자심리지수
│ ├── 소비자심리지수_other_past.csv # 통계청 지역별 소비자심리지수
│ │
│ ├── 📂 2018 # 2018 에어코리아 미세먼지 데이터
│ │ ├── 2018년 1분기.xlsx
│ │ └── ...
│ └── 📂 2019 # 2019 에어코리아 미세먼지 데이터
│ ├── 2018년 1월.xlsx
│ └── ...
│
├── 📂 최종데이터 # 분석 과정 중 생성된 데이터
└── 📂 최종결과
├── LSTM_result.csv # 정상시계열 상품군 예측 결과
└── nonst_high_for_dashboard_0622.csv # 비정상시계열 상품군 예측 결과