파이썬 데이터 분석 팀 프로젝트 (instacart_kaggle)
미국의 식료품 배달 이커머스 플랫폼 ‘Instacart’의 실제 사용자 구매 기록을 바탕으로 구성된 데이터셋
데이터 셋 설명
데이터명: instacart.csv
열(column): 33819106(대략 3천3백만개)
행(row): 15
출처: kaggle
주요 칼럼과 변수설명
데이터 개요
1. 총 주문 기록 수: 약 33,819,106건
2. 고유 고객 수 (user_id): 약 206,000명 (정확하게 206209명)
3. 고유 상품 수 (product_name): 약 49,000개 (49685개)
데이터 일변량 EDA (1차 탐색)
Instacart 병합 데이터 (df)를 기준으로 한 변수씩 독립적으로 살펴보는 분석
범주형 변수 EDA ( 이 범주형 데이터가 얼마나 자주 나오는지, 어떤 게 많은지 알아보는 분석)
① 요일별 주문 분포
일요일(0)과 월요일(6)에 주문량많음
=마케팅 타이밍에 활용가능미국의 식료품 배달 이커머스 플랫폼 ‘Instacart’의 실제 사용자 구매 기록을 바탕으로 구성된 데이터셋
=마케팅 타이밍에 활용가능
->확인방법
orders['order_dow'].value_counts().sort_index()
0(일요일) = 60만건으로 제일 많음
1(월요일)= 58만건으로 2번째로 많음
② 각 시간대별 주문분포
시간대별 주문 분포 (order_hour_of_day)
- 오전 10시 ~ 오후 3시 사이 주문 가장 많음
- **정오(12시 전후)**에 집중
--> 확인
10시->11시->15시->14시 순으로 많았음
③ 카테고리별 상품 분포 (department)
- 가장 인기 있는 카테고리:
- produce (신선 식품)
- dairy eggs (유제품 및 달걀)
- beverages (음료)
수치형 변수 EDA
①재구매율 (reordered)
- 전체 주문 중 약 59%가 재구매 상품
- 고객들이 자주 동일 상품을 반복 구매함
②장바구니에 담은 순서 (add_to_cart_order)
- 평균: 한 번 주문할 때 대략 8~9개 정도 상품을 담는다는 의미
- 분포: 초반에 담는 상품은 익숙하거나 필수인 품목일 가능성
- add_to_cart_order가 작을수록 고객이 먼저 담는, 익숙한 제품일 가능성이 큼 → 즉, 고정적으로 구매하는 상품일 확률 높음
- 추천 알고리즘
- 리텐션 전략 적용가능
리텐션 전략(Retention Strategy)이란?
고객을 오래 유지하는 전략이다.
쉽게 말해, “고객이 우리 서비스를 다시 찾아오게 만드는 방법”
예시:
- 고객이 자주 구매하는 상품을 추천
- 첫 번째로 담은 상품에 할인 쿠폰 제공
- 장바구니에 항상 담는 상품을 정기배송으로 유도
이런것도 확인가능
- "재구매율 vs 담은 순서" 상관관계 분석
- 처음 담는 상품 TOP10
③ 이전 주문까지 걸린 일수 (days_since_prior_order)
- 첫 주문은 결측치 (NaN)
- 평균 간격: 약 11~12일
- 주기적으로 쇼핑하는 패턴 있음
- 월 단위 구독 모델 기회