Project/Python

파이썬 데이터 분석 팀 프로젝트 (instacart_kaggle)

sYOUNG_DA 2025. 3. 20. 19:01

미국의 식료품 배달 이커머스 플랫폼 ‘Instacart’의 실제 사용자 구매 기록을 바탕으로 구성된 데이터셋

 

데이터 셋 설명 

데이터명: instacart.csv

열(column): 33819106(대략 3천3백만개)

행(row): 15

출처: kaggle

 

주요 칼럼과 변수설명 

데이터 개요

1. 총 주문 기록 수: 약 33,819,106건

2. 고유 고객 수 (user_id): 약 206,000명 (정확하게 206209명)

3. 고유 상품 수 (product_name): 약 49,000개 (49685개)


데이터 일변량 EDA (1차 탐색)

Instacart 병합 데이터 (df)를 기준으로 한 변수씩 독립적으로 살펴보는 분석

 

범주형 변수 EDA ( 이 범주형 데이터가 얼마나 자주 나오는지, 어떤 게 많은지 알아보는 분석)

 

① 요일별 주문 분포

일요일(0)과 월요일(6)에 주문량많음 

=마케팅 타이밍에 활용가능미국의 식료품 배달 이커머스 플랫폼 ‘Instacart’의 실제 사용자 구매 기록을 바탕으로 구성된 데이터셋

=마케팅 타이밍에 활용가능

 

->확인방법 

orders['order_dow'].value_counts().sort_index()

0(일요일) = 60만건으로 제일 많음 

1(월요일)= 58만건으로 2번째로 많음 

 

② 각 시간대별 주문분포 

시간대별 주문 분포 (order_hour_of_day)

  • 오전 10시 ~ 오후 3시 사이 주문 가장 많음
  • **정오(12시 전후)**에 집중

--> 확인 

10시->11시->15시->14시 순으로 많았음 

 

③ 카테고리별 상품 분포 (department)

  • 가장 인기 있는 카테고리:
    1. produce (신선 식품)
    2. dairy eggs (유제품 및 달걀)
    3. beverages (음료)

 


수치형 변수 EDA

 

①재구매율 (reordered)

  • 전체 주문 중 약 59%가 재구매 상품
  • 고객들이 자주 동일 상품을 반복 구매

②장바구니에 담은 순서 (add_to_cart_order)

  • 평균: 한 번 주문할 때  대략 8~9개 정도 상품을 담는다는 의미
  • 분포: 초반에 담는 상품은 익숙하거나 필수인 품목일 가능성
  • add_to_cart_order가 작을수록 고객이 먼저 담는, 익숙한 제품일 가능성이 큼 → 즉, 고정적으로 구매하는 상품일 확률 높음 

- 추천 알고리즘

- 리텐션 전략 적용가능

리텐션 전략(Retention Strategy)이란?

고객을 오래 유지하는 전략이다.
쉽게 말해, “고객이 우리 서비스를 다시 찾아오게 만드는 방법”

예시:

  • 고객이 자주 구매하는 상품을 추천
  • 첫 번째로 담은 상품에 할인 쿠폰 제공
  • 장바구니에 항상 담는 상품을 정기배송으로 유도

    이런것도 확인가능 

  • "재구매율 vs 담은 순서" 상관관계 분석
  • 처음 담는 상품 TOP10

 

 

③ 이전 주문까지 걸린 일수 (days_since_prior_order)

  • 첫 주문은 결측치 (NaN)
  • 평균 간격: 약 11~12일
  • 주기적으로 쇼핑하는 패턴 있음

- 월 단위 구독 모델 기회