Project/Python

(1)데이터 분석 프로젝트(파이썬)

sYOUNG_DA 2025. 3. 20. 15:21

 

데이터 분석의 기본과정과 챗gpt에물어보는 순서 

 

olist_orders_dataset.csv
16.84MB

 

(노란색 형광팬은 gpt에 질문하는 탬플릿)

① 데이터 설명하기 

 

:항상  분석하는 데이터를 gpt에 개괄적으로 설명하는 게 좋다 (파일명도 이 파일의 내용과 관계있게 설정해라) 

 

" 이 데이터는 브라질 이커머스 사이트인 olist의 판매 데이터입니다. 
이 데이터를 살펴보고 이 데이터에 대해서 한국어로 설명해 주세요 "

 

이렇게 질문하면 아래와 같은 답변을 얻을 수 있을것이다. 

GPT분석

이 데이터는 브라질의 이커머스 플랫폼 olist의 주문 데이터를 포함하고 있습니다. 총 99,441개의 주문 정보가 있으며, 8개의 칼럼으로 구성되어 있습니다.

데이터 컬럼 설명

order_id: 주문의 고유 식별자 (각 주문마다 고유한 값)
customer_id: 고객의 고유 식별자 (같은 고객이 여러 번 주문할 수 있음)
order_status: 주문 상태 (예: "delivered" - 배송 완료, "shipped" - 배송 중, "canceled" - 주문 취소 등) order_purchase_timestamp: 주문이 생성된 날짜 및 시간
order_approved_at: 결제가 승인된 날짜 및 시간
order_delivered_carrier_date: 주문이 배송업체에 전달된 날짜
order_delivered_customer_date: 고객에게 실제로 배송 완료된 날짜
order_estimated_delivery_date: 예상 배송 완료 날짜

데이터 특징

- order_status를 통해 주문이 완료되었는지, 취소되었는지 확인할 수 있음
- order_purchase_timestamp부터 order_delivered_customer_date까지의 기간을 분석하면 평균 배송 시간을 계산할 수 있음
- order_estimated_delivery_date와 실제 배송일(order_delivered_customer_date)을 비교하면 배송 정확도를 평가할 수 있음

이 데이터를 활용하면 배송 기간 분석, 주문 상태 모니터링, 배송 지연 여부 평가 등의 인사이트를 얻을 수 있습니다. 추가 분석이 필요하면 말씀해 주세요! 😊

 

 

자 이처럼 전체적인 데이터 구조에 대해 살펴봤으면 데이터에 대해서 심도있게 살펴보는것이 중요하다

이 과정을 탐색적 데이터분석이라고 한다. 

영어로 EDA (Exploratory Data Analysis)라고 부르는다. 

 

챗gpt에게 EDA를 해달라는 질문만으로 굉장히 많은 부분을 챗GPT가 알아서 설명해 줍니다. 

 

여기서 일변량EDA와 다변량 EDA를 구별해서 요청하면 더 자세한 분석을 받을 수 있다. 

 

(* 일변량EDA : 하나의 칼럼에 대해서만 분석

다변량 EDA: 2개 이상의 칼럼을 종합해서 인사이트를 도출하는 것이다.

 

② EDA요청하기 

 

이 데이터에 대해서 깊이 있게 이해하기 위해서 EDA를 실시하고자 합니다. 우선 일변량 EDA부터 실시해줘 

 

*데이터 기반 인사이트를 gpt로 도출한다면 EDA를 초반에 실시할것을 강력히 권장합니다 

 

일변량 EDA(Univariate Exploratory Data Analysis)를 통해 다음과 같은 분석을 수행하였습니다.

● 주문 상태(Order Status) 분포 대부분의 주문이 "delivered"(배송 완료) 상태이며, 일부 주문이 "canceled"(취소됨), "unavailable"(품절), "shipped"(배송 중) 등의 상태를 가지고 있습니다. 취소된 주문과 품절된 주문의 비율을 분석하면 고객 서비스 품질을 평가할 수 있습니다.

●연도별 주문 개수 2017년과 2018년에 많은 주문이 발생했으며, 이는 브라질 이커머스 시장의 성장 추세를 보여줄 수 있습니다. 2016년 이전 데이터는 거의 없는 것으로 보입니다.

●주문 승인까지 걸린 시간(Approval Time) 분포 대부분의 주문은 몇 분에서 몇 시간 내에 승인되지만, 일부 주문은 승인까지 시간이 오래 걸리는 경우도 있습니다. 승인 시간이 너무 긴 주문이 많은지 확인하면 결제 프로세스의 문제를 파악할 수 있습니다.

●배송업체에 전달되기까지 걸린 시간(Carrier Delivery Time) 분포 일반적으로 1~5일 내에 배송업체에 전달되지만, 일부 주문은 배송업체에 전달되는 데 오랜 시간이 걸릴 수 있습니다. 주문 후 바로 배송업체에 전달되지 않는 경우가 많다면, 물류 처리 속도 개선이 필요할 수도 있습니다.

●고객에게 실제로 배송 완료되기까지 걸린 시간(Actual Delivery Time) 분포 대부분의 주문이 7~20일 내에 고객에게 도착하지만, 일부는 40일 이상 걸리는 경우도 있습니다. 배송 지연이 많은지 확인하고, 예상 배송일과 실제 배송일을 비교하여 배송 정확도를 평가할 수 있습니다

. EDA를 통해 이커머스 주문 데이터의 전반적인 분포를 파악할 수 있었습니다. 추가적으로 다변량 분석(Bivariate Analysis)이나 특정 변수 간 관계 분석이 필요하면 말씀해주세요!

 

이런식의 일변량EDA가 끝났으면 다변량 EDA를 요청해야 할 것이다. 

 

다변량EDA를 실시해주세요 

 


다변량 EDA(Bivariate Exploratory Data Analysis)를 통해 여러 변수 간 관계를 분석한 결과는 다음과 같습니다.

주문 상태별 평균 배송 시간 배송 완료된(delivered) 주문의 평균 배송 시간이 가장 길며, 반면 일부 주문 상태(예: 취소된 canceled, 반송된 unavailable)의 경우 배송 시간이 짧습니다. 이는 배송이 완료되지 않은 주문은 물리적으로 배송 시간이 발생하지 않기 때문입니다.

예상 배송일과 실제 배송일의 차이(배송 지연 분석) 대부분의 주문은 예상 배송일과 실제 배송일이 비슷하지만, 일부 주문은 예상보다 훨씬 늦게 배송되는 경우도 있음을 확인할 수 있습니다. 평균적으로 약간의 배송 지연이 존재하며, 이는 물류 시스템의 개선이 필요한 부분일 수도 있습니다.

연도별 주문 상태 변화 2017년과 2018년에 주문 수가 급증했으며, 대부분의 주문이 배송 완료(delivered) 상태입니다. 하지만 취소(canceled) 및 품절(unavailable) 주문의 비율도 함께 증가하고 있으며, 연도별 고객 만족도 및 반품율을 분석하는 데 유용한 정보가 될 수 있습니다.

주문 승인 시간과 배송 기간의 관계 승인 시간이 오래 걸리는 주문과 배송 기간 사이에는 약한 양의 상관관계가 있으며, 일부 주문은 승인 시간이 길면서도 배송이 오래 걸리는 경향이 있습니다. 승인 지연이 배송 지연으로 이어지는지 추가 분석이 필요합니다.

주문 생성 시간(구매 시간대)과 평균 배송 시간 특정 시간대(특히 새벽 0~5시)에 주문된 제품들의 평균 배송 시간이 다소 긴 경향이 있습니다. 이는 물류센터의 운영 시간이 주간에 집중되어 있기 때문일 가능성이 높습니다.

추가 분석 가능 사항

특정 제품군의 배송 지연 여부 분석 고객 지역(도시별) 평균 배송 시간 비교 반품된 주문과 배송 기간의 관계 분석

추가적으로 분석하고 싶은 부분이 있다면 알려주세요!

 

 

이런식의 답변이 주어진다.

 

③ 계획설정 

이 데이터를 기반으로 비즈니스 인사이트를 도출하고 싶어, 분석할만한 과제를 제안해줘 

 

*과제들이 마음에 들지않으면 다시 생성하기 버튼 눌러서 같은 프롬프트를 또 요청하는것도 방법

(2~3번정도 진행하면 좋음)

 

내가 해야될 것은 챗gpt에서는 어떤 분석이 가능하다 ! 의 정도의 배경지식만 있고 큰 방향성을 제시하는 역할이 중요하다. 

 

④ 시각화

이 데이터를 기반으로 시각화 해볼만한 아이디어를 제안해줘 

 

⑤액션플랜 

# Role 

당신은 디지털 마케팅 전문가 입니다. 디지털 마케팅 실행 방안에 대해서 잘 알고 있고, 신규 고객을 확보하는 디지털 마케팅 액션 플랜 설계에 전문성이 있습니다.

 

#Objective 

A의 1년간의 유저 데이터를 근거해서, A에 제안할만한 바로 실행가능하고, 비용 효율적이고, 효과적인 디지털 마케팅 액션플랜을 제안해주세요.

 

-더 디테일하게 각각의 액션 플랜을 더 세분화된 시나리오를 작성해줘