<<<<<<<<<<<< 12주차 목표 >>>>>>>>>>>>
- 태블로 기본 사용법 익히기
- 실습 프로젝트 기반 대시보드 제작
- 고객 데이터를 시각화하여 인사이트 도출하기
- 태블로 퍼블릭을 통한 포트폴리오 공유 연습
- gpt를 이용해서 크롤링 실습 및 수업시간에 진행한 프롬프트 작성해보기
이번주에는 gpt를 이용한 수업이 진행이 되었지만 (ChatGPT를 활용한 데이터 분석 실습하기-박조은 강사님) 내가 개인 프로젝트를 아직 다 완성하지 못해서 이번 주차에는 박조은 강사님 수업과 함께 빡세게 개인 프로젝트를 진행하게 되었다
kaggle데이터를 이용한 SQL + Tableau 기반 AI 분석 프로젝트 시작
[이커머스 데이터 분석 프로젝트] 고객 행동과 리뷰 기반 수요 예측 및 맞춤형 추천 플랫폼 만들기
고객 행동과 리뷰를 바탕으로 제품 수요를 예측하고, 개인 맞춤형 추천 및 감정 기반 피드백을 제공하는 전자상거래 인텔리전스 플랫폼
프로젝트 일정: 5일 완성 플랜
DAY 1. 프로젝트 환경 구성 + SQL 분석 시작
목표
- 데이터셋 구조 이해
- SQL 분석 환경 구축
- 수요 예측용 데이터 추출
수행 작업
- CSV 데이터 구조 확인 (Olist 데이터셋)
- DBeaver 또는 SQLite에 CSV import → SQL 테이블화
- 주요 테이블: orders, order_items, products
- SQL로 일별 주문 수량 집계
SELECT
p.product_category_name,
DATE(o.order_purchase_timestamp) AS order_date,
COUNT(*) AS daily_order_count
FROM orders o
JOIN order_items i ON o.order_id = i.order_id
JOIN products p ON i.product_id = p.product_id
GROUP BY 1, 2
ORDER BY 2;
DAY 2. 추천 시스템용 데이터 준비 + 고객 행동 분석
목표
- 고객별 구매 패턴 파악
- 추천 알고리즘용 데이터셋 준비
수행 작업
- orders + order_items → 고객별 구매 이력 추출
- user-item 매트릭스 형태로 가공 (customer_id, product_id, 구매횟수)
- SQL로 고객-상품 조합 집계
SELECT
o.customer_id,
i.product_id,
COUNT(*) AS purchase_count
FROM orders o
JOIN order_items i ON o.order_id = i.order_id
GROUP BY 1, 2;
DAY 3. 리뷰 감정 분석 준비 + 텍스트 전처리
목표
- 리뷰 텍스트 감정 분류 전처리
- 긍/부정 분류용 라벨링 준비
수행 작업
- reviews 테이블에서 review_comment_message, review_score 추출
- Python으로 텍스트 정제, 불용어 제거, 라벨 생성 (1~2점=부정, 4~5점=긍정)
- scikit-learn + CountVectorizer로 Naive Bayes 모델 학습
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
X = vectorizer.fit_transform(df['review_comment_message'])
y = df['sentiment'] # 긍정/부정 라벨
model = MultinomialNB()
model.fit(X, y)
DAY 4. Tableau 시각화 대시보드 제작
목표
- 분석 결과 시각화
- 사용자 행동, 감정 결과, 수요 트렌드 한눈에 보기
수행 작업
- Tableau Public 또는 Desktop 설치
- KPI 대시보드: 총 주문 수, 월별 매출, 인기 카테고리
- 리뷰 감정 분석 시각화 (긍/부정 비율, 워드클라우드)
- 수요 예측 그래프 (Prophet 사용 결과 시각화)
DAY 5. 프로젝트 정리 + 포트폴리오 완성
목표
- 최종 보고서/블로그 작성
- GitHub 업로드 or PDF 포트폴리오 제작
수행 작업
- 분석 흐름 정리: 데이터 → SQL → 모델 → 시각화
- 코드/이미지 정리 후 GitHub 정리
- 발표용 슬라이드 또는 블로그 완성
사용 도구 요약
도구 | 역할 |
SQL (DBeaver/Athena) | 데이터 정제, 집계 분석 |
Python (scikit-learn) | 추천, 감정 분석 |
Tableau | 전반적 시각화 대시보드 |
Streamlit (선택) | 웹 기반 감정 분석 결과 보기 |
AWS S3/Athena (선택) | 확장 가능한 클라우드 환경 지원 |
'Today I Learned' 카테고리의 다른 글
[패스트캠퍼스] 데이터 분석 부트캠프 18기 13주차 (0) | 2025.05.26 |
---|