흐름은 순차적으로 내가 원하고자 하는 넓은 범위 조건의 df 를 만들고, 계속해서 df 를 만들어가면서 결국 원하는 specific 한 조건의 df 를 만드는 듯
Step 1. 탐색: 데이터의 기초 정보 살펴보기
불러오기
Csv / tsp 등 파일을 df 객체로 바꿔주자
정보확인
전체적인 정보, 통계적 정보 등등을 파악할 수 있다.
수치적 특성들 파악
수치의 요약적인 통계량 파악가능
피처의 value 수를 중복제거하여 파악할 수 있다.
Step2. 인사이트의 발견: 탐색과 시각화
가장 많이 주문한 item top 10
Value_count() 사용
Item 당 주문 개수
groupby() 사용
아이템당 주문개수 시각화
matplot 라이브러리 사용
! Value_counts() 와 unique() 의 차이
Value_count() 는 series 를 반환
Unique() 는 numpy 배열을 반환
Step3. 데이터 전처리
Item_price 피처가 $--- 인 value 이기 때문에, apply 함수를 이용해 $를 없앤 int64 로 바꿔줄 수 있다.
Step4. 이런저런 인사이트
주문당 평균 계산금액
groupby('order_id') 중 [item_price] 의 sum()의 mean()
한 주문에 10달러 이상 사용한 주문 번호 출력
Groupby('order_id') 의 sum() 중 [그 중 item_price 가 10 이상인 것]
각 아이템의 가격 구하기
Groupby('item_name') 의 min() 중 ['item_price']
아이템 가격 분포 그래프 출력
plt 를 이용해서 x_pos 를 각 아이템으로 주고 y_pos 를 item_prce 를 holist() 해줘서 넣어주자
가장 비싼 주문에서 아이템의 개수가 몇개인지
Groupby('order_id') 의 sum() 을 sort_values(by='item_price', ascending=False) 해주자
"Veggie Salad Bowl" 이 몇 번 주문되었는지 확인
조건문에서 'item_name' 이 'veggie salad bowl' 인 것만 따로 df 를 만들어주고 drop_duplicates('item_name', 'order_id') 해서 중복제거
Chicken Bowl 을 2개 이상 주문한 주문 횟수 수하기.
Quantity 가 2 이상인 것
Chicken Bowl 을 2 개 이상 주문한 고객들의 "Chicken Bowl" 메뉴의 총 주문 수량
총합을 나타내는 df 를 만든 후 그 중 값이 2 이상인 것만 조건문
1.3 국가별 음주 데이터 분석하기
위 chipo 와 비슷하니, 이제 좀 더 라이브러리에 대해 익숙해져보자
Step 1 탐색: 데이터의 기초 정보 살펴보기
데이터셋 기본 정보 가져오기
정보들을 한 번 보자
Step 2 인사이트 발견: 탐색과 시각화하기
피처 간 상관관계
상관분석
상관 분석이란 두 변수 간의 선형적 관계를 상관 계수로 표현하는 것 상관 계수를 구하는 것은 공분산의 개념을 포함 공분산: 2개의 확률 변수에 대한 상관 정도, 2개의 변수 중 하나의 값이 상승할 때 다른 값이 얼마나 상승하는지의 수치 But, 공분산만으로 구하면 두 변수의 단위 크기에 영향을 받을 수 있어서 -1 과 1 사이인 상관계수로 바꾼다. 1에 가깝다면 양의 상관관계, -1에 가깝다면 음의 상관관계