Data analysis using python_D3. 8th of Sep, Wed.
by makeanyCh02. 고객별 연간 지출액 예측 - 01. 분석의 목적, 02. 모듈 및 데이터 로딩, 03. 데이터 특성 확인하기
01. 분석의 목적
Linear Regression 을 사용하여 E-Commerce 고객별 연간 지출액을 예측
고객의 연간 지출액, 서비스를 웹에서 사용한 시간, 앱에서 사용한 시간, 멤버십 등의 자료가 있다. 이 데이터를 머신러닝 알고리즘을 통해 학습을 시킨 뒤 이 고객이 연간 얼마를 지출할 지 예측한다.
x값과 y값의 선형 상관관계를 나타내는 것이 Linear Regression 이다.
02. 모듈 및 데이터 로딩
되도록이면 파일을 같은 폴더에 집어 넣어서 정리하는게 좋다. 업로드 버튼을 눌러서 파일을 폴더에 불러온다.
1. 가장 먼저 해야할 것.
파이썬 모듈을 불러와야 한다. 모듈이란 좀더 많은 일을 수행할 수 있는 명령어 모음 같은 것(?). 데이터 분석과 관련된 모듈을 불러 온다.
모듈을 불러오는 명령어는 import.
pandas, numpy: 데이터를 처리하는 데 쓰는 모듈
matplotlib.pyplot, seaborn: 시각화를 처리하는데 쓰는 모듈
명령어를 짧게 쓸때 쓰는 명령어 'as'
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
데이터를 불러오는 명령어 'read_csv'
그런데 해보니 pd.read_csv로 하니 실행이 안된다.
이유를 찾아보니 'command + enter'를 안해서 그런 것 같다. ecommerce.csv를 폴더에 불러온 걸 확인 한 후 다시 pd.read.csv 를 치니 된다. 이렇게 말이다.
여기에 data 라는 이름에 이 명령어를 집어 넣어주면 나중에 명령어를 칠 필요없이 data만 쳐도 값을 불러온다.
03. 데이터 특성 확인하기
데이터의 특성을 알아보기 위해 data 다음에 점을 찍고 명령어를 적어준다.
data.head() 불러온 데이터의 처음 5줄을 보여준다. 괄호안에 이미 디폴트 값이 5로 저장이 되어 있기 때문이다. 더 보고 싶다면 괄호안에 원하는 만큼의 숫자를 적어준다.
data.tail() 불러온 데이터의 마지막 5줄을 보여준다.
표를 분석하자면 email, 주소, 닉네임 같은 아바타, 평균 세션 길이(얼마나 접속해 있었느냐?의 평균값), 어플리케이션으로 얼마나 썼는지, 멤버십 기간, 그리고 마지막으로 연간 사용량.
이중 마지막 연간 소비량이 내가 예측해야할 종속변수다.
data.info()를 사용하여 컬럼 정보를 알아본다. 여기 보이는 것처럼 500이라는 숫자는 미싱 벨류(결측치) 즉 빼먹은 값이 없다는 말이다. non-null의 의미는 결측치가 없다는 뜻이다. Dtype(데이터 타입)의 object는 텍스트 같은 것을 말함. float64는 숫자 데이터, 소수점이 존재하는 데이터. 정수는 int, boolean은 yes or no, true or false 같은 것을 말함.
data.describe()는 데이터의 전반적인 수치를 알려준다. mean은 합계를 평균 낸것, 메디안은 줄을 세워서 한가운데의 값을 가지고 평균을 내는 것.
std는 표준편차 등. 이것을 통해서 데이터 스케일을 볼 수 있다. 스케일을 전반적으로 알아보는게 데이터 분석할 때 중요하다. 75%와 max 값을 보는데 만약 이 값이 너무 편차가 크다면 아웃라이어가 존재한다는 것을 의미. 예를 들어 스포츠 선수의 연봉을 분석한다면 고액 연봉자가 있을때는 max 값이 커져서 75%와 max 값의 편차가 커질 수 있다. 이럴 때 아웃라이어를 어떻게 처리할 건지를 생각해 봐야 한다. 아웃라이어를 처리방법은 나중에 설명한다.
지금까지의 명령어로 데이터의 전반적인 내용을 살펴볼 수 있다. 그다음에 데이터를 손질한다. 이건 다음편에.
여기까진 쉽다. 점점 어려워 질 것 같은데 기대된다. 사실 openCV 공부하면서 해본 명령어들이긴 하지만 다시 공부하니 머리에 쏙쏙 들어온다.
'Data Analysis & AI > E-commerce Data Analysis' 카테고리의 다른 글
Data analysis using python_D6. 11st of Sep, Sat. (0) | 2021.09.12 |
---|---|
Data analysis using python_D5. 10th of Sep, Fri. (0) | 2021.09.10 |
Data analysis using python_D4. 9th of Sep, Thu. (0) | 2021.09.09 |
Data analysis using python_D2. 7th of Sep, Tue. (0) | 2021.09.06 |
Data analysis using python_D1. 6th of Sep, Mon. (0) | 2021.09.06 |
블로그의 정보
막만들자!
makeany