Data analysis using python_D4. 9th of Sep, Thu.
Ch02. 고객별 연간 지출액 예측 - 04. 불필요한 변수 버리기
이 ecommerce.csv 이 데이터는 잘 정리된 데이터라서 결측치도 없고, 아웃라이너도 없다. 따라서 있는 데이터를 그대로 쓰면 된다. 여기서 쓸 수 없는 컬럼을 분리해 줘야 한다. 텍스트 데이터는 의심을 해봐야 한다. 우리가 원하는 건 연간 지출액 예측인데 이메일이라던지 주소, 아바타는 예측하는데 전혀 도움이 될 것 같지 않다. 이럴때 텍스트를 살리지 않고 바로 드랍 시킨다. 만약에 성별 같은 의미가 있을 것 같은 텍스트라면 숫자로 치환하여 살려볼려고 할 것이다.
이런 불필요한 텍스트 컬럼들을 드랍시키기 위해,
//////////////
data['컬럼명']을 사용한다. 여기서 data는 data = pd.read_csv('ecommerce.csv')로 이미 선언한 변수명이다.
결국, pandas로 ecommerce.csv를 read_csv 명령어로 불러들이고 나서 대괄호[] 안에 원하는 컬럼명을 적어서 불러들인다.
///////////////
이렇게 이해를 했는데 잘 못 이해한 것 같다.
data는 명령어 인것 같다. 지금 불러들인 ecommerce.csv 의 데이터셋에서 특정 컬럼을 불러들일 수 있는 명령어라고 생각된다. 아무튼 이런 식으로 대괄호 안에 컬럼명을 적으면 컬럼과 관련한 데이타를 불러 온다.
이런 식으로 인덱싱을 두개를 동시에 못한다. 에러가 난다.
이렇게 할 시에는 겹대괄호를 써준다. [[컬럼명1, 컬럼명2]]
따옴표를 사용하여 각각의 필요한 컬럼을 불러와서 불필요한 데이타를 제거한다.
현재 data란 이름에는 저장이 되어 있지 않다. 덮어쓰지 말고 이름을 바꿔가면서 저장해주는게 좋다. 따라서 data란 이름으로 별도로 저장을 해준다. 아래는 헤깔릴 것 같아서 data_new로 바꿔서 불러옴.
이렇게 분류를 해준 뒤에 train test 데이타셋을 나눌 것이다. 다음 장에.