Data analysis using python_D7. 12nd of Sep, Sun.
by makeany
예측한 데이타값과 실제 데이터 값을 비교하면 대충 이런 그래프가 나온다. 주황색 삼각형은 X_test 값을 나올때 나오는 예측값이다. 파란색은 테스트 데이터 셋이다. 예를 들어 X test 값이 1이면 실제 Y test 값은 3인데 우리의 예측값(주황색 삼각형)은 7이다. X test 값이 2일때 Y test 값이 10이다. 하지만 예측값은 8이 나왔다. 2만큼의 갭이 있다. 예측치와 실제값과의 차이 즉 에러다. 당연히 에러값은 낮을 수록 좋다. 이걸 MSE(Min Squared Error, 평균 제곱 오차 또는 편차)라는 방법으로 풀어볼 것이다. 그런데 오차를 낼때 방향성의 차이가 있다. 예측치에서 실제값을 빼느냐, 실제값에서 예측치를 빼느냐. 양수와 음수 차이 구분을 없애기 위해 절대값을 쓰거나 제곱을 해준다. 여기서는 제곱을 쓴다. 이게 머신러닝이나, 통계적인 문서에서 가장 흔하게 쓰인다. 각각의 값을 제곱하고 난 후 다 더해서 평균을 낼 것이다. 아마도 분산(Variance)을 말하는 것 같다.
이걸 계산하는 펑션이 파이썬에 있다.
실제 y 값과 우리가 예측한 값을 입력하면 MSE 값을 얻을 수 있다.
그렇다면 482라는 MSE 값이 좋은 수치냐, 나쁜 수치냐 이건 우리가 알 수 없다. 상대적으로 어떤 모델의 MSE 값이 더 낮은 지를 보고 판단한다. MSE 보다 자주 쓰는 방법이 있다. RMSE(Root Mean Squared Error, 평균 제곱근 오차). 루트를 씌워주는 방법은 넘파이 이용.
21, 이 숫자도 모델간의 비교를 위한 상대적인 숫자일 뿐이다. 이 자체만으로 좋은지, 나쁜지 알 수없다.
'Data Analysis & AI > E-commerce Data Analysis' 카테고리의 다른 글
Data analysis using python_D9. 16th of Sep, Thu. (0) | 2021.09.16 |
---|---|
Data analysis using python_D8. 13rd of Sep, Mon. (0) | 2021.09.13 |
Data analysis using python_D6. 11st of Sep, Sat. (0) | 2021.09.12 |
Data analysis using python_D5. 10th of Sep, Fri. (0) | 2021.09.10 |
Data analysis using python_D4. 9th of Sep, Thu. (0) | 2021.09.09 |
블로그의 정보
막만들자!
makeany