본문 바로가기
혼공학습단

[혼공머신] 1주차(2)_마켓과 머신러닝

by netsgo 2024. 1. 3.

 

 

혼자 공부하는 머신러닝+딥러닝 - 예스24

- 혼자 해도 충분하다! 1:1 과외하듯 배우는 인공지능 자습서 이 책은 수식과 이론으로 중무장한 머신러닝, 딥러닝 책에 지친 ‘독학하는 입문자’가 ‘꼭 필요한 내용을 제대로’ 학습할 수 있

www.yes24.com

 

KNN_생선 분류 문제


1. 데이터 준비하기(https://gist.github.com/rickiepark/b90b9f725890653e69a1a52943671c62)

지도학습에서는 데이터와 정답을 입력과 타깃이라고 하고, 이 둘을 합쳐 훈련 데이터라고 부른다. 일반적으로 지도학습의 입력과 타깃을 훈련 데이터라고 하는데, 준비된 훈련 데이터 중에 일부를 떼어 내어 테스트 데이터로 활용한다. 

 

2. 사이킷런으로 훈련 데이터와 테스트 데이터 나누기

 

3. KNN과 같이 거리 기반의 알고리즘은 데이터를 표현하는 기준이 다르면 결과를 올바르게 예측할 수 없다. 이런 알고리즘은 특성값을 일정한 기준으로 맞춰 주어야 한다. 이 작업을 데이터 전처리라고 한다. 가장 널리 활용되는 방법 중 하나는 표준 점수를 활용하는 것이다.

 

4. 샘플로 모델을 평가할 때 샘플도 데이터 전처리를 거쳐야 하는데 이때 중요한 점은 훈련 데이터의 평균과 표준 편차를 이용하여 변환해야 한다. 또한 테스트 데이터도 데이터 전처리 과정을 거쳐야 하는데 마찬가지로 훈련 데이터의 평균과 표준 편차로 변환해야 한다. 그렇지 않다면 데이터의 스케일이 같아지지 않으므로 훈련한 모델이 무용지물이 된다.

 

5. 특성을 표준 점수로 바꾸어 KNN 알고리즘이 올바르게 거리를 측정했을  때의 결과