KNN_생선 분류 문제
1. 데이터 준비하기(https://gist.github.com/rickiepark/b90b9f725890653e69a1a52943671c62)
지도학습에서는 데이터와 정답을 입력과 타깃이라고 하고, 이 둘을 합쳐 훈련 데이터라고 부른다. 일반적으로 지도학습의 입력과 타깃을 훈련 데이터라고 하는데, 준비된 훈련 데이터 중에 일부를 떼어 내어 테스트 데이터로 활용한다.
2. 사이킷런으로 훈련 데이터와 테스트 데이터 나누기
3. KNN과 같이 거리 기반의 알고리즘은 데이터를 표현하는 기준이 다르면 결과를 올바르게 예측할 수 없다. 이런 알고리즘은 특성값을 일정한 기준으로 맞춰 주어야 한다. 이 작업을 데이터 전처리라고 한다. 가장 널리 활용되는 방법 중 하나는 표준 점수를 활용하는 것이다.
4. 샘플로 모델을 평가할 때 샘플도 데이터 전처리를 거쳐야 하는데 이때 중요한 점은 훈련 데이터의 평균과 표준 편차를 이용하여 변환해야 한다. 또한 테스트 데이터도 데이터 전처리 과정을 거쳐야 하는데 마찬가지로 훈련 데이터의 평균과 표준 편차로 변환해야 한다. 그렇지 않다면 데이터의 스케일이 같아지지 않으므로 훈련한 모델이 무용지물이 된다.
5. 특성을 표준 점수로 바꾸어 KNN 알고리즘이 올바르게 거리를 측정했을 때의 결과
'혼공학습단' 카테고리의 다른 글
[혼공머신] 3주차(2)_확률적 경사 하강법 (0) | 2024.01.21 |
---|---|
[혼공머신] 3주차(1)_로지스틱 회귀 (0) | 2024.01.20 |
[혼공머신] 2주차(2)_특성 공학과 규제 (0) | 2024.01.07 |
[혼공머신] 2주차(1)_KNN 회귀 (0) | 2024.01.07 |
[혼공머신] 1주차(1)_첫 머신러닝 (0) | 2024.01.02 |