[ML] k-Nearest Neighbors

mingyung 2023. 12. 3. 15:44

오늘은 kNN 알고리즘에 대해서 알아본다.

k-Nearest Neighbors(kNN)

kNN알고리즘은 classification문제를 푸는 방식이다.

위의 그림을 보자. 기존 트레이닝 데이터들이 주황색, 초록색 데이터이고, 우리는 빨간색 테스트 데이터가 어느 클래스에 속할지 알고 싶다.

이 경우 kNN알고리즘은 가장 거리가 가깝거나, 비슷한 point k개의 class를 살핀다.

빨간 테스트 데이터는 이 클래스들 중 다수 클래스로 분류된다.

알고리즘을 좀 더 단계적으로 표현하면 다음과 같다.

Standardize the features to have Normal dist
find k samples closest to the testing instance
take classificationo output as majority class

그래서 우리가 주의깊게 살필 부분은 이 distance와 similarity, 그리고 K 값이 된다.

Distance & Similarity

모델에서 Distance와 Similarity를 어떻게 정의할까?

각각 아래와 같은 distance, similarity를 사용할 수 있다.

[Distance]

Euclidean distance

Manhattan distance

Minkowski distance

[Similarity]

Cosine similarity

Jaccard Similarity

[Others]

Hamming distance

Distance Based

Euclidean distance

L2 distance(L2 norm)을 말한다. 가장 많이 사용하는 방법 중 하나이다.

Manhattan distance

L1 distance(L1 norm)을 말한다.

Minkowski distance

Lp distance(Lp norm)을 말한다.

위의 두 distance(euclidean, manhattan)의 Generalzed 형태이다.

distance식을 보면 알 수 있듯이, p=1이면 manhattan, p=2이면 euclidean distance와 같다.

Chebyshev distance의 경우 다음과 같다.

2차원에서 chevyshev distance는 다음과 같다,

그럼 (0, 0) 에서 (3, 4)까지의 체비셰프 거리는 4가 된다.

❗더 자세한 이야기는 아래에서 확인해보자

Chebyshev distance - Wikipedia

From Wikipedia, the free encyclopedia Mathematical metric This article is about the finite-dimensional vector space distance. For the function space norm and metric, see uniform norm. In mathematics, Chebyshev distance (or Tchebychev distance), maximum met

en.wikipedia.org