[Machine Learning] Decision Trees

mingyung 2023. 10. 18. 23:49

Decision Tree

머신 러닝에서 Decision Tree는 데이터를 분류하거나 예측하는 알고리즘 중 하나이다.

이 방식은 Classification과 Regression에 모두 사용 가능하다

Decision Tree가 어떻게 생겼는지 살펴본다.

Root node와 Leaf node에 해당하는 사각형에는 feature가 들어간다.

Branch의 경우 위의 feature에 대한 내용이 된다.

Classification

먼저, Decision tree를 통해 classification 문제를 어떻게 해결할 수 있는지 알아본다.

이번 포스팅에서 예시로 드는 data와 classification 문제는 아래와 같다.

Start

먼저 feature를 outlook으로 하여 decision tree를 작성해보자.

위의 그림과 같이 outlook은 sunny, rainy, overcast가 있고, 해당 feature일 때 각각 label값(N/Y)을 작성할 수 있다.

이렇게 outlook feature를 기준으로 decision tree를 작성한 결과

주어진 데이터셋을 기준으로 rainy와 overcast인 outlook을 가진 경우 label 값을 확정할 수 있다. 즉, rainy일때는 N, overcast일 때는 Y로 label값을 결정할 수 있다.

그러나, sunny인 경우에는 N과 Y가 섞여있는것을 볼 수 있다.

이 경우를 우리는 Impure하다고 할 수 있고, 단순히 outlook만을 노드로 가지는 decision tree는 classification문제를 해결할 수 없음을 알 수 있다.

Homogeneous group

Classification 문제에서 Homogeneous group은 feature에 의해서 나누어진 결과, 하나의 label만 가지는 data 집합을 말한다. 즉, 위의 예시에서는 rainy 일때 {N,N,N}, overcast 일때{Y}를 말한다.

outlook feature를 사용한 decision tree에서 homogeneous group의 memeber 수는 총 4개인 것을 알 수 있다.

Homogeneous group을 확인하는 것은 tree에 사용할 feature를 탐색하는데에 활용할 수 있다.

Expand the Tree

여러 feature를 활용해서 Tree를 확장할 수 있다.

No Homogeneous Member Exists

그럼, 데이터셋의 크기가 커지면서, 어떤 feature를 사용해도 homogeneous group이 생기지 않는 경우는 어떻게 tree를 결정 할까?

이 경우에는 불확실성/ 불순도를 통해 테스트의 품질을 계산하고,이를 바탕으로 어떤 feature를 사용하여 tree를 구성할 지 결정할 수 있다.

Entropy/Information gain

Entropy는 데이터의 불확실성을 나타내는 지표이다. Decision tree에서는 엔트로피를 분할 기준(feature)의 선택에 사용한다.

개별 branch에 대해서 엔트로피 계산을 하고, 이를 통해 tree의 quality를 계산한다.

엔트로피는 다음과 같이 계산한다.

다음과 같이 outlook의 개별 branch에 대한 엔트로피를 구할 수 있다. 엔트로피에 가중치를 부여하여 합한 값을 Quality of Test로 하여 어떤 특성을 트리에 사용할지 결정한다.

이 값은 entropy의 weighted sum이므로 이 값이 가장 작은 경우의 feature를 선택한다.

Gini Impurity

Gini impurity는 decision tree에서 불순도를 측정하는 지표 중 하나이다. 이는 노드 내에 서로 다른 class의 데이터포인트가 얼마나 섞여있는지를 측정하여 분할 기준을 결정한다. 개별 branch마다 Impurity 값을 계산하고, 이 값들을 이용해 Quality of Test를 계산하여 어떤 특성을 트리에 사용할지 (분할 기준) 선택한다.