14. 데이터마이닝, 분류 알고리즘

neogul 2024. 2. 6. 23:20

선별을 위해 데이터 간의 숨겨진 패턴과 관계를 찾기 위해 데이터를 수식으로 정리하여 추상화된 모델로 정의해야 함.

< 분류 알고리즘 >

⇒ 분류를 할 때, 각 그룹에 가능한 확률을 계산할 때, 나이브 베이즈 정리를 활용할 수 있고

이를 나이브 베이즈 분류라고 함.

⇒ 나이브 베이즈 정리는 확률 계산을 쉽게 하기 위한 수학적인 방법으로 학습 데이터에서 각 클래스에 대한 사전 확률과 클래스에 속한 각각의 특성이 서로 독립이라는 가정을 기반으로 함.

이러한 가정으로 나이브 베이즈 분류는 간단하고 계산이 빨라 대용량 데이터에도 적용이 가능하나, 가정이 단순해 현실 문제를 완벽히 반영하기 어렵다는 단점이 존재함.

2. KNN(K - Nearest Neighbors) - 가장 가까운 k개 이웃들 값을 참조하여 분류하는 알고리즘

데이터를 나타내는 벡터 공간에서, 분류하려는 데이터와 가장 가까운 k개의 데이터를 찾아, 다수결 방식으로 해당 데이터의 클래스를 결정하는 알고리즘.
KNN은 K를 어떻게 정하냐에 따라 결과 값이 바뀔 수 있음.
K가 너무 작아서도 안되고, 너무 커서도 안 됨. 또한 K가 짝수면 동점이 될 수 있으니 통상적으로 홀수로 설정함.
KNN에서 가장 중요한 것은 가까운 정도인 거리를 판단하는 거리측정임.

→ 거리 측정 기법은 데이터의 종류에 따라 다양하게 사용될 수 있음.

< 특징 >

⇒

데이터가 적거나 클래스간 구분이 명확한 경우에 사용하는 가장 기본적인 분류모델.

3. 의사결정나무 - 데이터 특징을 트리 구조로 나타내어 특징들을

가장 잘 구분할 수 있는 기준으로 찾아 분류하는 알고리즘.

→ 정보 이득이란? 분류 이전과 이후의 불확실성 차이를 의미함. 정보이득이 높은 조건을 선택할 수록, 불확실성이 줄어들어 분류 성능이 개선됨.

< 특징 >

→ 과적합 문제를 방지하기 위해 크기를 제한하거나, 가지치기를 수행하여 트리의 크기를 줄이는 것이 좋음.

4. 랜덤포레스트 - 의사결정나무 확장 버전으로, 다수의 의사결정나무를 생성하여

각 의사결정나무에서 분류한 결과를 취합하여 다수결로 분류하는 방법.

⇒ 의사결정나무의 과적합 문제를 방지하기 위해, 여러 개의 결정 나무 트리를 만들고 그 결과를 다수결로 사용하기 때문에 과적합 문제를 해결함.

< 특징 >

대용량 데이터셋에서도 빠르고 효율적으로 작동 가능함.

5. SVM(Support Vector Machine) - 주어진 데이터가 어느 카테고리에 속할지 판단하는 이진 선형 분류 모델.

⇒ SVM은 Support Vector들과 Decision Boundary 사이의 거리(Margin)을 최대화하는 방식으로 작동함.

⇒ 그래야 두 데이터가 어느 한쪽으로 치우치지 않고 분류가 됨.

< SVM 특징 >