본문 바로가기
AI Research/Artificial Intelligence

[인공지능 기초] 머신러닝 분류모델 정리

by ga.0_0.ga 2023. 2. 28.
728x90
반응형

1. 나이브 베이즈

나이브 베이즈 알고리즘은 베이즈 정리를 기반으로 만들어진 통계적 분류 알고리즘이다. 클래스 라벨 Y가 주어지면 데이터의 특징 값들 하나하나가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법이다. 간단하고 빠르며 노이즈를 잘 처리할 수 있다는 장점이 있지만 모든 특징이 동등하게 중요하고 독립이라는 가정이 잘못되는 경우가 자주 있어 나이브 베이즈를 사용할 수 없을 때가 많다는 단점이 있다.

2. 결정 트리

기본적인 작동 방식은 예/아니오 질문을 이어가며 학습하는 것이다. 규칙에 따라 분할되며 각각의 서브 트리(Sub Tree)를 생성한다. 계속되는 규칙에 따라 노드가 분할되며 최종적으로 리프 노드(Leaf Node)에서는 클래스 값을 가지게 된다. 계산이 복잡성대비 높은 예측 성능을 낼수 있다는 장점이 있지만 오버피팅이 발생할 가능성이 높고, 한번에 하나의 변수만 고려하기 때문에 변수들 간에 상호작용이 있는 경우는 파악이 어렵다는 단점이 있다.

3. 서포트 벡터 머신

학습을 통해 데이터를 분류하는 다양한 기준선들 중에서 최적의 결정 경계(decision boundary)를 알아내는 분류 모델이다. 오류 데이터의 영향이 적고 과적합이 잘 일어나지 않으며, 분류 문제 뿐만 아니라 회귀에도 사용가능하다는 장점이 있다. 하지만 데이터가 많아질수록 학습 속도가 느리고 메모리를 많이 사용한다는 단점이 있다.

4. KNN

어떤 데이터가 주어지면 그 주변의 가장 가까운 k개의 데이터를 살펴본 뒤 더 많은 데이터가 포함되어 있는 범주로 분류하는 방식이다. 정확도가 높고 노이즈에 영향을 많이 받지 않는다는 장점이 있지만, 속도가 느리고 k를 잘 설정해줘야 한다는 단점이 있다.

5. 앙상블

여러 개의 모델을 생성하고, 그 모델들의 예측을 결합하여 보다 나은 예측 결과를 도출하는 방법이다. 강력한 모델 하나만을 사용하는 대신 조금 약한 모델들을 조합하여 더 정확한 예측을 하겠다는 방식이다. 데이터 분류시 뛰어난 성능을 보인다는 장점이 있다. 그러나 배깅, 부스팅, 스태킹 등 선택하는 방법에 따라 이상치에 취약하다거나 과적합이 발생할 수도 있다는 단점이 있다.

6. 심층 신경망

신경망(Neural Network)은 신경세포(Neural)을 구현해 인간의 뇌의 구조를 모방한 알고리즘이다. 심층 신경망은 이러한 신경망을 여러 층으로 늘려 두텁게 만든 것이다. nput layer를 통해 학습할 데이터를 입력하고 여러 층의 Hidden layer를 거쳐 Output layer로 결과를 도출한다. 입력 변수들 간의 비선형 조합이 가능하고 성능이 높으며 특징값 추출이 자동으로 수행된다는 장점이 있다. 그러나 신경망이 복잡해질수록 시간이 오래걸리고 메모리 사용량이 많아지며 학습 결과가 일정하지 않고 분석이 어렵다는 단점이 있다.

728x90
반응형

댓글