[인공지능 기초] 결측치(Missing Value) 처리
·
AI Research/Artificial Intelligence
▶ 결측치(Missing Value)란? 결측치는 데이터상에서 표기되지 않은 값을 말합니다. 주로 NA(Not Available)로 표기됩니다. ​ ​ ▶ 결측치의 종류 결측 데이터를 올바르게 처리하기 위해서는 누락된 이유를 이해하는 것이 중요합니다. 어떻게 발생된 결측치인지에 따라 다른 접근방법이 필요하기 때문입니다. 결측치는 크게 3종류로 분류할 수 있습니다. 결측치의 종류를 설명하기 위해 성별로 체중을 모델링하는 경우를 예시로 들어 설명하겠습니다. ​ - 완전 무작위 결측(MCAR, Missing Completely At Random) 한 변수에서 발생한 결측치가 다른 변수들과 아무런 상관이 없는 경우에 해당하는 결측치입니다. 깜빡 잊고 입력이 안 된 데이터, 전산 오류로 인한 누락 데이터등이 여기..
[인공지능 기초] 머신러닝 분류모델 정리
·
AI Research/Artificial Intelligence
1. 나이브 베이즈 나이브 베이즈 알고리즘은 베이즈 정리를 기반으로 만들어진 통계적 분류 알고리즘이다. 클래스 라벨 Y가 주어지면 데이터의 특징 값들 하나하나가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법이다. 간단하고 빠르며 노이즈를 잘 처리할 수 있다는 장점이 있지만 모든 특징이 동등하게 중요하고 독립이라는 가정이 잘못되는 경우가 자주 있어 나이브 베이즈를 사용할 수 없을 때가 많다는 단점이 있다. ​ ​ 2. 결정 트리 기본적인 작동 방식은 예/아니오 질문을 이어가며 학습하는 것이다. 규칙에 따라 분할되며 각각의 서브 트리(Sub Tree)를 생성한다. 계속되는 규칙에 따라 노드가 분할되며 최종적으로 리프 노드(Leaf Node)에서는 클래스 값을 가지게 된다. 계산이 복잡..
[인공지능 기초] 차원의 저주(Curse of Dimensionality)
·
카테고리 없음
▶ 차원의 저주(Curse of Dimensionality)란? 차원의 저주란 학습을 위한 데이터의 차원(=변수의 개수)이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 것을 말합니다. 예를들어, 총 데이터의 수는 200개인데 변수는 700개인 경우가 차원의 저주에 해당합니다. 차원이 높아질수록 데이터 사이의 거리가 멀어지고, 빈 공간이 생기는 공간 섬김 현상(sparsity)을 보입니다. 즉, 간단히 말해 차원이 증가함에 따라 모델의 성능이 안좋아지는 현상인데, 왜 이런 현상이 발생하는 것일까요? 위 그림은 차레대로 1차원, 2차원, 3차원 공간에서의 데이터 분포를 나타냅니다. 1차원인 선의 경우를 보면, 선위에 데이터들이 빽빽하게 나란히 놓여있습니다. 2차원인 평면의 경우는 1차원..
[인공지능 기초] 나이브 베이즈 분류(Naive Bayes Classification)
·
AI Research/Artificial Intelligence
▶ 베이즈(Bayes) 정리 나이브 베이즈 분류를 설명하기 전에 먼저 베이즈 정리에 대해 설명하겠습니다. 베이즈 정리는 조건부 확률을 계산하는 방법 중 하나입니다. 조건부 확률 P(A|B)는 사건 B가 발생한 경우 A의 확률을 나타냅니다. P(B|A)를 쉽게 구할 수 있다면 위 식을 통해 P(A|B)도 구할 수 있습니다. 베이즈 정리는 P(A|B) 의 추정이 P(AnB)와 P(B)에 기반을 두어야 한다는 정리입니다. 베이즈 정리의 예제를 하나 살펴보겠습니다. 출처 - 전체 사건 중 비가 온 확률 P(비)=7/20, 비가 오지 않을 확률 P(~비)=1-7/20=13/20 - 그럼 맑은 날 일때 비가 오는 확률인 P(비 | 맑은날)은 얼마일까요? 위 식을 이용해 구할 수 있습니다. 이 값을 구하기 위해서는 ..