[인공지능 기초] Likelihood(가능도, 우도)
·
AI Research/Artificial Intelligence
이번 포스팅에서는 Likelihood(가능도, 우도)와 최대 우도 추정(maximum likelihood)에 대해 설명하겠습니다. Likelihood에 대해 설명하기 전에 Likelihood와 헷갈리는 이름인 Probability(확률)에 대해 간단하게 설명하겠습니다! ​ - Probability(확률) 확률이란 확률 분포가 주어졌을 때, 특정한 관측 값이나 관측 구간이 확률 분포 안에 얼마나 존재할 수 있을지를 나타내는 값입니다. 핵심은 확률 분포(probability distribution)는 고정하고 그 때의 관측 값 X에 대한 확률 값을 구하는 것입니다. 이를 수식으로 나타내면 아래와 같습니다. ​ 아래 그림으로 설명해보겠습니다. 위 그림의 확률 분포는 쥐들의 몸무게 분포입니다. 종 모양을 이루고..
[인공지능 기초] 결측치(Missing Value) 처리
·
AI Research/Artificial Intelligence
▶ 결측치(Missing Value)란? 결측치는 데이터상에서 표기되지 않은 값을 말합니다. 주로 NA(Not Available)로 표기됩니다. ​ ​ ▶ 결측치의 종류 결측 데이터를 올바르게 처리하기 위해서는 누락된 이유를 이해하는 것이 중요합니다. 어떻게 발생된 결측치인지에 따라 다른 접근방법이 필요하기 때문입니다. 결측치는 크게 3종류로 분류할 수 있습니다. 결측치의 종류를 설명하기 위해 성별로 체중을 모델링하는 경우를 예시로 들어 설명하겠습니다. ​ - 완전 무작위 결측(MCAR, Missing Completely At Random) 한 변수에서 발생한 결측치가 다른 변수들과 아무런 상관이 없는 경우에 해당하는 결측치입니다. 깜빡 잊고 입력이 안 된 데이터, 전산 오류로 인한 누락 데이터등이 여기..
[인공지능 기초] 머신러닝 분류모델 정리
·
AI Research/Artificial Intelligence
1. 나이브 베이즈 나이브 베이즈 알고리즘은 베이즈 정리를 기반으로 만들어진 통계적 분류 알고리즘이다. 클래스 라벨 Y가 주어지면 데이터의 특징 값들 하나하나가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법이다. 간단하고 빠르며 노이즈를 잘 처리할 수 있다는 장점이 있지만 모든 특징이 동등하게 중요하고 독립이라는 가정이 잘못되는 경우가 자주 있어 나이브 베이즈를 사용할 수 없을 때가 많다는 단점이 있다. ​ ​ 2. 결정 트리 기본적인 작동 방식은 예/아니오 질문을 이어가며 학습하는 것이다. 규칙에 따라 분할되며 각각의 서브 트리(Sub Tree)를 생성한다. 계속되는 규칙에 따라 노드가 분할되며 최종적으로 리프 노드(Leaf Node)에서는 클래스 값을 가지게 된다. 계산이 복잡..
[인공지능 기초] 나이브 베이즈 분류(Naive Bayes Classification)
·
AI Research/Artificial Intelligence
▶ 베이즈(Bayes) 정리 나이브 베이즈 분류를 설명하기 전에 먼저 베이즈 정리에 대해 설명하겠습니다. 베이즈 정리는 조건부 확률을 계산하는 방법 중 하나입니다. 조건부 확률 P(A|B)는 사건 B가 발생한 경우 A의 확률을 나타냅니다. P(B|A)를 쉽게 구할 수 있다면 위 식을 통해 P(A|B)도 구할 수 있습니다. 베이즈 정리는 P(A|B) 의 추정이 P(AnB)와 P(B)에 기반을 두어야 한다는 정리입니다. 베이즈 정리의 예제를 하나 살펴보겠습니다. 출처 - 전체 사건 중 비가 온 확률 P(비)=7/20, 비가 오지 않을 확률 P(~비)=1-7/20=13/20 - 그럼 맑은 날 일때 비가 오는 확률인 P(비 | 맑은날)은 얼마일까요? 위 식을 이용해 구할 수 있습니다. 이 값을 구하기 위해서는 ..