[인공지능 기초] 차원의 저주(Curse of Dimensionality)
·
AI Research/Artificial Intelligence
▶ 차원의 저주(Curse of Dimensionality)란? 차원의 저주란 학습을 위한 데이터의 차원(=변수의 개수)이 증가하면서 학습데이터의 수가 차원의 수보다 적어져 성능이 저하되는 것을 말합니다. 예를들어, 총 데이터의 수는 200개인데 변수는 700개인 경우가 차원의 저주에 해당합니다. 차원이 높아질수록 데이터 사이의 거리가 멀어지고, 빈 공간이 생기는 공간 섬김 현상(sparsity)을 보입니다. 즉, 간단히 말해 차원이 증가함에 따라 모델의 성능이 안좋아지는 현상인데, 왜 이런 현상이 발생하는 것일까요? 위 그림은 차레대로 1차원, 2차원, 3차원 공간에서의 데이터 분포를 나타냅니다. 1차원인 선의 경우를 보면, 선위에 데이터들이 빽빽하게 나란히 놓여있습니다. 2차원인 평면의 경우는 1차원..
[인공지능 기초] EM Clustering
·
AI Research/Artificial Intelligence
이번 포스팅에서는 EM Clustering에 대해 설명해보도록 하겠습니다. 간단히 얘기하자면 EM Clustering은 Expectation단계와 Maximization 단계를 이용하여 클러스터링합니다. 자세히 설명하기 전에 Soft Clusterting에 대해 먼저 설명하겠습니다. ​ - Soft Clustering Soft Clustering은 여러 클러스터들이 서로 겹쳐질 수 있는 클러스터링을 말합니다. K-Means Clustering의 경우에는 K개의 클러스터를 가정한 뒤 각 클러스터의 평균을 기준으로 하여 클러스터링 하는 방식입니다. 이는 하나의 데이터는 하나의 클러스터에만 포함될 수 있는 구조입니다. 그러나 실세계의 데이터들은 꼭 하나의 클러스터에만 포함되지 않을 수도 있습니다. Soft C..
[인공지능 기초] Likelihood(가능도, 우도)
·
AI Research/Artificial Intelligence
이번 포스팅에서는 Likelihood(가능도, 우도)와 최대 우도 추정(maximum likelihood)에 대해 설명하겠습니다. Likelihood에 대해 설명하기 전에 Likelihood와 헷갈리는 이름인 Probability(확률)에 대해 간단하게 설명하겠습니다! ​ - Probability(확률) 확률이란 확률 분포가 주어졌을 때, 특정한 관측 값이나 관측 구간이 확률 분포 안에 얼마나 존재할 수 있을지를 나타내는 값입니다. 핵심은 확률 분포(probability distribution)는 고정하고 그 때의 관측 값 X에 대한 확률 값을 구하는 것입니다. 이를 수식으로 나타내면 아래와 같습니다. ​ 아래 그림으로 설명해보겠습니다. 위 그림의 확률 분포는 쥐들의 몸무게 분포입니다. 종 모양을 이루고..
[인공지능 기초] 결측치(Missing Value) 처리
·
AI Research/Artificial Intelligence
▶ 결측치(Missing Value)란? 결측치는 데이터상에서 표기되지 않은 값을 말합니다. 주로 NA(Not Available)로 표기됩니다. ​ ​ ▶ 결측치의 종류 결측 데이터를 올바르게 처리하기 위해서는 누락된 이유를 이해하는 것이 중요합니다. 어떻게 발생된 결측치인지에 따라 다른 접근방법이 필요하기 때문입니다. 결측치는 크게 3종류로 분류할 수 있습니다. 결측치의 종류를 설명하기 위해 성별로 체중을 모델링하는 경우를 예시로 들어 설명하겠습니다. ​ - 완전 무작위 결측(MCAR, Missing Completely At Random) 한 변수에서 발생한 결측치가 다른 변수들과 아무런 상관이 없는 경우에 해당하는 결측치입니다. 깜빡 잊고 입력이 안 된 데이터, 전산 오류로 인한 누락 데이터등이 여기..