'AI Research/Data Analysis' 카테고리의 글 목록

▶ EDA(Exploratory Data Analysis)란? 탐색적 데이터 분석입니다. 데이터 분석에 있어서 매우 중요한 초기 분석 단계입니다. 쉽게 말해서 데이터가 어떤 형태를 띄고 있는지 견적을 내는 일이다라고 할 수 있습니다. 이 단계가 중요한 이유는 데이터의 특성을 알아야 해결하고자 하는 문제의 해결 방법을 탐색해 볼 수 있기 때문입니다. 간단히 설명하자면, EDA란! - 시각화를 통해 패턴을 발견하고, - 데이터의 특성을 확인하고, - 통계와 그래픽을 통해 가설을 검정하는 과정을 통해 데이터에 대해 알아보는 것입니다. ▶ EDA의 목적 EDA의 목적은 아래와 같습니다. - 시각화와 통계를 사용해 데이터를 이해하고 살펴볼 수 있습니다. - 도출하고자 하는 결과의 기본이 되는 가설에 접근하..

Kaggle의 'Adult Census Income' 데이터를 이용하였습니다. ▶ 인코딩(Encoding) 모델이 이해하기 힘든 형태의 feature 혹은 애매하게 잘못 학습될 가능성이 있는 feature들을 의미적인 관점에서 변화시켜줍니다. 인코딩의 결과에 의해서 알고리즘이 보는 feature의 의미적인 특징이 드러나게 됩니다. one-hot encoding과 label encoding, Mean encoding 에 대해 설명하겠습니다. from sklearn.preprocessing import OneHotEncoder, LabelEncoder 1. one-hot encoding categorical encoding이라고도 하며, 범주형 변수에 대해 각 클래스별 독립적인 feature를 생성합니다..

Kaggle의 'Adult Census Income' 데이터를 이용하였습니다. ▶ 결측치 찾기(자세한 내용은 링크를 참조해주세요) -결측치가 있는 행을 찾아주는 코드는 아래와 같습니다. train[train.apply(lambda x: "?" in list(x), axis=1)] ## 물음표 있는 row만 찾아줍니다. - 'age'가 30이상이고 'workclass'가 '?'인 행을 찾아 workclass의 값을 'No'로 바꿔줍니다. train.loc[(train.age >= 30)&(train.workclass=='?'), 'workclass'] = 'No' train.workclass.value_counts() ▶ 이상치 처리 -이상치 확인해보기 train.describe() desc..

Kaggle의 'jigsaw-unintended-bias-in-toxicity-classification' 데이터를 이용하였습니다. ▶ pandas 파일 읽기 toxic_train=pd.read_csv(os.path.join(PATH,'train.csv'), #dtype= ) read_csv 함수의 인자로 dtype을 설정해줄 수 있습니다. 따로 설정해주지 않으면 전부 int64, float64로 읽어서 메모리를 너무 많이 차지하는 현상이 발생할 수도 있습니다. 읽은 데이터를 출력해 보면 아래와 같습니다. 총 1,804,874 개로 이루어져 있으며, 한 행은 45개의 속성으로 이루어져 있습니다. 이 dataframe안의 데이터를 확인하는 방법에는 대표적으로 head와 tail이 있습니다. ▶ he..

티스토리툴바