[데이터 분석] Data Preprocessing (Pandas)
·
AI Research/Data Analysis
Kaggle의 'Adult Census Income' 데이터를 이용하였습니다. ​ ▶ 결측치 찾기(자세한 내용은 링크를 참조해주세요) -결측치가 있는 행을 찾아주는 코드는 아래와 같습니다. train[train.apply(lambda x: "?" in list(x), axis=1)] ## 물음표 있는 row만 찾아줍니다. ​ - 'age'가 30이상이고 'workclass'가 '?'인 행을 찾아 workclass의 값을 'No'로 바꿔줍니다. train.loc[(train.age >= 30)&(train.workclass=='?'), 'workclass'] = 'No' train.workclass.value_counts() ​ ​ ▶ 이상치 처리 -이상치 확인해보기 train.describe() desc..
[데이터 분석] 자주 쓰이는 라이브러리 함수(Pandas)
·
AI Research/Data Analysis
Kaggle의 'jigsaw-unintended-bias-in-toxicity-classification' 데이터를 이용하였습니다. ​ ▶ pandas 파일 읽기 toxic_train=pd.read_csv(os.path.join(PATH,'train.csv'), #dtype= ) read_csv 함수의 인자로 dtype을 설정해줄 수 있습니다. 따로 설정해주지 않으면 전부 int64, float64로 읽어서 메모리를 너무 많이 차지하는 현상이 발생할 수도 있습니다. 읽은 데이터를 출력해 보면 아래와 같습니다. ​ 총 1,804,874 개로 이루어져 있으며, 한 행은 45개의 속성으로 이루어져 있습니다. 이 dataframe안의 데이터를 확인하는 방법에는 대표적으로 head와 tail이 있습니다. ▶ he..