[데이터 분석] Data Preprocessing (Pandas)
·
AI Research/Data Analysis
Kaggle의 'Adult Census Income' 데이터를 이용하였습니다. ​ ▶ 결측치 찾기(자세한 내용은 링크를 참조해주세요) -결측치가 있는 행을 찾아주는 코드는 아래와 같습니다. train[train.apply(lambda x: "?" in list(x), axis=1)] ## 물음표 있는 row만 찾아줍니다. ​ - 'age'가 30이상이고 'workclass'가 '?'인 행을 찾아 workclass의 값을 'No'로 바꿔줍니다. train.loc[(train.age >= 30)&(train.workclass=='?'), 'workclass'] = 'No' train.workclass.value_counts() ​ ​ ▶ 이상치 처리 -이상치 확인해보기 train.describe() desc..
[데이터 분석] 자주 쓰이는 라이브러리 함수(Pandas)
·
AI Research/Data Analysis
Kaggle의 'jigsaw-unintended-bias-in-toxicity-classification' 데이터를 이용하였습니다. ​ ▶ pandas 파일 읽기 toxic_train=pd.read_csv(os.path.join(PATH,'train.csv'), #dtype= ) read_csv 함수의 인자로 dtype을 설정해줄 수 있습니다. 따로 설정해주지 않으면 전부 int64, float64로 읽어서 메모리를 너무 많이 차지하는 현상이 발생할 수도 있습니다. 읽은 데이터를 출력해 보면 아래와 같습니다. ​ 총 1,804,874 개로 이루어져 있으며, 한 행은 45개의 속성으로 이루어져 있습니다. 이 dataframe안의 데이터를 확인하는 방법에는 대표적으로 head와 tail이 있습니다. ▶ he..
[딥러닝 기본지식] 딥러닝 프레임워크 비교(Tensorflow, Keras, Pytorch)
·
AI Research/Deep Learning
딥러닝에 사용되는 프레임워크(Framework)에는 Tensorflow, Keras, Pytorch, Caffe, MXNet 등이 있습니다. 이들 중 가장 많이 사용되는 것은 Tensorflow, Keras, Pytorch입니다. 이번 포스팅에서는 세 가지 프레임워크를 비교해보겠습니다. ​ 자세한 설명 전에 프레임워크에 대해 간략히 설명하겠습니다. ※ 프레임워크란? 응용 프로그램 개발을 위해 여러 라이브러리나 모듈을 효율적으로 사용할 수 있도록 하나로 묶어 놓은 것입니다. 프로그램의 전체적인 구조와 흐름을 확정짓고, 더 나아가 프로그래머가 정의해주어야 하는 함수의 이름까지 결정합니다. ​ Tensorflow, Keras, Pytorch 세 가지 프레임워크들은 서로 다른 목적으로 설계되었으며, 각각 고유한..
[딥러닝 기본지식] Transfer Learning과 Fine Tuning
·
AI Research/Deep Learning
▶Transfer Learning(전이 학습)이란? Transfer Learning이란 한 분야에서 학습된 신경망의 일부 능력을 유사하거나 새로운 분야에서 사용되는 신경망의 학습에 이용하는 방법입니다. 데이터의 수가 적을 때 효과적입니다. 또한, 전이 학습 없이 밑바닥부터 새로 학습할 때 보다 훨씬 더 높은 정확도와 빠른 학습 속도를 얻을 수 있습니다. Transfer Learning에서 사용되는 학습된 신경망을 pretrained model 이라고 합니다. 대표적으로는 ImageNet, ResNet, GoogleNet, VGG 등이 있습니다. 대규모 데이터에서 잘 학습된 모델을 가지고 와서 사용자가 적용하려는 문제에 맞게 weight를 조금씩 변화하여 사용하면 됩니다. 따라서 첫 학습부터 어느 정도 합..