-
[Python] 데이터 결측치(NaN) 제거, 대체하기Data Science/Python 2021. 1. 3. 01:33
NaN는 Not a Number의 줄임말로 pandas에서 결측치를 표현하는 방법입니다.
NaN은 프로그래밍상 float라는 type을 갖고 있습니다.
이러한 데이터의 결측치를 처리하기 위한 제거하거나 대체하는 방법입니다!
1. 결측값을 제거하는 방법
결측값이 포함된 행을 제거
df.dropna()
df.dropna(axis=0)
결측값이 포함된 열 제거
df.dropna(axis=1)
()안에 inplace를 써주면 지정하는 것과 같은 결과 - 아래 두 코드의 결과 동일
df = df.dropna()
df.dropna(inplace = True)
2. 결측값을 대체하는 방법
결측값을 0으로 대체
df.fillna(0)
결측값을 평균값으로 대체
df.fillna(df.mean())
'Data Science > Python' 카테고리의 다른 글
[Python] 파이썬 자료형 - 리스트(List) (0) 2021.03.11 [Python] tidy data, wide data 만들기 ( .melt, .pivot_table ) (0) 2021.01.11 [Python] pandas로 데이터 합치기(concat, merge) (0) 2021.01.07 [Python] 문자를 숫자로, 형변환하기(.replace, .to_numeric) (0) 2021.01.04 [Python] 판다스(pandas)로 데이터 불러오기, Colab에 파일 업로드하기 (0) 2021.01.02