Data Science
-
[Python] 데이터 결측치(NaN) 제거, 대체하기Data Science/Python 2021. 1. 3. 01:33
NaN는 Not a Number의 줄임말로 pandas에서 결측치를 표현하는 방법입니다. NaN은 프로그래밍상 float라는 type을 갖고 있습니다. 이러한 데이터의 결측치를 처리하기 위한 제거하거나 대체하는 방법입니다! 1. 결측값을 제거하는 방법 결측값이 포함된 행을 제거 df.dropna() df.dropna(axis=0) 결측값이 포함된 열 제거 df.dropna(axis=1) ()안에 inplace를 써주면 지정하는 것과 같은 결과 - 아래 두 코드의 결과 동일 df = df.dropna() df.dropna(inplace = True) 2. 결측값을 대체하는 방법 결측값을 0으로 대체 df.fillna(0) 결측값을 평균값으로 대체 df.fillna(df.mean())
-
[Python] 판다스(pandas)로 데이터 불러오기, Colab에 파일 업로드하기Data Science/Python 2021. 1. 2. 01:46
판다스는 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리입니다. 판다스는 파이썬 언어만 사용할 수 있어도 데이터 분석을 할 수 있는 장점을 가지고 있습니다. 먼저, 판다스를 이용하기 전에 판다스를 import 해주어야 합니다. import pandas as pd 판다스를 이용해서 데이터를 불러오기 위해서 1. csv 파일 pd.read_csv() 2. 엑셀 파일 pd.read_excel() 3. 클립보드에 있는 파일 pd.read_clipboard() 4. url을 통해 불러올 파일 url = "https://_____.xlsx" df = pd.read_excel(url) 데이터를 불러온 후, 데이터의 행과 열의 크기는 .shape을 통해서 df..