파이썬
-
[Data Visualization] 데이터 시각화 - matplotlib(3) : histData Science/Data Visualization 2021. 1. 25. 16:41
Dataset 데이터 시각화에 앞서 데이터를 불러오겠습니다. 이번에 사용할 데이터는 tips 데이터 입니다. tips = sns.load_dataset('tips') histogram 히스토그램은 구간별 빈도수를 나타낸 그래프입니다. tips 데이터의 total_bill로 히스토그램을 그려보았습니다. 히스토그램 그래프를 그리면 bins의 defalut가 10이므로, 구간을 동등하게 10개로 나누어줍니다. plt.hist(tips['total_bill']) range를 통해서 계급 범위의 최소 최대를 설정해줄 수 있습니다. 히스토그램의 범위는 bins를 통해 입력된 수만큼의 계급으로 동일하게 나눠집니다. plt.hist(tips['total_bill'], range = (0, 60), # xmin : 0,..
-
[Data Visualization] 데이터 시각화 - matplotlib(1)Data Science/Data Visualization 2021. 1. 18. 23:41
파이썬에서 시각화를 하는 방법은 여러가지가 있지만 먼저 matplotlib부터 정리를 해보려고 합니다. 기본 그래프 그리기 데이터 시각화를 위한 라이브러리인 matplotlib 불러오고 import matplotlib.pyplot as plt 시각화를 위해서 데이터 프레임을 생성해 줍니다. x = [1, 3, 5, 7] y = [2, 4, 6, 8] df = pd.DataFrame({'x' : x, 'y' : y}) matplotlib의 plot() 함수에 x와 y 값을 넣어주면 다음과 같은 그래프가 그려집니다. plt.plot([1, 3, 5], [2, 4, 6]); 축 레이블 설정 xlabel(), ylabel()을 이용하면 축의 레이블을 설정할 수 있습니다. plt.xlabel('X') plt.yl..
-
[Python] tidy data, wide data 만들기 ( .melt, .pivot_table )Data Science/Python 2021. 1. 11. 23:41
라이브러리에 따라 다른 형태의 데이터를 필요로 하는데 seaborn 라이브러리는 tidy 형태의 데이터를 필요로 합니다. 먼저 데이터를 만들어 주겠습니다. %matplotlib inline import pandas as pd import numpy as np import seaborn as sns table1 = pd.DataFrame( [[np.nan, 9], [20, 50], [13, 11]], index=['X', 'Y', 'Z'], columns=['A', 'B']) 이렇게 wide 형태의 데이터를 제공합니다. 추가로, transpose()를 이용하면 동일한 결과이지만 행과 열이 전치된 데이터를 만들 수 있습니다. table2 = table1.transpose() tidy > p..
-
[Python] pandas로 데이터 합치기(concat, merge)Data Science/Python 2021. 1. 7. 00:24
효과적으로 데이터를 분석하기 위해서는 데이터셋을 하나로 합치는 것이 필요한데요, pandas를 통해 데이터를 합치는 두가지 방법입니다! 먼저 pandas 라이브러리를 불러와 주고 import pandas as pd 1. concat 행을 기준으로 concat ( default값으로 axis = 0 적용 ) pd.concat([df1,df2]) 열을 기준으로 concat pd.concat([df1, df2], axis = 1) 행의 인덱스 번호도 그대로 가져왔을 경우, ignore_index = True 를 이용해서 인덱스를 재배열할 수 있습니다. pd.concat([df1,df2], ignore_index = True) concat에서 join = 'outer' 를 default 값으로 가지기 때문에, ..
-
[Python] 데이터 결측치(NaN) 제거, 대체하기Data Science/Python 2021. 1. 3. 01:33
NaN는 Not a Number의 줄임말로 pandas에서 결측치를 표현하는 방법입니다. NaN은 프로그래밍상 float라는 type을 갖고 있습니다. 이러한 데이터의 결측치를 처리하기 위한 제거하거나 대체하는 방법입니다! 1. 결측값을 제거하는 방법 결측값이 포함된 행을 제거 df.dropna() df.dropna(axis=0) 결측값이 포함된 열 제거 df.dropna(axis=1) ()안에 inplace를 써주면 지정하는 것과 같은 결과 - 아래 두 코드의 결과 동일 df = df.dropna() df.dropna(inplace = True) 2. 결측값을 대체하는 방법 결측값을 0으로 대체 df.fillna(0) 결측값을 평균값으로 대체 df.fillna(df.mean())
-
[Python] 판다스(pandas)로 데이터 불러오기, Colab에 파일 업로드하기Data Science/Python 2021. 1. 2. 01:46
판다스는 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리입니다. 판다스는 파이썬 언어만 사용할 수 있어도 데이터 분석을 할 수 있는 장점을 가지고 있습니다. 먼저, 판다스를 이용하기 전에 판다스를 import 해주어야 합니다. import pandas as pd 판다스를 이용해서 데이터를 불러오기 위해서 1. csv 파일 pd.read_csv() 2. 엑셀 파일 pd.read_excel() 3. 클립보드에 있는 파일 pd.read_clipboard() 4. url을 통해 불러올 파일 url = "https://_____.xlsx" df = pd.read_excel(url) 데이터를 불러온 후, 데이터의 행과 열의 크기는 .shape을 통해서 df..