Data Science
-
[Data Visualization] 데이터 시각화 - matplotlib(4) : pieData Science/Data Visualization 2021. 1. 27. 20:02
Dataset seaborn의 tips 데이터셋을 사용해줄게요. tips = sns.load_dataset('tips') 파이차트를 그리기 앞서 day를 그룹으로 sum을 구해주었어요 tips_sum = tips.groupby('day').sum().reset_index() pie chart 기본 파이 차트를 그리기 위해서는 plt.pie()를 사용합니다. tip의 요일별 비율을 알아보는 파이차트를 그려보겠습니다. tip = tips_sum['tip'] plt.pie(tip) 기본 파이차트로는 아무 정보를 알 수가 없어 label을 설정해주겠습니다. plt.pie()에 labels 를 넣어주면 그래프에 다음과 같은 레이블을 나타낼 수 있습니다. tip = tips_sum['tip'] day = tips_..
-
Review : Section 1Data Science/Code States - AI Bootcamp 2021. 1. 27. 16:08
Section을 마무리하면서 정리해보는 글 키워드를 정리해보면서 더 연습을 해보면 좋겠다 하는 부분과 대충 넘겨 잘 모르는 부분을 표시해주었다 1. Data Preprocess & EDA - 데이터 시각화에서 annotation 연습해보기 2. Statistics - T-test의 조건 : 독립성, 등분산성, 정규성 데이터 정규성 확인 from scipy.stats import normaltest normaltest(data) - Non parametric methods (비모수 통계) 모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식, 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계 없이 데이터의 확률 계산해 검정하는 분석법. chisquare, kruskal-wallis test...
-
[Data Visualization] 데이터 시각화 - matplotlib(3) : histData Science/Data Visualization 2021. 1. 25. 16:41
Dataset 데이터 시각화에 앞서 데이터를 불러오겠습니다. 이번에 사용할 데이터는 tips 데이터 입니다. tips = sns.load_dataset('tips') histogram 히스토그램은 구간별 빈도수를 나타낸 그래프입니다. tips 데이터의 total_bill로 히스토그램을 그려보았습니다. 히스토그램 그래프를 그리면 bins의 defalut가 10이므로, 구간을 동등하게 10개로 나누어줍니다. plt.hist(tips['total_bill']) range를 통해서 계급 범위의 최소 최대를 설정해줄 수 있습니다. 히스토그램의 범위는 bins를 통해 입력된 수만큼의 계급으로 동일하게 나눠집니다. plt.hist(tips['total_bill'], range = (0, 60), # xmin : 0,..
-
[Data Visualization] 데이터 시각화 - matplotlib(2) : scatter, bar, barhData Science/Data Visualization 2021. 1. 24. 23:30
Dataset 시각화에 앞서 시각화에 사용할 데이터를 불러올게요 seaborn의 Iris 데이터를 사용했습니다. iris = sns.load_dataset('iris') Scatter Plot (산점도) matplotlib.pyplot에서 scatterplot을 그려줍니다. plt.scatter('sepal_length', # X 'sepal_width', # Y data = iris) scatterplot의 색을 color로 바꿔주고 alpha로 투명도를 조절합니다. title, xlabel, ylabel을 이용해서 제목과 X축, Y축의 label도 넣어주었습니다. plt.scatter('sepal_length', 'sepal_width', data = iris, color = 'green', # ma..
-
[Data Visualization] 데이터 시각화 - matplotlib(1)Data Science/Data Visualization 2021. 1. 18. 23:41
파이썬에서 시각화를 하는 방법은 여러가지가 있지만 먼저 matplotlib부터 정리를 해보려고 합니다. 기본 그래프 그리기 데이터 시각화를 위한 라이브러리인 matplotlib 불러오고 import matplotlib.pyplot as plt 시각화를 위해서 데이터 프레임을 생성해 줍니다. x = [1, 3, 5, 7] y = [2, 4, 6, 8] df = pd.DataFrame({'x' : x, 'y' : y}) matplotlib의 plot() 함수에 x와 y 값을 넣어주면 다음과 같은 그래프가 그려집니다. plt.plot([1, 3, 5], [2, 4, 6]); 축 레이블 설정 xlabel(), ylabel()을 이용하면 축의 레이블을 설정할 수 있습니다. plt.xlabel('X') plt.yl..
-
[Python] tidy data, wide data 만들기 ( .melt, .pivot_table )Data Science/Python 2021. 1. 11. 23:41
라이브러리에 따라 다른 형태의 데이터를 필요로 하는데 seaborn 라이브러리는 tidy 형태의 데이터를 필요로 합니다. 먼저 데이터를 만들어 주겠습니다. %matplotlib inline import pandas as pd import numpy as np import seaborn as sns table1 = pd.DataFrame( [[np.nan, 9], [20, 50], [13, 11]], index=['X', 'Y', 'Z'], columns=['A', 'B']) 이렇게 wide 형태의 데이터를 제공합니다. 추가로, transpose()를 이용하면 동일한 결과이지만 행과 열이 전치된 데이터를 만들 수 있습니다. table2 = table1.transpose() tidy > p..
-
[Python] pandas로 데이터 합치기(concat, merge)Data Science/Python 2021. 1. 7. 00:24
효과적으로 데이터를 분석하기 위해서는 데이터셋을 하나로 합치는 것이 필요한데요, pandas를 통해 데이터를 합치는 두가지 방법입니다! 먼저 pandas 라이브러리를 불러와 주고 import pandas as pd 1. concat 행을 기준으로 concat ( default값으로 axis = 0 적용 ) pd.concat([df1,df2]) 열을 기준으로 concat pd.concat([df1, df2], axis = 1) 행의 인덱스 번호도 그대로 가져왔을 경우, ignore_index = True 를 이용해서 인덱스를 재배열할 수 있습니다. pd.concat([df1,df2], ignore_index = True) concat에서 join = 'outer' 를 default 값으로 가지기 때문에, ..
-
[Python] 문자를 숫자로, 형변환하기(.replace, .to_numeric)Data Science/Python 2021. 1. 4. 19:01
12,345 + 67,890 = 80,235 가 되어야 하지만, 12,34567,890 이 나오는 경우! 이런 문제는 1. 숫자가 아닌 부분을 제거하기 2. 문자를 숫자로 형변환하기 위의 방법을 통해서 해결할 수 있습니다. 1. 숫자가 아닌 부분을 제거하기 - replace를 이용하여 숫자가 아닌 부분을 공백으로 대체하기 .replace("삭제할 글자", ' ') 2. 문자를 숫자로 형변환하기 - 숫자가 아닌 부분을 제거하고 난 뒤, integer로 형변환 해주기 int() + 함수를 만들어 적용하기 def toInt(string): return int(string.replace(',', '')) toInt('12,345') 위에서 만든 toInt 함수를 column 단위로 적용할 수 있어요 df['co..