전체 글
-
[Machine Learning] Logistic Regression 로지스틱회귀Data Science/Machine Learning & Deep Learning 2021. 2. 13. 00:34
로지스틱회귀는 회귀를 사용해 0과 1사이의 값으로 확률을 예측해, 그 확률이 정해진 값보다 큰지 작은지에 따라 어느 클래스에 속할 지를 더 가능성이 높은 범주로 분류해줍니다. 로지스틱회귀 연습에 많이 사용하는 Titanic 데이터를 사용해 보겠습니다. www.kaggle.com/c/titanic/overview Titanic - Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com Titanic 데이터는 훈련 데이터(train)와 테스트 데이터(test)로 구성되어 있습니다. 모델을 만들기에 앞서 훈련 데이터를 scikit-learn의 tra..
-
[Machine Learning] Linear Regression - 다중선형회귀Data Science/Machine Learning & Deep Learning 2021. 2. 7. 14:12
지난 포스팅에서는 단순선형회귀(Simple Linear Model) 모델을 사용해 보았는데요 이번에는 2가지 이상의 변수를 사용하는 다중 선형회귀모델(Multiple Linear Model)을 만들어보겠습니다. 이전 단순선형회귀모델에 사용했던 보험료를 예측하기 위한 데이터를 사용하겠습니다. (나이, 성별, BMI, 어린이, 흡연자, 지역, 요금 columns로 이루어진 데이터) www.kaggle.com/sonujha090/insurance-prediction import pandas as pd df = pd.read_csv('insurance.csv') 모델을 만들기에 앞서 scikit-learn의 train_test_split 메소드를 사용하여 데이터를 훈련 데이터와 테스트 데이터로 나누어 주겠습니다..
-
[Machine Learning] Linear Regression - 단순선형회귀Data Science/Machine Learning & Deep Learning 2021. 2. 4. 00:31
지도학습(Supervised Learning)은 머신 러닝의 한 방법입니다. 데이터의 속성을 알려주고 학습을 하는 것인데, 정답을 알려주면서 학습을 시키는 것이라고 할 수 있습니다. 지도 학습에는 회귀(Regression)와 분류(Classification) 두 가지 방법이 있습니다. 분류는 말 그대로 이것이 A이냐 B이냐 Lable로 데이터를 분류하며, 회귀는 연속적인 값으로 얼마나 될 지를 수로 알려줍니다. scikit-learn을 이용하여 하나의 feature만 사용하는 단순 선형 회귀모델(Simple Linear Regression)을 만들어 보겠습니다. 먼저 사용한 데이터는 보험료를 예측하기 위한 데이터입니다. 나이, 성별, BMI, 어린이, 흡연자, 지역, 요금 columns로 이루어진 데이터..
-
[Data Visualization] 데이터 시각화 - matplotlib(4) : pieData Science/Data Visualization 2021. 1. 27. 20:02
Dataset seaborn의 tips 데이터셋을 사용해줄게요. tips = sns.load_dataset('tips') 파이차트를 그리기 앞서 day를 그룹으로 sum을 구해주었어요 tips_sum = tips.groupby('day').sum().reset_index() pie chart 기본 파이 차트를 그리기 위해서는 plt.pie()를 사용합니다. tip의 요일별 비율을 알아보는 파이차트를 그려보겠습니다. tip = tips_sum['tip'] plt.pie(tip) 기본 파이차트로는 아무 정보를 알 수가 없어 label을 설정해주겠습니다. plt.pie()에 labels 를 넣어주면 그래프에 다음과 같은 레이블을 나타낼 수 있습니다. tip = tips_sum['tip'] day = tips_..
-
Review : Section 1Data Science/Code States - AI Bootcamp 2021. 1. 27. 16:08
Section을 마무리하면서 정리해보는 글 키워드를 정리해보면서 더 연습을 해보면 좋겠다 하는 부분과 대충 넘겨 잘 모르는 부분을 표시해주었다 1. Data Preprocess & EDA - 데이터 시각화에서 annotation 연습해보기 2. Statistics - T-test의 조건 : 독립성, 등분산성, 정규성 데이터 정규성 확인 from scipy.stats import normaltest normaltest(data) - Non parametric methods (비모수 통계) 모집단이 특정 확률 분포를 따른다는 전제를 하지 않는 방식, 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계 없이 데이터의 확률 계산해 검정하는 분석법. chisquare, kruskal-wallis test...
-
[Data Visualization] 데이터 시각화 - matplotlib(3) : histData Science/Data Visualization 2021. 1. 25. 16:41
Dataset 데이터 시각화에 앞서 데이터를 불러오겠습니다. 이번에 사용할 데이터는 tips 데이터 입니다. tips = sns.load_dataset('tips') histogram 히스토그램은 구간별 빈도수를 나타낸 그래프입니다. tips 데이터의 total_bill로 히스토그램을 그려보았습니다. 히스토그램 그래프를 그리면 bins의 defalut가 10이므로, 구간을 동등하게 10개로 나누어줍니다. plt.hist(tips['total_bill']) range를 통해서 계급 범위의 최소 최대를 설정해줄 수 있습니다. 히스토그램의 범위는 bins를 통해 입력된 수만큼의 계급으로 동일하게 나눠집니다. plt.hist(tips['total_bill'], range = (0, 60), # xmin : 0,..
-
[Data Visualization] 데이터 시각화 - matplotlib(2) : scatter, bar, barhData Science/Data Visualization 2021. 1. 24. 23:30
Dataset 시각화에 앞서 시각화에 사용할 데이터를 불러올게요 seaborn의 Iris 데이터를 사용했습니다. iris = sns.load_dataset('iris') Scatter Plot (산점도) matplotlib.pyplot에서 scatterplot을 그려줍니다. plt.scatter('sepal_length', # X 'sepal_width', # Y data = iris) scatterplot의 색을 color로 바꿔주고 alpha로 투명도를 조절합니다. title, xlabel, ylabel을 이용해서 제목과 X축, Y축의 label도 넣어주었습니다. plt.scatter('sepal_length', 'sepal_width', data = iris, color = 'green', # ma..
-
[Data Visualization] 데이터 시각화 - matplotlib(1)Data Science/Data Visualization 2021. 1. 18. 23:41
파이썬에서 시각화를 하는 방법은 여러가지가 있지만 먼저 matplotlib부터 정리를 해보려고 합니다. 기본 그래프 그리기 데이터 시각화를 위한 라이브러리인 matplotlib 불러오고 import matplotlib.pyplot as plt 시각화를 위해서 데이터 프레임을 생성해 줍니다. x = [1, 3, 5, 7] y = [2, 4, 6, 8] df = pd.DataFrame({'x' : x, 'y' : y}) matplotlib의 plot() 함수에 x와 y 값을 넣어주면 다음과 같은 그래프가 그려집니다. plt.plot([1, 3, 5], [2, 4, 6]); 축 레이블 설정 xlabel(), ylabel()을 이용하면 축의 레이블을 설정할 수 있습니다. plt.xlabel('X') plt.yl..