Python
-
[Python] 문자열 한 글자씩 자르기Data Science/Python 2021. 5. 19. 23:47
파이썬에서 문자열을 나눌 때는 split을 사용할 수 있다. .split() 이렇게 괄호 안에 아무것도 없을 때는 공백을 기준으로 나눠주고 .split(',') 괄호 안에 특정 값을 넣어주면 그것을 기준으로 문자열을 나눠준다. "I am Groot".split(' ') "apple,banana,mango,cherry".split(',') 하지만 문자열이 한 글자씩 나눠져 들어있는 리스트가 필요했고, 그 방법을 찾아보다가 list()를 발견했다. 아래와 같이 간단하게 list()의 괄호 안에 문자열을 넣어주면 한 글자씩 나눠진 문자열이 담긴 리스트를 돌려준다. list("I am Groot") 데이터 타입이 문자열인 숫자도 마찬가지로 나누기가 가능하다. list("01012345678") 단순히 list(..
-
[Python] 파이썬 자료형 - 리스트(List)Data Science/Python 2021. 3. 11. 22:22
Python 컬렉션 자료형 - 리스트(List) 파이썬 컬렉션 자료형은 특징에 따라 리스트(List), 튜플(Tuple), 딕셔너리(Dictionary)로 구분할 수 있습니다. 여기서 컬렉션 자료형은, 만약 문자열이나 숫자형이 a = 12, b = 'apple' 등과 같이 하나의 값을 가진다고 한다면 c = [1, 3, 5, 7, 9]와 같이 여러 개의 값을 저장할 수 있는 자료형을 컬렉션 자료형이라 말합니다. 이번에는 컬렉션 자료형 중 가장 많이 쓰이는 리스트에 대해서 알아보겠습니다. 먼저 리스트는 [ ]로 표시할 수 있으며 , 로 구분해줍니다. a = [] b = [1, 2, 3, 4, 5] c = ['apple', 'orange', 'lemon', 'banana'] d = [1, 2, 'apple'..
-
[Data Visualization] 데이터 시각화 - matplotlib(4) : pieData Science/Data Visualization 2021. 1. 27. 20:02
Dataset seaborn의 tips 데이터셋을 사용해줄게요. tips = sns.load_dataset('tips') 파이차트를 그리기 앞서 day를 그룹으로 sum을 구해주었어요 tips_sum = tips.groupby('day').sum().reset_index() pie chart 기본 파이 차트를 그리기 위해서는 plt.pie()를 사용합니다. tip의 요일별 비율을 알아보는 파이차트를 그려보겠습니다. tip = tips_sum['tip'] plt.pie(tip) 기본 파이차트로는 아무 정보를 알 수가 없어 label을 설정해주겠습니다. plt.pie()에 labels 를 넣어주면 그래프에 다음과 같은 레이블을 나타낼 수 있습니다. tip = tips_sum['tip'] day = tips_..
-
[Data Visualization] 데이터 시각화 - matplotlib(3) : histData Science/Data Visualization 2021. 1. 25. 16:41
Dataset 데이터 시각화에 앞서 데이터를 불러오겠습니다. 이번에 사용할 데이터는 tips 데이터 입니다. tips = sns.load_dataset('tips') histogram 히스토그램은 구간별 빈도수를 나타낸 그래프입니다. tips 데이터의 total_bill로 히스토그램을 그려보았습니다. 히스토그램 그래프를 그리면 bins의 defalut가 10이므로, 구간을 동등하게 10개로 나누어줍니다. plt.hist(tips['total_bill']) range를 통해서 계급 범위의 최소 최대를 설정해줄 수 있습니다. 히스토그램의 범위는 bins를 통해 입력된 수만큼의 계급으로 동일하게 나눠집니다. plt.hist(tips['total_bill'], range = (0, 60), # xmin : 0,..
-
[Data Visualization] 데이터 시각화 - matplotlib(2) : scatter, bar, barhData Science/Data Visualization 2021. 1. 24. 23:30
Dataset 시각화에 앞서 시각화에 사용할 데이터를 불러올게요 seaborn의 Iris 데이터를 사용했습니다. iris = sns.load_dataset('iris') Scatter Plot (산점도) matplotlib.pyplot에서 scatterplot을 그려줍니다. plt.scatter('sepal_length', # X 'sepal_width', # Y data = iris) scatterplot의 색을 color로 바꿔주고 alpha로 투명도를 조절합니다. title, xlabel, ylabel을 이용해서 제목과 X축, Y축의 label도 넣어주었습니다. plt.scatter('sepal_length', 'sepal_width', data = iris, color = 'green', # ma..
-
[Data Visualization] 데이터 시각화 - matplotlib(1)Data Science/Data Visualization 2021. 1. 18. 23:41
파이썬에서 시각화를 하는 방법은 여러가지가 있지만 먼저 matplotlib부터 정리를 해보려고 합니다. 기본 그래프 그리기 데이터 시각화를 위한 라이브러리인 matplotlib 불러오고 import matplotlib.pyplot as plt 시각화를 위해서 데이터 프레임을 생성해 줍니다. x = [1, 3, 5, 7] y = [2, 4, 6, 8] df = pd.DataFrame({'x' : x, 'y' : y}) matplotlib의 plot() 함수에 x와 y 값을 넣어주면 다음과 같은 그래프가 그려집니다. plt.plot([1, 3, 5], [2, 4, 6]); 축 레이블 설정 xlabel(), ylabel()을 이용하면 축의 레이블을 설정할 수 있습니다. plt.xlabel('X') plt.yl..
-
[Python] tidy data, wide data 만들기 ( .melt, .pivot_table )Data Science/Python 2021. 1. 11. 23:41
라이브러리에 따라 다른 형태의 데이터를 필요로 하는데 seaborn 라이브러리는 tidy 형태의 데이터를 필요로 합니다. 먼저 데이터를 만들어 주겠습니다. %matplotlib inline import pandas as pd import numpy as np import seaborn as sns table1 = pd.DataFrame( [[np.nan, 9], [20, 50], [13, 11]], index=['X', 'Y', 'Z'], columns=['A', 'B']) 이렇게 wide 형태의 데이터를 제공합니다. 추가로, transpose()를 이용하면 동일한 결과이지만 행과 열이 전치된 데이터를 만들 수 있습니다. table2 = table1.transpose() tidy > p..
-
[Python] pandas로 데이터 합치기(concat, merge)Data Science/Python 2021. 1. 7. 00:24
효과적으로 데이터를 분석하기 위해서는 데이터셋을 하나로 합치는 것이 필요한데요, pandas를 통해 데이터를 합치는 두가지 방법입니다! 먼저 pandas 라이브러리를 불러와 주고 import pandas as pd 1. concat 행을 기준으로 concat ( default값으로 axis = 0 적용 ) pd.concat([df1,df2]) 열을 기준으로 concat pd.concat([df1, df2], axis = 1) 행의 인덱스 번호도 그대로 가져왔을 경우, ignore_index = True 를 이용해서 인덱스를 재배열할 수 있습니다. pd.concat([df1,df2], ignore_index = True) concat에서 join = 'outer' 를 default 값으로 가지기 때문에, ..