-
[Python] 판다스(pandas)로 데이터 불러오기, Colab에 파일 업로드하기Data Science/Python 2021. 1. 2. 01:46
< 판다스(pandas)로 데이터 불러오기 >
판다스는 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리입니다.
판다스는 파이썬 언어만 사용할 수 있어도 데이터 분석을 할 수 있는 장점을 가지고 있습니다.
먼저, 판다스를 이용하기 전에 판다스를 import 해주어야 합니다.
import pandas as pd
판다스를 이용해서 데이터를 불러오기 위해서
1. csv 파일
pd.read_csv()
2. 엑셀 파일
pd.read_excel()
3. 클립보드에 있는 파일
pd.read_clipboard()
4. url을 통해 불러올 파일
url = "https://_____.xlsx" df = pd.read_excel(url)
데이터를 불러온 후,
데이터의 행과 열의 크기는 .shape을 통해서
df.shape
데이터의 summary statistics(count, mean, std, min, 25%, 50%, 75%, max)는 .describe()을 통해 알아볼 수 있습니다.
df.describe()
< Google Colab 에 데이터 업로드하기 >
- 로컬에 있는 파일 직접 업로드하기
데이터 분석을 위해 많이 사용하는 colab에서 로컬 파일을 불러오고 싶을 때는 아래 방법을 사용할 수 있습니다.
from google.colab import files uploaded = files.upload()
위 코드를 실행하면 파일 파일 선택 버튼이 뜨는데 해당 버튼을 눌러 원하는 파일을 업로드 하면 됩니다.
- 구글 드라이브에 있는 파일 불러오기
Google Colab에서 드라이브에 있는 파일을 사용하기 위해서 먼저 구글 드라이브를 마운트 해줘야 합니다.
아래 코드를 실행하면 첨부된 사진과 같이 링크가 나오는데 링크를 눌러 들어갑니다.
from google.colab import drive drive.mount('/content/drive')
링크를 눌러 들어가면 아래와 같은 화면이 나오는데 자신이 연동하고자 하는 자신의 계정을 선택합니다.
계정을 선택하면 아래와 같이 확인이 나오고 로그인 버튼을 눌러 들어가면, 하늘색 네모칸으로 된 곳에 코드가 나옵니다.
그 코드를 복사하여 코랩 노트북의 'Enter your authorization code: ' 아래 네모 칸에 입력해주시면 됩니다.
코드를 입력해주면 코랩 파일에 드라이브가 연동되어 있는 것을 볼 수 있습니다.
원하는 파일을 우클릭해서 경로 복사를 하여 read_csv를 활용하면 데이터를 불러와 사용할 수 있습니다.
df = pd.read_csv('/content/drive/MyDrive/test.csv')
첫 포스팅 끝
'Data Science > Python' 카테고리의 다른 글
[Python] 파이썬 자료형 - 리스트(List) (0) 2021.03.11 [Python] tidy data, wide data 만들기 ( .melt, .pivot_table ) (0) 2021.01.11 [Python] pandas로 데이터 합치기(concat, merge) (0) 2021.01.07 [Python] 문자를 숫자로, 형변환하기(.replace, .to_numeric) (0) 2021.01.04 [Python] 데이터 결측치(NaN) 제거, 대체하기 (0) 2021.01.03