Data Science/Data Engineering
-
[Data Engineering] Spotify API spotipy 사용하기Data Science/Data Engineering 2021. 7. 3. 21:46
먼저 spotipy 를 사용하기 위해서는 spotipy를 설치해야 합니다. pip install spotipy 스포티파이의 api를 사용하기 위해서는 먼저 개발자 계정을 등록해야 하는데 기존에 스포티파이에 사용하는 계정이 있다면 해당 계정에 로그인하고 개발자 계정을 등록하기만 해도 되고, 기존에 사용하던 계정이 없다면 계정을 만든 후 개발자 계정을 등록하면 사용할 수 있습니다. developer.spotify.com My Dashboard | Spotify for Developers Create and manage Spotify Applications to use the Spotify Web API. Obtain credentials to authenticate with Spotify and fetch ..
-
[Data Engineering] selenium으로 리뷰 크롤링하기Data Science/Data Engineering 2021. 6. 27. 21:38
코스메틱 제품의 리뷰 분석을 위한 데이터를 수집하기 위해, 동적 페이지의 리뷰 크롤링이 가능한 selenium을 사용하여 올리브영의 제품 리뷰를 크롤링 해보았습니다. 먼저 selenium을 사용하기 위해서는 설치를 해주어야 합니다. ! pip install selenium 1) 페이지 넘기는 함수 먼저 리뷰 페이지를 넘기기 위한 함수를 만들어주기 위해 크롬에서 F12를 누르거나 개발자 도구를 클릭하고, 페이지 버튼 쪽에 마우스를 대면 페이지 바가 'div.pageing'라고 css selector가 표시되는 것을 볼 수 있습니다. 그리고 현재 페이지는 strong, 현재 페이지가 아닌 나머지 페이지는 a 로 태그가 되어 있는데, 이를 활용해서 페이지를 넘기는 함수를 만들어줄 수 있습니다. # 페이지 넘기..
-
[Data Engineering] Git & Github 기본 사용법Data Science/Data Engineering 2021. 4. 4. 17:10
Git은 버전 관리 시스템입니다. 깃을 통해서 작업을 기록을 남기고, 이전에 남겨놓은 상태로 다시 돌아갈 수도 있습니다. 특히 혼자 작업할 때 뿐만 아니라 다른 사람들과 협업을 할 때 매우 유용합니다. 간단하게 깃 사용법에 대해서 알아보겠습니다. 깃 버전 확인 git --version 위치한 디렉토리에 깃 시작( .git 파일이 만들어짐 ) git init 깃 제거 rm -rf .git 깃 상태 확인 - 어떤 파일을 추적하고 있는지, 수정된 파일은 어떤 것인지 등 깃의 현재 상황에 대해서 알려줌 git status 깃에 기록할 파일 지정 git add 파일 경로 # 해당 파일 add git add . # 모든 파일 add 깃 커밋 - 커밋 메세지 필수 git commit -m 'commit message..
-
[Data Engineering] Docker - Docker 기본 사용법Data Science/Data Engineering 2021. 3. 15. 23:25
Docker는 아래 사이트에서 쉽게 다운 받을 수 있습니다. www.docker.com/products/docker-desktop Docker Desktop for Mac and Windows | Docker Learn why Docker Desktop is the preferred choice for millions of developers building containerized applications. Download for Mac or Windows. www.docker.com 설치가 완료 되었다면 아래 코드를 통해 도커의 버전을 확인할 수 있으며, 이와 함께 설치여부 또한 확인할 수 있습니다. docker --version docker를 사용할 때는 Docker Docs 에서 option과 co..
-
[Data Engineering] 파이썬 가상환경 - AnacondaData Science/Data Engineering 2021. 3. 7. 01:42
가상환경은 웹 어플리케이션을 만들고 배포를 하는데 있어, 배포 환경에서 개발 환경을 비슷하게 구현하여 다양한 배포 환경에서 문제가 일어나는 일을 줄여 잘 작동할 수 있도록 합니다. 또한 가상환경을 통해서 프로젝트별로 개발 환경을 구성할 수 있어 효율적인 작업을 할 수 있습니다. Anaconda로 파이썬 가상환경을 사용하는 방법을 알아보겠습니다. Anaconda는 데이터 사이언스에서 사용되는 툴들이 담겨있어 매우 유용합니다. 아나콘다로 가상환경을 구축하기 위해서 먼저 아나콘다를 설치해야 합니다. 아나콘다 홈페이지에서 쉽게 다운로드 받을 수 있습니다. www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-sourc..