분류 전체보기
-
[MySQL] 프로그래머스 SQL 고득점 Kit - SUM, MAX, MINSQL 2021. 7. 6. 11:29
최댓값 구하기 가장 최근에 들어온 동물은 언제 들어왔는지 조회하는 SQL 문을 작성해주세요. SELECT MAX(DATETIME) FROM ANIMAL_INS 최솟값 구하기 동물 보호소에 가장 먼저 들어온 동물은 언제 들어왔는지 조회하는 SQL 문을 작성해주세요. SELECT MIN(DATETIME) FROM ANIMAL_INS 동물 수 구하기 동물 보호소에 동물이 몇 마리 들어왔는지 조회하는 SQL 문을 작성해주세요. SELECT COUNT(*) AS count FROM ANIMAL_INS - SELECT 에 AS 를 쓰면 쿼리의 결과로 임시적으로 변경된 칼럼명을 가져올 수 있다. 중복 제거하기 동물 보호소에 들어온 동물의 이름은 몇 개인지 조회하는 SQL 문을 작성해주세요. 이때 이름이 NULL인 경..
-
[MySQL] 프로그래머스 SQL 고득점 Kit - SELECTSQL 2021. 7. 5. 20:32
모든 레코드 조회하기 동물 보호소에 들어온 모든 동물의 정보를 ANIMAL_ID순으로 조회하는 SQL문을 작성해주세요. SELECT * FROM ANIMAL_INS ORDER BY ANIMAL_ID 역순 정렬하기 동물 보호소에 들어온 모든 동물의 이름과 보호 시작일을 조회하는 SQL문을 작성해주세요. 이때 결과는 ANIMAL_ID 역순으로 보여주세요. SQL을 실행하면 다음과 같이 출력되어야 합니다. SELECT NAME, DATETIME FROM ANIMAL_INS ORDER BY ANIMAL_ID DESC 아픈 동물 찾기 동물 보호소에 들어온 동물 중 아픈 동물의 아이디와 이름을 조회하는 SQL 문을 작성해주세요. 이때 결과는 아이디 순으로 조회해주세요. SELECT ANIMAL_ID, NAME FR..
-
[Data Engineering] Spotify API spotipy 사용하기Data Science/Data Engineering 2021. 7. 3. 21:46
먼저 spotipy 를 사용하기 위해서는 spotipy를 설치해야 합니다. pip install spotipy 스포티파이의 api를 사용하기 위해서는 먼저 개발자 계정을 등록해야 하는데 기존에 스포티파이에 사용하는 계정이 있다면 해당 계정에 로그인하고 개발자 계정을 등록하기만 해도 되고, 기존에 사용하던 계정이 없다면 계정을 만든 후 개발자 계정을 등록하면 사용할 수 있습니다. developer.spotify.com My Dashboard | Spotify for Developers Create and manage Spotify Applications to use the Spotify Web API. Obtain credentials to authenticate with Spotify and fetch ..
-
[Data Engineering] selenium으로 리뷰 크롤링하기Data Science/Data Engineering 2021. 6. 27. 21:38
코스메틱 제품의 리뷰 분석을 위한 데이터를 수집하기 위해, 동적 페이지의 리뷰 크롤링이 가능한 selenium을 사용하여 올리브영의 제품 리뷰를 크롤링 해보았습니다. 먼저 selenium을 사용하기 위해서는 설치를 해주어야 합니다. ! pip install selenium 1) 페이지 넘기는 함수 먼저 리뷰 페이지를 넘기기 위한 함수를 만들어주기 위해 크롬에서 F12를 누르거나 개발자 도구를 클릭하고, 페이지 버튼 쪽에 마우스를 대면 페이지 바가 'div.pageing'라고 css selector가 표시되는 것을 볼 수 있습니다. 그리고 현재 페이지는 strong, 현재 페이지가 아닌 나머지 페이지는 a 로 태그가 되어 있는데, 이를 활용해서 페이지를 넘기는 함수를 만들어줄 수 있습니다. # 페이지 넘기..
-
[SQL] SQL Query 쿼리문 (2) - DISTINCT, JOIN, OUTER JOINSQL 2021. 5. 31. 15:02
SQL Query -DISTINCT, JOIN (INNER JOIN), OUTER JOIN (LEFT OUTER JOIN, RIGHT OUTER JOIN) 1. DISTINCT 중복 없이 유니크한 값만 결과로 돌려받고 싶을 때 DISTINCT를 사용할 수 있습니다. invoices 테이블에서 CustomerId 중복 값 없이 가져오기 SELECT DISTINCT i.CusotomerId FROM invoices i 유니크한 조합을 결과로 가져오기 위해서도 DISTINCT를 사용할 수 있습니다. invoices 테이블의 InvoiceDate와 BillingCity의 유니크한 조합 가져오기 SELECT DISTINCT i.InvoiceDate, i.BillingCity FROM invoices i 2. JO..
-
[Python] 문자열 한 글자씩 자르기Data Science/Python 2021. 5. 19. 23:47
파이썬에서 문자열을 나눌 때는 split을 사용할 수 있다. .split() 이렇게 괄호 안에 아무것도 없을 때는 공백을 기준으로 나눠주고 .split(',') 괄호 안에 특정 값을 넣어주면 그것을 기준으로 문자열을 나눠준다. "I am Groot".split(' ') "apple,banana,mango,cherry".split(',') 하지만 문자열이 한 글자씩 나눠져 들어있는 리스트가 필요했고, 그 방법을 찾아보다가 list()를 발견했다. 아래와 같이 간단하게 list()의 괄호 안에 문자열을 넣어주면 한 글자씩 나눠진 문자열이 담긴 리스트를 돌려준다. list("I am Groot") 데이터 타입이 문자열인 숫자도 마찬가지로 나누기가 가능하다. list("01012345678") 단순히 list(..
-
[Deep Learning] Bag-of-Words(BoW) - CountVectorizer, TF-IDF VectorizerData Science/Machine Learning & Deep Learning 2021. 4. 18. 23:36
머신러닝 모델에 텍스트를 이용하기 위해서는 텍스트를 토큰화한 것을 컴퓨터가 이해할 수 있도록 벡터화 해주어야 합니다. 벡터화 방법 중 BoW( Bag of Words )는 단어의 존재 여부와 그 빈도 정보만을 고려해 벡터화하는 모델입니다. CountVectorizer 단어의 출현 빈도로 여러 문서를 벡터화하는 방법 행에 문서, 열에 토큰, 그 값(value)으로 문서에서 토큰의 출현 횟수 모든 문자를 소문자로 전환하여 계산 from sklearn.feature_extraction.text import CountVectorizer # Count vectorizer. vect = CountVectorizer(stop_words = 'english', max_features = 20) # fit & trans..
-
[Deep Learning] NLP - 어간추출(stemming) & 표제어추출(lemmatization)Data Science/Machine Learning & Deep Learning 2021. 4. 16. 15:46
어간 추출과 표제어 추출은 token 의 수를 줄일 수 있습니다. apple, apples가 있다면 apple 하나로 하여 단어의 수를 줄일 수 있는 것입니다. 어간추출 Stemming 접사를 제거하고 단어의 의미가 포함된 핵심 부분만 남겨 변환 어간과 접사 분리( ing, ed, s 와 같은 것들을 제거 ) ex ) wolves -> wolv from nltk.stem import PorterStemmer ps = PorterStemmer() text = 'Wolves were feeding in the forest' words = text.split(" ") for word in words: print(ps.stem(word)) 표제어추출 Lemmatization 단어들은 기본 사전형 단어 형태인 l..