본문 바로가기
반응형

분류 전체보기789

[R] 데이터 분석 기초(평균, 중간값, 분산, 표준편차, 백분위수) 안녕하세요 R과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO 데이터 분석 개론서, 실습서 등을 살펴보면, 분석의 기초는 데이터를 왜곡없이 '있는 그대로' 보는 것을 강조합니다. 이처럼 관찰된 데이터를 수치화(평균, 분산, 표준편차 등)된 공통 기준을 활용함으로써 데이터를 정리할 수 있습니다. 이에 따라 데이터 특성을 파악할 수 있는 주요 지표에 대해서 아래와 같이 살펴보겠습니다. STEP 1. 평균 STEP 2. 중간값 STEP 3. 분산/표준편차 STEP 4. 백분위수 통계량 (Statistics) R 평균 (산술평균) mean() 조화평균 1/mean(1/x) 중간값 median() 분산 var() 표준편차 sd() 백분위수 q.. 2021. 10. 28.
[PYTHON] 파이썬 정규식을 활용한 괄호와 괄호 안 문자열 삭제 또는 추출 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO 이번에 특허청 특허 정보를 확인하게 되면서, 국내 출원/등록된 특허 데이터가 저장된 형태를 보게 되었습니다. 특허 정보는 아래와 같이, 특허 상태, 특허명(영문 포함), 특허 정보 등으로 구성되며, 이 중에서 특허명은 괄호()로 국문과 영문이 구분되어 있습니다. 국문 특허명과 영문 특허명을 구분해서 저장하며, 활용한 코드를 아래와 같이 공유합니다. 이번에는 PYTHON 정규식과 library re를 활용해서, STEP 1. 괄호와 괄호 안 문자열 삭제 STEP 2. 괄호와 괄호 안 문자열 추출 이 두가지에 대해서 살펴보고자 합니다. STEP 1. 괄호와 괄호 안 문자열.. 2021. 10. 26.
[PYTHON] 파이썬 웹 크롤링 (무한 스크롤 크롤링/SCROLL_DOWN) 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO ​ 이번에는 PYTHON selenium을 활용해서 동적 페이지를 크롤링할 때, 웹 크롤링을 진행하게 되면 스크롤 다운(scroll down)하여, 웹페이지를 내려가면서 데이터를 수집하는 스크롤 다운 방법 중 마지막 항목까지 자동으로 내려가는 무한 스크롤 크롤링을 정리했습니다. ​ 이번 코드는 이전에 공유한 횟수를 정하고 내려가는 방식도 향후에 참고하면 좋습니다. 2021. 10. 24.
[R] 데이터 구조 확인하기 str( ), head( ), tail( ) 안녕하세요 R과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO R의 문법 중에 객체(object) 및 데이터의 타입과 값을 확인하는 방법을 공유하고자 합니다. 1. str(structure) 객체의 변수 명과 문자형/숫자형 정보를 확인할 수 있다. # 객체(object) 확인 str(iris) 2. head() / tail() 데이터의 일부를 확인할 수 있으며, head()의 경우, 데이터의 앞 부분을, tail()의 경우, 데이터의 뒷 부분을 확인할 수 있다. # head() head(iris) # tail() tail(iris) 확인하고 싶은 데이터의 범위는 함수에서 (n = 숫자) 옵션을 활용하면 된다. head(iris, n .. 2021. 10. 21.
[PYTHON] 파이썬 Selenium 웹페이지 스크롤하기 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO ​ 이번에는 PYTHON selenium을 활용해서 동적 페이지를 크롤링할 때, 웹 페이지를 스크롤 다운(scroll down)하여, 웹페이지 내릴 일이 있습니다. ​ 이번 코드는 이전에 공유한 "[PYTHON] 크롤링_유튜브 (COLDPLAY X BTS)"를 참조합니다. 1. 소스 코드 ​ 2. 코드 설명 1. 개요 ​ - PAGE DOWN 횟수를 활용한 웹 페이지 scroll down # library import from tqdm.auto import tqdm from selenium.webdriver.common.by import By from selenium... 2021. 10. 20.
[PYTHON] 파이썬 이모지(emoji) 제거 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO 틱톡에서 컨텐츠에 관련된 데이터를 수집하던 중에 제목 및 댓글에 이모지(emoji) 처리로 어려움이 있었습니다 😂 이번에는 정규식을 활용해 이모지를 제거하는 방식에 대해 공유하고자 합니다. 1. 개요 2. 코드 공유 1. 개요 tiktok_text = '✌️😎😎😎😎✌️#STAYC #스테이씨 #색안경 #STEREOTYPE #STEREOTYPE_challenge #아띵춤 #STAYC_tiktok #ITZY #있지 @itzyofficial' 이번 실습에서는 stayc_official 2021.09.27에 업로드된 틱톡 제목을 활용한다. 2. 코드 공유 import re # .. 2021. 10. 19.
[PYTHON] 파이썬 np.percentile 백분위수 구하기 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello 백분위수(Percentile)는 오름차순으로 정렬했을 때, 최소값 0부터 최대값 100까지 백분율로 특정 위치를 나타내는 값입니다. 예를 들어 데이터의 90%는 90번째에 위치하고, 데이터의 10%는 10번째에 위치합니다. 추가적으로, 사분위수(Quartile)는 데이터를 균등한 관찰값 수를 합계 100%를 25%, 50%, 75%, 100%로 4개의 그룹으로 나눈 값입니다. 제1 사분위수(또는 하위 사분위수) Q1은 0.25인 값으로 정의됩니다. 즉, 25번째 백분위수와 같습니다. 제3 사분위수(또는 상위 사분위수) Q3은 0.75입니다. 사분위수 범위 IQR(Int.. 2021. 10. 15.
[PYTHON] 파이썬 경고 메시지 숨기기(import warnings) 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello Jupyter notebook, colab 등을 사용하다 보면, 출력창에 변경될 사항 등을 알려주는 경고 글귀(warnings)가 출력됩니다. 딕셔너리에 존재하지 않는 키로 접근할 시 발생하는 키 오류(KeyError), 리스트에 존재하지 않는 인덱스로 접근하면 인덱스 오류(IndexError)와 다르게, 코드 결과에 큰 영향을 주지않지만, 경고 메시지 자체가 기분이 좋지 않기에, 글귀가 보이지 않도록 차단할 수 있습니다. import warnings # 경고창 숨기기 warnings.filterwarnings('ignore') # 경고창 다시 나타내기 warnings.. 2021. 10. 14.
[PYTHON] 파이썬 lxml로 스크레이핑 진행 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello ​ python을 활용하여 lxml을 사용해 HRML에서 데이터를 추출하고자 합니다. lxml에는 여러 가지 API가 있으며, 이 중에서 HTML을 파싱(Parsing)할 때는, lxml.html을 사용합니다. * 파싱(parsing) : 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것 ​ 내용 및 코드는 위키북스의 '파이썬을 이용한 웹 크롤링과 스크레이핑'을 참조해서 작성했습니다. lxml은 libxml2와 libxslt을 사용한 C확장 라이브러리입니다. 최초 실행 시에는 설치가 되어 있지 않기에, 전용 패키지를 설치합니.. 2021. 10. 10.
반응형