본문 바로가기
반응형

파이썬7

[PYTHON] 폴더/파일 하위 디렉토리 복사 및 동기화 (os, shutil, sync) 안녕하세요, HELLO 이번에는 파이썬을 활용해서 폴더/파일을 복사하는 방법을 공유하고자 합니다. os 모듈을 활용해서 폴더에 접근하여, shutil를 이용해 폴더/파일을 복사합니다. 그리고 원본 폴더와 복사본 폴더를 비교하여, 누락된 폴더와 파일을 확인하고 최종적으로 폴더 동기화(sync)를 진행합니다. 아래에서 각 절차별로 소스 코드와 함께 설명해보겠습니다. STEP 1. Import library STEP 2. 폴더/파일 저장 STEP 3. 폴더/파일 개수 확인 STEP 4. 누락된 폴더/파일 업데이트 STEP 5. 소스코드 STEP 1. Import library 본격적인 실습에 앞서 필요한 라이브러리를 불러오겠습니다. dirsync의 경우는 설치가 안 되어있는 경우, pip install dir.. 2022. 1. 13.
[PYTHON] 파이썬 정규식을 활용한 괄호와 괄호 안 문자열 삭제 또는 추출 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO 이번에 특허청 특허 정보를 확인하게 되면서, 국내 출원/등록된 특허 데이터가 저장된 형태를 보게 되었습니다. 특허 정보는 아래와 같이, 특허 상태, 특허명(영문 포함), 특허 정보 등으로 구성되며, 이 중에서 특허명은 괄호()로 국문과 영문이 구분되어 있습니다. 국문 특허명과 영문 특허명을 구분해서 저장하며, 활용한 코드를 아래와 같이 공유합니다. 이번에는 PYTHON 정규식과 library re를 활용해서, STEP 1. 괄호와 괄호 안 문자열 삭제 STEP 2. 괄호와 괄호 안 문자열 추출 이 두가지에 대해서 살펴보고자 합니다. STEP 1. 괄호와 괄호 안 문자열.. 2021. 10. 26.
[PYTHON] 파이썬 웹 크롤링 (무한 스크롤 크롤링/SCROLL_DOWN) 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, HELLO ​ 이번에는 PYTHON selenium을 활용해서 동적 페이지를 크롤링할 때, 웹 크롤링을 진행하게 되면 스크롤 다운(scroll down)하여, 웹페이지를 내려가면서 데이터를 수집하는 스크롤 다운 방법 중 마지막 항목까지 자동으로 내려가는 무한 스크롤 크롤링을 정리했습니다. ​ 이번 코드는 이전에 공유한 횟수를 정하고 내려가는 방식도 향후에 참고하면 좋습니다. 2021. 10. 24.
[PYTHON] 파이썬 lxml로 스크레이핑 진행 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello ​ python을 활용하여 lxml을 사용해 HRML에서 데이터를 추출하고자 합니다. lxml에는 여러 가지 API가 있으며, 이 중에서 HTML을 파싱(Parsing)할 때는, lxml.html을 사용합니다. * 파싱(parsing) : 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것 ​ 내용 및 코드는 위키북스의 '파이썬을 이용한 웹 크롤링과 스크레이핑'을 참조해서 작성했습니다. lxml은 libxml2와 libxslt을 사용한 C확장 라이브러리입니다. 최초 실행 시에는 설치가 되어 있지 않기에, 전용 패키지를 설치합니.. 2021. 10. 10.
[PYTHON] 파이썬 urllib/requests 웹페이지 추출 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello ​ python을 통해 웹페이지를 추출할 때 사용되는 1. urllib.request 모듈 2. Requests 두가지 방법에 대해서 정리하고자 합니다. ​ 내용 및 코드는 위키북스의 '파이썬을 이용한 웹 크롤링과 스크레이핑'을 참조해서 작성했습니다. 1. urllib.request 모듈 ​ urllib.request에 포함돼 있는 urlopen() 함수에 URL을 지정하면 웹 페이지를 추출할 수 있습니다. # 라이브러리 호출 from urllib.request import urlopen # urlopen() 함수는 HTTPResponse 자료형의 객체를 반환 # 이 .. 2021. 10. 9.
[PYTHON] 파이썬 유튜브_크롤링 (COLDPLAY X BTS) 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello ​ 이번에는 유튜브 크롤링을 진행해보려고 합니다. ​ 신사업 구축, 경쟁사 분석, 시장 동향 등 다양한 목적으로 유튜브 데이터를 수집하여, 활용할 수 있습니다. ​ - 댓글 내 이메일 주소 등을 활용한, 서비스 이용자 DB 확보 - 댓글 내 영상 시간을 활용한 구독자 하이라이트 검토 - 댓글 반응을 통한 영상 우호도 확인 - 댓글 텍스트 데이터를 활용한 머신러닝/딥러닝 학습 목적 ​ 데이터 수집에 활용할 영상은 2021년 9월 30일에 등록된, Coldplay X BTS - My Universe입니다. kmong.com/gig/341599 별도의 유튜브 크롤링 데이터가.. 2021. 10. 9.
[PYTHON] 파이썬 크롤링 진행_미쉐린 레스토랑 안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면, DATA101에서 확인 가능하십니다. 감사합니다. 안녕하세요, Hello, 데이터 수집 과정에서 미쉐린 레스토랑에 등록된 레스토랑 정보를 가져오게 되었다. 크롤링 진행하기 전, 레스토랑 페이지의 구성을 살펴보면, 1. 카드 형식의 레스토랑 리스트 2. 다음 페이지로 넘어가는 블록 3. 레스토랑 리스트 클릭 시, 해당 레스토랑 페이지로 이동 으로 구성되어 있다. 동적형 페이지를 크롤링하는데, python selenium webdriver를 사용하기도 하지만, 페이지 이동 > 페이지 정보 추출 > 다음 페이지 이동으로 이어지는 일련의 과정에서 기대한 속도가 나오지 않아서, 3. 레스토랑 리스트 클릭 시, 해당 레스토랑 페이지로 이동으로 하는 페.. 2021. 9. 25.
반응형