728x90
반응형
안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면,
DATA101에서 확인 가능하십니다.
감사합니다.
안녕하세요, HELLO
틱톡에서 컨텐츠에 관련된 데이터를 수집하던 중에
제목 및 댓글에 이모지(emoji) 처리로 어려움이 있었습니다 😂
이번에는 정규식을 활용해 이모지를 제거하는 방식에 대해 공유하고자 합니다.
1. 개요
2. 코드 공유
1. 개요
tiktok_text = '✌️😎😎😎😎✌️#STAYC #스테이씨 #색안경 #STEREOTYPE #STEREOTYPE_challenge #아띵춤 #STAYC_tiktok #ITZY #있지 @itzyofficial'
이번 실습에서는 stayc_official 2021.09.27에 업로드된 틱톡 제목을 활용한다.
2. 코드 공유
import re # 정규표현식 library
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
"]+", flags=re.UNICODE)
tiktok_final = emoji_pattern.sub(r'', tiktok_text)
이렇게 코드를 작성하게 되면,
'✌️✌️#STAYC #스테이씨 #색안경 #STEREOTYPE #STEREOTYPE_challenge #아띵춤 #STAYC_tiktok #ITZY #있지 @itzyofficial'
이렇게 일부 이모지는 제거되지 않는 결과물이 나오게 된다.
emoji_pattern_2= re.compile("["
u"\U0001F600-\U0001F64F" # emoticons
u"\U0001F300-\U0001F5FF" # symbols & pictographs
u"\U0001F680-\U0001F6FF" # transport & map symbols
u"\U0001F1E0-\U0001F1FF" # flags (iOS)
u"\U00002702-\U000027B0"
u"\U000024C2-\U0001F251"
"]+", flags=re.UNICODE)
tiktok_final = emoji_pattern_2.sub(r'', tiktok_text)
이렇게 코드를 작성하게 되면,
'#STAYC # # #STEREOTYPE #STEREOTYPE_challenge # #STAYC_tiktok #ITZY # @itzyofficial'
이모지가 삭제되고, 한글이 사라지게 되는 문제가 있다.
완벽하게 이모지만 제거하는 방식에 대해서는 이후에 업데이트하려고 합니다.
■ 마무리
PYTHON library re를 활용해서, 이모지를 제거하는 것을 알아봤습니다.
감사합니다.
위 포스팅은 카카오 티스토리, 네이버 블로그에도 동일하게 업로드합니다.
반응형
'PROGRAMMING > Python' 카테고리의 다른 글
[PYTHON] 파이썬 웹 크롤링 (무한 스크롤 크롤링/SCROLL_DOWN) (0) | 2021.10.24 |
---|---|
[PYTHON] 파이썬 Selenium 웹페이지 스크롤하기 (0) | 2021.10.20 |
[PYTHON] 파이썬 np.percentile 백분위수 구하기 (0) | 2021.10.15 |
[PYTHON] 파이썬 경고 메시지 숨기기(import warnings) (0) | 2021.10.14 |
[PYTHON] 파이썬 lxml로 스크레이핑 진행 (0) | 2021.10.10 |
댓글