본문 바로가기
PROGRAMMING/Python

[PYTHON] 파이썬 이모지(emoji) 제거

by HYUNHP 2021. 10. 19.
반응형

안녕하세요 파이썬과 관련하여 추가적으로 필요한 정보가 있으시면,

DATA101에서 확인 가능하십니다.

감사합니다.


안녕하세요, HELLO

 

틱톡에서 컨텐츠에 관련된 데이터를 수집하던 중에

제목 및 댓글에 이모지(emoji) 처리로 어려움이 있었습니다 😂

 

이번에는 정규식을 활용해 이모지를 제거하는 방식에 대해 공유하고자 합니다.

 


1. 개요

2. 코드 공유


1. 개요

 

tiktok_text = '✌️😎😎😎😎✌️#STAYC #스테이씨 #색안경 #STEREOTYPE #STEREOTYPE_challenge #아띵춤 #STAYC_tiktok #ITZY #있지 @itzyofficial'

 

이번 실습에서는 stayc_official 2021.09.27에 업로드된 틱톡 제목을 활용한다.

 


2. 코드 공유

 

import re # 정규표현식 library
emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)
                           
tiktok_final = emoji_pattern.sub(r'', tiktok_text)

 

이렇게 코드를 작성하게 되면,

'✌️✌️#STAYC #스테이씨 #색안경 #STEREOTYPE #STEREOTYPE_challenge #아띵춤 #STAYC_tiktok #ITZY #있지 @itzyofficial'

이렇게 일부 이모지는 제거되지 않는 결과물이 나오게 된다.

 

emoji_pattern_2= re.compile("["
                       u"\U0001F600-\U0001F64F"  # emoticons
                       u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                       u"\U0001F680-\U0001F6FF"  # transport & map symbols
                       u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                       u"\U00002702-\U000027B0"
                       u"\U000024C2-\U0001F251"
                       "]+", flags=re.UNICODE)
                       
tiktok_final = emoji_pattern_2.sub(r'', tiktok_text)

 

이렇게 코드를 작성하게 되면,

'#STAYC # # #STEREOTYPE #STEREOTYPE_challenge # #STAYC_tiktok #ITZY # @itzyofficial'

이모지가 삭제되고, 한글이 사라지게 되는 문제가 있다.

 

완벽하게 이모지만 제거하는 방식에 대해서는 이후에 업데이트하려고 합니다.

 


■ 마무리

PYTHON library re를 활용해서, 이모지를 제거하는 것을 알아봤습니다.

감사합니다.

위 포스팅은 카카오 티스토리, 네이버 블로그에도 동일하게 업로드합니다.

반응형

댓글