안녕하세요, HELLO
이미지 분야 (computer vision)로 도메인 지식을 넓히기 위해, object detection, classification, segmentation, ocr, generative AI 등에 대해서 스터디를 진행하며, 논문을 리뷰하고 있습니다.
이번에 살펴본 논문은 OCR 분야에 있어, 수직, 곡선, 다양한 언어 등에서 높은 인식율을 보인, 네이버 Clova의 OCR 딥러닝 모델인 Character Region Awareness for Text Detection (CRAFT)입니다.
CRAFT는 단어 (word) 단위의 문자 인식에서, 개별 글자 (character) 단위로 pseudo-Ground Truth를 만들어서 문자 인식을 진행하여, 띄어쓰기가 없는 일본어, 중국어 등의 언어에서 높은 성과를 달성했습니다. 논문의 구조는 아래와 같이 정리할 수 있습니다.
- Backbone: FCN on VGG 16 with batch normalization
- Decoding: Skip connections, similar to U-Net
- Output: Two channels as score maps, Region score, and Affinity score
"CRAFT"와 관련하여, 자세히 정리된 논문 및 리뷰가 많기에, 논문을 공부하면서 궁금했던 내용을 중심으로 정리했습니다. 그리고 논문 원본과 리뷰와 정리한 질의응답은 각각 PDF로 하단에 업로드했습니다.
Q1. OCR이란 무엇인가요?
A1.
- OCR은 광학 문자 인식의 약자입니다. 스캔한 문서, 사진, 스크린샷 등의 이미지에서 텍스트 정보를 인식하고 추출하는 데 사용되는 컴퓨터 비전 기술입니다.
- OCR은 이미지에 있는 문자의 패턴과 모양을 분석한 다음 알고리즘을 사용하여 해당 패턴을 기계가 읽을 수 있는 텍스트로 변환하는 방식으로 작동합니다. OCR 프로세스에는 일반적으로 이미지 전처리, 분할, 특징 추출, 분류 및 후처리와 같은 여러 단계가 포함됩니다.
Q2. 원본 데이터는 단어 (word)로 annotation이 되어 있는데, 글자 (character) 단위로 annotation을 할 수 있나요?
A2.
- 글자(character) 단위의 bounding box를 사용하여 region socre와 affinity score에 대한 기준점 레이블을 생성합니다.
- Region socre는 주어진 픽셀이 문자의 중심일 확률을 나타냅니다.
- Affinity score는 인접한 문자 사이의 공간의 중심 확률을 나타냅니다.
- Affinity box는 인접한 문자 상자를 사용하여 정의되며, 각 문자 상자의 반대쪽 모서리를 연결하는 대각선을 그려서 두 개의 삼각형을 생성할 수 있으며, 이를 위쪽 및 아래쪽 문자 삼각형이라고 합니다.
- 그런 다음 인접한 각 문자 상자 쌍에 대해 위쪽 및 아래쪽 삼각형의 중심을 상자의 모서리로 설정하여 affinity box를 생성합니다.
Q3. 글자 (character) 단위의 ground truth는 어떻게 생성할 수 있나요?
A3.
- Gaussian heatmap (가우시안 히트맵)으로 캐릭터 중심 확률을 인코딩합니다.
- 히트맵은 경계가 엄격하지 않은 지상 실측 영역을 다룰 때 유연성이 높아 포즈 추정 작업과 같은 다른 애플리케이션에서 사용되었습니다.
- 히트맵 표현을 사용하여 Region socre와 Affinity score를 모두 학습합니다.
- 바운딩 박스 내의 각 픽셀에 대해 가우스 분포 값을 직접 계산하는 것은 시간이 많이 소요됩니다.
변환된 가우스 분포를 만들기 위해 3단계의 과정을 거쳐야 합니다.
- 2nd dimensional isotropic gaussian map (2차원 등방성 가우시안 맵)을 준비합니다.
- 가우시안 맵 영역과 각 캐릭터 박스 사이의 원근 변환을 계산합니다;
- 가우시안 맵을 박스 영역으로 warp 합니다.
Q4. Isotropic Gaussian Map은 무엇인가요?
A4.
- 수학과 물리학에서 등방성 (Isotropic)은 회전이나 방향에 따라 변하지 않는 성질을 말합니다.
- 따라서 등방성 가우시안 맵 (Isotropic Gaussian Map)은 모든 방향에서 표준 편차 또는 확산이 동일하고 중심을 중심으로 회전 대칭을 이루는 가우시안 맵입니다. 즉, 등방성 가우시안 맵은 평균을 중심으로 모든 방향에서 동일한 확률 밀도를 갖습니다.
- 등방성 가우시안 맵은 회전 대칭이 바람직한 이미지 처리 및 컴퓨터 비전 애플리케이션에서 자주 사용됩니다. 예를 들어 가장자리 감지 또는 모서리 감지에서는 필터 또는 특징 감지기의 응답이 이미지의 방향에 변하지 않아야 합니다. 등방성 가우시안 필터를 사용하면 이미지의 방향에 관계없이 필터의 응답이 동일합니다.
- 이미지 방향에 대한 불변성이란 특정 이미지 처리 알고리즘이나 특징 검출기가 이미지의 방향에 관계없이 동일한 결과를 생성한다는 의미입니다. 즉, 이미지를 회전하면 알고리즘의 출력은 이미지를 회전하지 않은 경우와 동일해야 합니다.
- 예를 들어 이미지에서 가장자리를 감지하는 작업을 생각해 보겠습니다. 가장자리는 인접한 픽셀 사이의 강도가 급격하게 전환되는 부분입니다. 이미지에서 가장자리의 위치를 찾기 위해 소벨 연산자나 캐니 가장자리 검출기와 같은 다양한 가장자리 감지 알고리즘을 사용할 수 있습니다. 그러나 이러한 알고리즘의 응답은 이미지의 방향에 따라 달라질 수 있습니다. 이미지를 회전하면 가장자리의 위치가 변경되고 알고리즘의 응답도 변경될 수 있습니다.
Q5. Weakly-supervised learning과 Strong-supervised learning의 차이점은 무엇인가요?
A5.
- OCR(광학 문자 인식)의 맥락에서 약 지도 학습과 강 지도 학습은 OCR 모델을 훈련하는 데 사용되는 서로 다른 유형의 훈련 데이터를 의미합니다.
- 요약하자면, 약한 지도 학습은 레이블이 덜 지정된 데이터를 사용하여 OCR 모델을 훈련할 수 있으며 비용 효율적인 방법이 될 수 있습니다. 하지만 완전히 주석이 달린 훈련 데이터에 의존하는 강력한 지도 학습만큼 모델의 정확도가 높지 않을 수 있다는 단점이 있습니다.
Q6. Table 3에서 H-mean comparison의 H-mean은 어떤 평가 기준인가요?
A6.
- H-평균 비교는 광학 문자 인식(OCR)에서 OCR 시스템의 정확도를 평가하는 데 사용되는 방법입니다. OCR에서 시스템은 이미지 또는 스캔한 문서에서 텍스트 문자를 인식하려고 시도합니다.
- H-평균 비교에는 인식된 문자와 문서에 존재하는 실제 문자를 비교하는 작업이 포함됩니다. H-평균값은 OCR 시스템의 정밀도와 리콜을 결합한 지표입니다. 정밀도와 리콜 값의 조화 평균으로 계산됩니다.
- F1 점수와 동일하며 둘 다 정밀도와 재인식의 조화 평균으로 계산됩니다.
- 정확도는 인식된 총 문자 수에 대한 올바르게 인식된 문자 수의 비율입니다.
- 재인식은 총 인식 문자 수에 대한 올바르게 인식된 문자 수의 비율입니다.
- H-평균값은 정밀도와 재인식을 모두 고려하기 때문에 OCR 시스템의 성능을 측정하는 좋은 척도입니다.
- H-평균값이 높을수록 OCR 시스템이 정확하고 높은 비율의 문자를 올바르게 감지할 수 있음을 나타냅니다.
Recently, study object detection, classification, segmentation, OCR, etc of computer vision, and review related papers.
Reviewed the paper, "Character Region Awareness for Text Detection" also known as "CRAFT", a large-scale, high-quality dataset of annotated object instances for fine-grained image classification and segmentation. Acheived high accuracy and h-mean value in the OCR recognition compared with at the moment state of the art papers.
Released by Naver Clova AI Research in 2020, it contains over 300,000 images of various paper crafts, such as origami, quilling, and kirigami. The images are annotated with bounding boxes and segmentation masks for each object instance, making them suitable for tasks such as object detection, segmentation, and fine-grained classification.
Craft paper has significant implications for computer vision research, as it provides a benchmark for evaluating algorithms in fine-grained image understanding, which is a challenging and important problem. It has already been used in several studies and is expected to contribute to the development of more accurate and robust algorithms for object recognition and segmentation in complex and cluttered environments.
- Backbone: FCN on VGG 16 with batch normalization
- Decoding: Skip connections, similar to U-Net
- Output: Two channels as score maps, Region score, and Affinity score
■ ORIGINAL PAPER
■ PAPER REVIEW
■ 마무리
'Character Region Awareness for Text Detection (CRAFT)'에 대해서 알아봤습니다.
좋아요와 댓글 부탁드리며,
오늘 하루도 즐거운 날 되시길 기도하겠습니다 :)
감사합니다.
'DATA_SCIENCE > Computer Vision' 카테고리의 다른 글
[CV] 세포 분할 (Cellular segmentation) 해설, 정리, 요약 (0) | 2023.03.04 |
---|---|
[CV] 3차원 색상 표현 방법 HSV, HSL, HSB 해설, 정리, 요약 (0) | 2023.03.01 |
[CV] 포인트 클라우드 처리(Point Cloud Processing) 해설, 정리, 요약 (0) | 2023.02.14 |
[REVIEW] U-Net: Convolutional Networks for Biomedical Image Segmentation 리뷰, review (0) | 2023.02.12 |
[REVIEW] Fully Convolutional Networks for Semantic Segmentation (FCN) 리뷰, review (0) | 2023.01.08 |
댓글