[딥러닝] 음성 신호 처리 (Audio Signal Processing) 기본 용어 해설, 정리, 요약

728x90

안녕하세요, HELLO

오늘은 음성 신호 처리 (Audio Signal Processing)에서 기본 개념인 파형, 주파수, 진폭 등에 대해서 정리하려고 합니다.

CHAPTER 1. '파형 (Waveform)' 정리

CHAPTER 2. '주파수 (Frequency), 진폭 (Amplitude), 강도 (Intensity)' 정리

CHAPTER 3. '위상 (Phase), 음색 (Timbre)' 정리

CHAPTER 1. '파형 (Waveform)' 정리

◼︎ 파형 (Waveform)이란?

파형은 시간에 따른 신호의 진폭을 보여주는 오디오 신호의 그래픽 표현입니다. 파형은 가로축의 시간에 대한 세로축의 신호 전압 또는 압력 값을 가로축에 표시한 그림입니다.

파형은 주파수, 진폭, 위상 및 파형 모양과 같은 오디오 신호의 다양한 특성을 시각적으로 표현할 수 있습니다. 파형을 분석하면 사인파인지, 복잡한 파형인지, 노이즈 신호인지 등 소리의 특성에 대한 통찰력을 얻을 수 있습니다.

파형은 일반적으로 사운드 녹음, 믹싱, 마스터링과 같은 다양한 오디오 애플리케이션에서 사용됩니다. 예를 들어 엔지니어는 파형을 사용하여 파형의 문제가 있는 부분을 시각화하고 그에 따라 오디오 신호를 조정함으로써 클리핑, 왜곡 또는 노이즈와 같은 오디오 문제를 식별하고 수정할 수 있습니다.

파형 외에도 오디오 신호 처리에 사용되는 다른 일반적인 도구로는 시간에 따른 신호의 주파수 내용을 보여주는 스펙트로그램과 시간에 따른 진폭의 변화를 보여주는 진폭 엔벨로프가 있습니다.

□ 주기적 (Periodic) 및 비주기적 (Apreidoic) 사운드

오디오 신호 처리에서 주기적 사운드와 비주기적 사운드는 서로 다른 특성을 가진 두 가지 유형의 사운드 신호를 나타냅니다.

주기적 사운드는 시간이 지남에 따라 고정된 패턴 또는 주기로 반복되는 사운드 신호입니다. 주기적 소리의 주기 길이를 주기라고 하고 초당 주기 수를 주파수라고 합니다. 주기적 소리의 일반적인 예로는 정현파와 같이 주파수가 고정되어 있고 규칙적인 진동 패턴을 갖는 순수한 음색이 있습니다.

반면에 비주기적 소리는 시간이 지나도 고정된 패턴이나 주기로 반복되지 않는 소리 신호입니다. 비주기적 소리의 일반적인 예는 고정된 주파수나 진동 패턴이 없는 소음입니다. 비주기적 소리는 규칙적인 패턴으로 반복되지 않는 다양한 주파수와 진폭이 혼합된 음성이나 음악과 같은 복잡한 파형일 수도 있습니다.

주기적 사운드와 비주기적 사운드는 서로 다른 특성을 가지며 서로 다른 신호 처리 기술이 필요합니다. 예를 들어 주기적 소리는 신호를 구성 주파수 및 진폭으로 분해하는 푸리에 분석을 사용하여 분석할 수 있지만, 비주기적 소리는 시간 주파수 분석 또는 스펙트럼 분석과 같은 더 복잡한 분석 기법이 필요합니다.

또한 주기적인 소리는 덧셈 합성, 뺄셈 합성 또는 주파수 변조 합성과 같은 합성 기술을 사용하여 합성하거나 재생하기가 더 쉬운 반면, 비주기적인 소리는 시간에 따른 주파수와 진폭의 복잡하고 예측할 수 없는 변화를 포함하는 경우가 많기 때문에 정확하게 합성하거나 재생하기가 더 어렵습니다.

CHAPTER 2. '주파수 (Frequency), 진폭 (Amplitude), 강도 (Intensity)' 정리

◼︎ 주파수 (Frequency)란?

주파수는 주기 T의 역수이며 1초 동안 발생하는 주기적 파형의 주기 수를 나타냅니다. 수학적으로는 파형의 한 사이클이 발생하는 데 필요한 시간인 주기의 역수로 정의됩니다.

오디오 신호 처리에서 주파수의 단위는 헤르츠(Hz)이며, 이는 초당 한 사이클을 나타냅니다. 예를 들어, 주파수가 440Hz(악보 표기법에서는 A4라고도 함)인 순음은 초당 440사이클을 완료합니다.

순수한 톤 외에도 음성 및 음악과 같은 복잡한 오디오 신호에는 여러 주파수가 결합되어 전체 사운드를 생성합니다. 푸리에 분석은 오디오 신호 처리에서 복잡한 신호를 구성 요소 주파수와 진폭으로 분해하는 데 사용되는 일반적인 기술입니다.

주파수는 소리의 피치를 결정하기 때문에 오디오 신호의 중요한 특성입니다. 주파수가 높을수록 높은 피치의 소리로 인식되고, 주파수가 낮을수록 낮은 피치의 소리로 인식됩니다. 또한 주파수는 이퀄라이제이션, 필터링, 변조 등 다양한 오디오 애플리케이션에서 사운드 신호를 형성하고 조작하는 데에도 사용됩니다.

◼︎ 진폭 (Amplitude)란?

진폭은 오디오 신호의 크기 또는 강도를 나타냅니다. 진폭은 일반적으로 파형의 최댓값과 최솟값 사이의 거리로 표시되며 데시벨(dB) 또는 볼트(V)로 측정됩니다.

오디오 신호의 진폭은 소리의 크기 또는 볼륨과 직접적인 관련이 있습니다. 진폭이 클수록 소리가 커지고 진폭이 작을수록 소리가 작아집니다. 진폭은 소리의 전반적인 인지 음량과 다이내믹 레인지를 결정하기 때문에 오디오 신호의 중요한 특성입니다.

진폭은 음량 외에도 소리의 품질과 선명도에도 영향을 미칩니다. 신호의 진폭이 너무 높으면 왜곡이나 클리핑이 발생하여 사운드 품질이 저하되고 원치 않는 아티팩트가 발생할 수 있습니다. 신호의 진폭이 너무 낮으면 신호가 약해지거나 알아들을 수 없게 될 수 있습니다.

진폭은 게인 조정, 압축 및 제한과 같은 다양한 오디오 애플리케이션에서 사운드 신호의 볼륨과 다이내믹 레인지를 제어하는 데 사용됩니다. 이러한 기술은 일반적으로 음악 제작, 방송 및 사운드 강화에 사용되어 특정 애플리케이션이나 환경에 맞게 오디오 신호를 최적화합니다.

◼︎ 강도 (Intensity)란?

강도는 단위 면적당 오디오 신호의 출력 또는 에너지를 나타냅니다. 특정 영역을 통해 특정 방향으로 전달되는 음향 에너지의 양을 측정하는 척도입니다.

강도는 일반적으로 기준 강도 레벨(dB IL)을 기준으로 평방미터당 와트(W/m²) 또는 데시벨 단위로 표시됩니다. 오디오 신호 처리에 사용되는 기준 강도 레벨은 대개 청각의 임계값으로, 약 1 x 10^-12 W/m²입니다.

오디오 신호의 강도는 진폭 및 주파수와 관련이 있습니다. 진폭이 높거나 주파수가 높은 신호는 일반적으로 진폭이 낮거나 주파수가 낮은 신호보다 강도가 더 높습니다.

강도는 소리의 크기와 사람의 귀에 미치는 영향을 결정하기 때문에 오디오 신호의 중요한 특성입니다. 사람의 귀는 청각 역치부터 통증 역치까지 광범위한 강도에 민감합니다. 강도는 사운드 레벨 측정, 소음 제어 및 청력 보호와 같은 다양한 오디오 애플리케이션에도 사용됩니다.

요약하면, 강도는 단위 면적당 오디오 신호의 전력 또는 에너지의 측정값이며 진폭 및 주파수와 관련이 있습니다. 이는 소리의 크기와 사람의 귀에 미치는 영향을 결정하기 때문에 오디오 신호의 중요한 특성입니다.

CHAPTER 3. '위상 (Phase), 음색 (Timbre)' 정리

◼︎ 위상 (Phase)이란?

위상은 동일한 주파수를 가진 두 개 이상의 신호 간의 관계를 나타냅니다. 보다 구체적으로, 특정 시점의 기준 파형에 대한 파형의 위치를 설명합니다.

위상은 일반적으로 도 또는 라디안으로 표시되며 두 신호 간의 각도 차이를 나타냅니다. 두 신호가 위상이 같으면 위상차가 0도 또는 0 라디안이며 파형이 완벽하게 정렬됩니다. 두 신호가 위상이 맞지 않으면 위상차가 180도 또는 파이 라디안이며 파형의 극성이 반대입니다.

오디오 신호 처리에서 위상은 함께 결합되거나 혼합되는 신호의 중요한 특성입니다. 동일한 주파수를 가진 두 신호가 결합되면 진폭과 위상이 상호 작용하여 진폭과 위상이 다른 새로운 파형이 만들어집니다. 두 신호 간의 위상 관계에 따라 결과 파형이 건설적인지(동위상) 또는 파괴적인지(위상 불일치)가 결정됩니다.

위상은 스테레오 이미징, 공간화 및 위상 제거와 같은 다양한 오디오 애플리케이션에서 사용됩니다. 스테레오 이미징에서 위상은 스테레오 필드의 여러 위치로 신호를 패닝 하여 음장의 폭과 깊이감을 만드는 데 사용됩니다. 공간화에서 위상은 신호에 지연 및 위상 이동을 적용하여 3차원 공간에서 음원의 효과를 시뮬레이션하는 데 사용됩니다. 위상 제거에서 위상은 위상이 맞지 않는 신호를 결합하여 원치 않는 소리나 주파수를 상쇄하는 데 사용됩니다.

◼︎ 음색 (Timbre)이란?

음색은 같은 음정과 음량을 가진 다른 소리와 구별되는 소리의 품질 또는 특성을 말합니다. 소리의 "색" 또는 "음색"으로 설명되기도 합니다.

음색은 고조파 콘텐츠, 엔벨로프, 지속 시간, 공간적 특성 등 사운드의 다양한 음향 특성의 복잡한 상호작용에 의해 결정됩니다. 예를 들어 기타나 바이올린과 같은 악기의 음색은 시간이 지남에 따라 다양한 고조파 성분이 결합하고 쇠퇴하는 방식과 악기 자체의 고유한 공명 특성에 의해 결정됩니다.

음색은 음악과 말에서 다양한 감정과 표현력을 전달할 수 있기 때문에 오디오 신호의 중요한 특성입니다. 예를 들어 가수의 목소리는 노래의 감정적 내용을 전달할 수 있고, 악기의 음색은 음악의 분위기와 성격에 영향을 줄 수 있습니다.

음색은 사운드 합성, 사운드 디자인, 오디오 처리 등 다양한 오디오 애플리케이션에서도 사용됩니다. 신디사이저와 샘플러는 실제 사운드의 음색을 모방하도록 설계되는 경우가 많으며, 사운드 디자이너와 오디오 엔지니어는 이퀄라이제이션, 필터링, 변조와 같은 다양한 처리 기술을 사용하여 사운드 신호의 음색을 형성하고 조작합니다.

■ 마무리

'음성 신호 처리 (Audio Signal Processing) 기본 용어'에 대해서 정리해 봤습니다.

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요와 댓글 부탁드립니다 :)

감사합니다.

저작자표시 비영리 동일조건

'DATA_SCIENCE > Deep Learning' 카테고리의 다른 글

[딥러닝] 규제 (Regularization) 해설, 정리, 요약 (0)	2023.11.05
[딥러닝] 차원의 저주 (Curse of dimensionality) 해설, 정리, 요약 (4)	2023.10.31
[딥러닝] 데이터 거버넌스 (Data Governance) 해설, 정리, 요약 (0)	2023.03.27
[딥러닝] 소프트맥스 함수 (Softmax Activation Function) 해설, 정리, 요약 (0)	2023.03.19
[딥러닝] End to End model (E2E model) 해설, 정리, 요약 (0)	2023.02.24