본문 바로가기
STUDY/Linear Algebra

[MIT 18.06] Lecture 2. Elimination with Matrices

by HYUNHP 2023. 7. 29.
728x90
반응형

안녕하세요, HELLO

 

오늘은 길버트 스트랭 (Gilbert Strang) 교수님의 선형대수학 강의인 "MIT 18.06 Linear Algebra, Spring 2005"에 대해서 정리하려고 합니다. 선형대수학 강의에 대한 정리와 더불어, 딥러닝을 위한 선형대수학 관점에서도 접근하여 강의를 이해하고 분석하려고 합니다.

 

"MIT 18.06 Linear Algebra, Spring 2005" 2주차 "Elimination with Matrices"의 강의 내용입니다.


CHAPTER 1. '삼각행렬 (Triangular Matrix) 계산'

 

CHAPTER 2. '딥러닝에서 삼각 행렬(triangular matrix)의 사용 방안'


CHAPTER 1. '삼각행렬 (Triangular Matrix) 계산'

 

□ 삼각행렬 (Triangular Matrix)

 

삼각행렬 (Triangular Matrix)은 주 대각선 성분 위쪽 또는 아래쪽에 있는 모든 성분이 0인 행렬입니다. 예를 들어 다음과 같은 행렬을 삼각행렬이라 합니다.

 

주대각선 성분 위쪽의 모든 성분이 0인 행렬을 하삼각행렬 (lower triangular matrix)입니다..

주대각선 성분 아래쪽의 모든 성분이 0인 행렬을 상삼각행렬 (upper triangular matrix)입니다.


행렬의 주대각선 (Main diagonal, 행렬의 숫자가 같은 대각선)을 기준으로 1st pivot부터 last pivot의 숫자만을 남겨두면서 주대각선 아래 성분을 0으로 계산해 갑니다. 

 

행렬 A에서 위삼각행렬 (Upper Triangle Matrix, U)로 선형 변환을 이룰 수 있습니다.


□ row * matrix = row

행(row)과 행렬(matrix)의 연산은 결과적으로 행에 대한 연산을 나타냅니다.


□ column * matrix = column

열(column)과 행렬(matrix)의 연산은 결과적으로 열에 대한 연산을 나타냅니다.

 

 

CHAPTER 2. '딥러닝에서 삼각 행렬(triangular matrix)의 사용 방안'

 

딥러닝에서는 특정 가중치 행렬에 상삼각 행렬(upper triangular matrix) 구조가 나타날 수 있습니다. 이는 가중치 초기화 기법 (Weight Initialization)과 정규화 기법 (Regularization Techinique)에서 발생할 수 있습니다. 좀 더 자세한 설명을 드리도록 하겠습니다.

1. 가중치 초기화 (Weight Initialization)
   - 딥러닝에서 가중치 초기화는 신경망의 훈련을 시작하기 전에 가중치에 초기 값을 설정하는 중요한 단계입니다. 다양한 가중치 초기화 방법이 있으며, 이 중 일부는 상삼각 가중치 행렬을 생성할 수 있습니다.
   - 예를 들어, "Xavier" (Glorot) 초기화는 일반적인 가중치 초기화 기법 중 하나입니다. 이 방법에서는 가중치를 특정 분포로부터 무작위로 초기화하는데, 이 분포는 해당 층의 입력과 출력 유닛 수에 따라 달라집니다. Xavier 초기화를 특정 층에 사용하면 상삼각 가중치 행렬이 만들어질 수 있습니다.
   - 신경망에서 각 층의 가중치 행렬은 인접한 층 사이의 뉴런들의 연결을 나타냅니다. 초기화 방법과 층의 구조에 따라 어떤 가중치 행렬은 상삼각 구조를 가지게 됩니다.

2. 정규화 기법 (Regularization Techinique)
   - 정규화는 딥러닝 모델에서 오버피팅을 방지하는 기법입니다. 오버피팅은 모델이 훈련 데이터에 너무 맞추어져서 보지 못한 데이터에서 성능이 저하되는 현상을 말합니다. 정규화 기법은 훈련 중에 모델에 특정 제약 조건을 추가하여 과도한 복잡성을 막습니다.
   - 일부 정규화 기법은 가중치 행렬에 상삼각 구조를 가하게 할 수 있습니다. 예를 들어, "Sparse Group Lasso" 정규화는 가중치의 희소성과 그룹화를 촉진합니다. 선형 회귀나 신경망에서는 이를 위해 가중치에 L1 정규화를 적용하고 일부 가중치를 0으로 설정합니다. 이로 인해 가중치 행렬에 상삼각 구조가 형성되며, 일부 가중치가 0이 되도록 제약이 가해집니다.
   - 또 다른 정규화 기법인 "Weight Normalization"은 층의 가중치의 크기를 특정 범위로 제한합니다. 이 정규화 기법은 가중치 행렬에 제약 조건을 부과하며, 구체적인 설정에 따라 상삼각 구조를 만들 수 있습니다.

상기 내용은 신경망 아키텍처, 가중치 초기화 방법, 그리고 정규화 기법에 따라 가중치 행렬에 상삼각 구조가 나타날 수 있음을 보여줍니다. 이러한 기법들은 가중치 행렬의 제약과 특정 패턴을 유도함으로써 딥 러닝 모델의 효율성과 성능 향상에 기여합니다.

 

반응형

 

■ REFERENCE

 

YOUTUBE LECTURE : LINK


■ 마무리

 

"MIT 18.06 Linear Algebra, Spring 2005"의 2주차 "Elimination with Matrices"에 대해서 정리해 봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요와 댓글 부탁드립니다 :)

 

감사합니다.

반응형

댓글