일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- clip
- 객체 검출
- 논문 리뷰
- object detection
- 딥러닝 목적함수
- grefcoco
- 논문 요약
- clip adapter
- Object detection article
- gres 논문
- gres
- grefcoco dataset
- 기계학습
- 엔트로피란
- polling-based object probing evaluation
- mobilenetv1
- gres: generalized referring expression segmentation
- 딥러닝 엔트로피
- 이미지 필터링
- vlm hallucination paper
- gres: generalized referring expression segmentation 논문 리뷰
- gres 논문 리뷰
- 에지 검출
- vlm
- blip-2
- 1차 미분 마스크
- 원격 학습 안끊기게
- gres: generalized referring expression segmentation 논문
- vlm 환각이란
- referring expression segmentation
- Today
- Total
My Vision, Computer Vision
[딥러닝 공부] 정보 이론과 엔트로피 본문
이 글은
『크리스토퍼 비숍, 패턴 인식과 머신 러닝, 김형진 옮김, 제이펍(2018년)』
에서 공부한 내용을 토대로 작성되었다.
정보 이론(Information Theory)
정보 이론이란 정보를 수학적으로 정의하고 측정하는 방법을 연구하는 학문이다.
머신 러닝은 데이터 정보를 다루기 때문에 정보 이론의 개념이 중요하다. (실제로 loss 함수에서 엔트로피 개념이 쓰임)
정보량(Information Content)
이산 확률 변수 x가 있다고 하자. 이 때, 이 x가 가지고 있는 정보량이라는게 있다.
정보량은 ‘놀라움의 정도’라고도 하는데, 일어날 가능성이 낮은 사건이 발생했을 때의 정보량이 더 크기(더 놀랍기) 때문이다.
즉 정보량은 x가 발생할 확률에 반비례하며 따라서 확률 분포 p(x)에 종속된다고 할 수 있다.
정보량을 표현하는 함수
정보량을 표현하는 어떤 함수 h(x)가 있다고 하자.
독립적인 두 사건 x,y가 있을 때, 이 두 사건이 동시에 발생한 경우 정보량의 합은 각각의 사건이 따로 발생했을 때의 정보량을 더한 것과 같을 것이다. 즉 h(x,y)=h(x)+h(y)이다.
마찬가지로 사건들이 독립적이기 때문에, p(x,y)=p(x)p(y)라고 할 수 있고 이 관계에서 h(x)는 p(x)의 로그에 해당함을 알 수 있다. 따라서
h(x)=−log2p(x)
로 관계를 정의할 수 있다. (p(x)는 확률 분포이기 때문에 범위가 0과 1사이)

h(x)를 양수로 취급하기 위해 -가 붙는다. 따라서 사건 발생 확률이 0에 가까울수록 무한대, 1이면 0이다. (놀라움의 정도와 같은 이치)
로그의 밑 2는 정보 이론 학계의 관습이라고 한다. 이진수를 위한 편의라고 생각된다.
정보량의 단위는 비트(bit)이다.
팔면 주사위에서의 정보량
눈금이 1부터 8까지있고, 모두 같은 확률로 나올 수 있는 팔면 주사위가 있다고 하자.
주사위를 돌렸을 때 6이 나올 경우의 정보량은 h(x)=−log218=3bits 이다.
이제 짝수 눈금이 나올 경우와 비교해보자.
짝수 눈금일 경우의 정보량은 h(x)=−log212=1bits 이다.
6이 나올 경우의 정보량이 짝수가 나올 경우의 정보량보다 더 크다.
6이 나올 경우 : 8개의 결과(1~8) 중 특정 숫자를 전달하는 것
짝수가 나올 경우 : 2개의 결과(홀, 짝) 중 특정 숫자를 전달하는 것
이기 때문에 6이 나올 경우 더 많은 정보가 필요하기 때문에 정보량이 더 큰 것이다.
엔트로피(Entropy)
정보 이론에서 엔트로피는 정보량의 기댓값이다. 즉 어떤 사건 x에 대한 확률 분포 p(x)가 가지고있는 평균 정보량을 의미한다.
따라서 평균 정보량은 h(x) 그래프의 넓이인 셈이다. 그래프의 넓이를 구하려면 함수를 적분하면 된지만 x는 이산 확률 변수이므로 엔트로피는
H[x]=−∑xp(x)log2p(x)
이렇게 표현할 수 있다.
팔면 주사위에서의 엔트로피
앞에서와 마찬가지로 모든 눈금이 나올 확률이 동일하다고 하면
엔트로피는 H[x]=−8×18log218=3bits 이다.
이번에는 조금 다른 상황에 대해 고려해보자.
8개의 눈금이 있지만 각 눈금이 나올 확률이 (12,14,18,116,164,164,164,164) 인 상황이다.
이 때 엔트로피는 H[x]=−12log212−14log214−18log218−116log2116−4×164log2164=2 이다.


즉 왼쪽 그래프의 경우(균일한 분포)가 오른쪽그래프의 경우(비균일 분포)보다 엔트로피가 더 큰것이다.
결론적으로 평균 정보량인 엔트로피는 비균일 분포일 때 보다 균일 분포일 때 더욱 크다.
엔트로피는 물리학에 기원을 두고있는 개념이다. 이후에는 통계 역학에서 무질서를 측정하는 단위로 이해되었다.
따라서 엔트로피는 불확실성의 척도로 생각할 수 있다는 것이다.
'공부' 카테고리의 다른 글
[딥러닝 공부] 노이즈 제거를 위한 이미지 필터링(평균, 미디언, 가우시안) (3) | 2025.01.02 |
---|---|
[딥러닝 공부] 노이즈 제거를 위한 이미지 필터링(평균, 미디언, 가우시안) (0) | 2024.12.30 |
[딥러닝 공부] 1차, 2차 미분 마스크, 에지 검출 (0) | 2024.12.24 |
[딥러닝 공부] 이미지 샤프닝, 블러링, 1차 미분 마스크 (1) | 2024.12.20 |
[딥러닝 공부] FFT, 퓨리에 변환이란? (1) | 2024.06.25 |