일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- gres: generalized referring expression segmentation
- 딥러닝 목적함수
- polling-based object probing evaluation
- grefcoco dataset
- gres
- referring expression segmentation
- mobilenetv1
- blip-2
- clip adapter
- 논문 요약
- 에지 검출
- 논문 리뷰
- Object detection article
- 원격 학습 안끊기게
- object detection
- 엔트로피란
- 이미지 필터링
- vlm 환각이란
- gres: generalized referring expression segmentation 논문 리뷰
- 기계학습
- 딥러닝 엔트로피
- clip
- 1차 미분 마스크
- vlm hallucination paper
- 객체 검출
- grefcoco
- gres 논문 리뷰
- vlm
- gres 논문
- gres: generalized referring expression segmentation 논문
- Today
- Total
My Vision, Computer Vision
[딥러닝 공부] 1차, 2차 미분 마스크, 에지 검출 본문
이 글은
『정성환, 배종욱, OpenCV-Python으로 배우는 영상 처리 및 응용, 생능출판2020년)』
에서 공부한 내용을 토대로 작성되었다.
https://mvcv.tistory.com/37이 글에서 이어집니다.
프리윗(Prewitt) 마스크
프리윗 마스크는 로버츠 마스크의 단점을 보완하기 위해 고안되었다.
차분을 1회 계산하는 로버츠 마스크와 달리 프리윗 마스크는 차분이 3번 계산되기 때문에 에지의 강도가 강하며, 수직과 수평 에지를 동등하게 찾는 데 효과적이다.
-1 | 0 | 1 |
-1 | 0 | 1 |
-1 | 0 | 1 |
-1 | -1 | -1 |
0 | 0 | 1 |
1 | 1 | 1 |

dst1과 dst2에서 수직, 수평 에지가 잘 검출된 것을 확인할 수 있고 두 결과를 합친 최종 출력 Prewitt edge 또한 수직과 수평 에지 모두 잘 검출된 것을 확인할 수 있다.
소벨(Soble) 마스크
소벨 마스크는 에지 추출을 위한 가장 대표적인 1차 미분 연산자이다.
-1 | 0 | 1 |
-2 | 0 | 2 |
-1 | 0 | 1 |
-1 | -2 | -1 |
0 | 0 | 0 |
1 | 2 | 1 |
소벨 마스크는 프리윗 마스크와 유사하지만 중심 계수에 대한 차분을 2배로 계산한다. 중심 계수에 대한 차분 비중을 높였기 때문에 대각선 방향의 에지도 잘 검출한다.

중심 계수에 대한 차분 비중을 높였는데 대각선 방향의 에지도 잘 검출하는 이유는 마스크의 -2 값에 대해 위, 아래 대각선 방향의 값은 1이므로
f(x+1,y−1)−2f(x−1,y),f(x+1,y+1)−2f(x−1,y), 가 된다. 따라서 대각 방향에 해당하는 차분의 크기가 커지기 때문이라고 할 수 있다.
2차 미분 마스크(라플라시안 에지 검출)
1차 미분 연산자는 밝기가 점진적으로 변화하는 부분까지도 검출하여 많은 에지가 나타날 수 있다.
이를 보완하는 방법으로 한 번 더 미분을 수행하는 2차 미분 연산자가 있다. 1차 미분은 화소 사이의 변화량이고 2차 미분은 변화량의 크기이다.
즉 변화량 자체를 검출하는 1차 미분 마스크보다 변화량의 크기를 검출하는 2차 미분 마스크가 더 둔감하다.
다시 말해 1차 미분 마스크에는 밝기가 급격하게 바뀌는 부분과 밝기가 점진적으로 증가하거나 감소하는 부분이 포함되어 있는 반면 2차 미분 마스크는 점진적으로 변화하는 부분은 검출하지 않는다.
밝기가 급격하게 바뀌는, 변화량의 크기가 큰 부분만 검출한다.
f″
위 수식은 이계도함수를 단일 극한으로 썼을 때를 나타내고, 이계대칭도함수라고 불린다. 위 수식을 이용해 1차 미분 마스크를 한번 더 미분하면
\frac{\partial^2 f}{\partial x^2} = \frac{\partial f(x+1,y)}{\partial x} - \frac{\partial f(x,y)}{\partial x} \\ = [f(x+1,y)-f(x,y)] - [f(x,y) - f(x-1,y)] \\ = f(x+1,y) -2f(x,y) +f(x-1,y)
\frac{\partial^2 f}{\partial y^2} = \frac{\partial f(x,y+1)}{\partial y} - \frac{\partial f(x,y)}{\partial y} \\ = [f(x,y+1)-f(x,y)] - [f(x,y) - f(x,y-1)] \\ = f(x,y+1) -2f(x,y) +f(x,y-1)
최종적으로 두 항을 더하면 다음과 같은 라플라시안 마스크 공식이 완성된다.
\triangledown^2f(x,y) = f(x-1,y)+f(x+1,y)+f(x,y-1)+f(x,y+1)-4f(x,y)
이 라플라시안 마스크 공식을 3*3 마스크에 적용하면 중심 계수를 4배로 하고 상하좌우 화소의 계수를 1로 하면서 반대 부호를 갖게 한다.
0 | -1 | 0 |
-1 | 4 | -1 |
0 | -1 | 0 |
0 | 1 | 0 |
1 | -4 | 1 |
0 | 1 | 0 |
-1 | -1 | -1 |
-1 | 8 | -1 |
-1 | -1 | -1 |
1 | 1 | 1 |
1 | -8 | 1 |
1 | 1 | 1 |

8방향 마스크를 적용했을 때 4방향 마스크보다 에지 검출이 잘 수행되는 것을 확인할 수 있다.
LoG와 DoG(Laplacian of Gaussian, Difference of Gaussian)
라플라시안은 잡음에 민감한 단점이 있기때문에, 잡음을 먼저 제거하고 라플라시안을 적용하여 강건한 에지 검출 마스크를 만들 수 있다.
잡음 제거 방법으로는 미디언, 최대, 최소값 필터링 등이 있지만 모두 비선형 공간 필터링이기 때문에 선형 공간 필터링인 가우시안 스무딩 마스크를 선택한다.
가우시안 스무딩 마스크와 라플라시안 모두 선형 필터링이기 때문에 하나로 합쳐서 단일 마스크로 계산할 수 있다. 즉 2차원 가우시안 함수를 두 번 미분한 것과 같다.
G(x,y)=\frac{1}{2\pi\sigma^2}e^-\frac{x^2+y^2}{2\sigma^2}\\ \frac{\partial^2 G(x,y)}{\partial x^2}=\frac{1}{\pi\sigma^4}[-\frac{1}{2} -\frac{x^2}{\sigma^4}]e^-\frac{x^2+y^2}{2\sigma^2} \\ \frac{\partial^2 G(x,y)}{\partial y^2}=\frac{1}{\pi\sigma^4}[-\frac{1}{2} -\frac{y^2}{\sigma^4}]e^-\frac{x^2+y^2}{2\sigma^2} \\ LoG(x,y)=\frac{1}{\pi\sigma^4}[1-\frac{x^2+y^2}{2\sigma^2}]e^-\frac{x^2+y^2}{2\sigma^2}
LoG는 복잡한 공식에 의해 마스크를 생성해야 하기에 수행시간이 오래 걸린다.
이런 단점을 보완하면서 LoG와 유사한 기능을 하는 단순한 방법이 DoG이다. DoG는 단순히 가우시안의 차를 이용해서 마스크를 구성한다.
DoG(x,y)=G_1(x,y)-G_2(x,y) \\ (\frac{1}{2\pi\sigma_1^2}e^-\frac{x^2+y^2}{2\sigma_1^2}) - (\frac{1}{2\pi\sigma_2^2}e^-\frac{x^2+y^2}{2\sigma_2^2})

케니 에지 검출
대부분의 에지 검출 방법은 잡음을 에지로 인식하는 문제에 노출돼있다.
영상에서 잡음은 다른 부분과 경계를 이루는 경우가 많기 때문이다.
케니 에지 검출은 비최대치 억제와 이력 임계 처리 방법을 통해 검출될 에지를 선별한다. 케니 에지 검출은 다음과 같은 순서의 알고리즘으로 구성되어있다.
1. 블러링을 통한 노이즈 제거 (가우시안 블러링)
2. 화소 기울기의 강도와 방향 검출 (소벨 마스크)
3. 비최대치 억제(non-maximum suppression)
4. 이력 임계값으로 에지 결정
5*5 크기의 마스크를 가진 가우시안 블러링으로 불필요한 잡음을 어느정도 제거한 후 소벨 마스크로 회선을 적용한다.
이 단계에서의 출력인 (G_x, G_y) 를 이용해서 화소 기울기의 크기와 방향을 계산한다.
방향은 0, 45, 90, 135도로 근사한다. 이 때 에지와 기울기의 방향은 수직을 이룬다.
에지를 기준으로 양 옆 기울기 변화가 크기 때문이다.
0 | 1 | 2 |
3 | 4 | 5 |
6 | 7 | 8 |
4개의 방향으로 근사한다는 것은 (G_x, G_y) 가 위와 같은 변화량을 가진다고 할 때, 방향에 따라 각각 (3,5), (0,8), (1,7), (2,6) 값을 가진 픽셀이 선택되는 것을 의미한다.
이 선택된 2개의 픽셀과 현재 화소의 에지 강도를 비교하여 최대치가 아니면 억제되고, 최대치인 것만 에지로 결정한다.
또한 임계값을 High, Low 두 개로 설정해서 High가 넘고 Low보다 밑으로 내려가지 않는 에지만을 에지로 선택한다.

'공부' 카테고리의 다른 글
[딥러닝 공부] 노이즈 제거를 위한 이미지 필터링(평균, 미디언, 가우시안) (3) | 2025.01.02 |
---|---|
[딥러닝 공부] 노이즈 제거를 위한 이미지 필터링(평균, 미디언, 가우시안) (0) | 2024.12.30 |
[딥러닝 공부] 이미지 샤프닝, 블러링, 1차 미분 마스크 (1) | 2024.12.20 |
[딥러닝 공부] 정보 이론과 엔트로피 (1) | 2024.12.18 |
[딥러닝 공부] FFT, 퓨리에 변환이란? (1) | 2024.06.25 |