Ⅰ. 서 론
최근 딥러닝 기술의 발달로 딥러닝 기반 어플리케이 션이 증가하고 있다. 자원이 풍부한 서버와는 달리 실제 어플리케이션이 사용되는 모바일, 엣지 디바이스, 모빌 리티 등에서는 제한된 자원으로 딥러닝 어플리케이션 을 실행해야 하기 때문에 양자화, 프루닝 등의 효율적인 추론을 위한 연구가 많이 이루어지고 있다[2]. 다운 샘 플링 기법은 신호처리 분야에서 널리 쓰이는 기법으로, 입력 신호를 축소하거나 압축하여 해상도를 줄여 효율 적인 연산을 할 때 사용되는 기법이다.
합성곱 신경망의 경우 이미지 속의 지역적인 정보를 바탕으로, 객체의 분류(classification), 감지(detection), 세그멘테이션(segmentation) 등 여러가지 목적에 사용 된다. 합성곱 신경망은 입력 이미지의 지역적인 특징을 파악하는데 사용되며, 모든 정보를 동등하게 간주하지 않는다. 합성곱 신경망의 피처 레이어의 또한 비슷한 방식으로 모든 정보가 동일하게 중요하지 않을 수 있다. 본 연구에서는 합성곱 신경망의 피처 레이어의 선택 적 다운 샘플링을 위한 개선된 기법을 제안하며, 실험 통해 제안된 다운 샘플링 기법의 성능을 평가한다.
Ⅱ. 시스템모델
2.1 마스크 기반 선택적인 다운 샘플링
일반적으로 다운 샘플링은 H×W×C 크기의 입력 신호를 H/d×W/d×C로 축소시켜주는 기법이다. 합 성곱 신경망의 경우 공간적 해상도를 조절할 때, 풀링 (Pooling) 혹은 stride를 조절한 합성곱 레이어를 통해 다운 샘플링을 수행한다.
마스크 기반 선택적 다운 샘플링[4]의 경우 입력에 대해 (H/d)×(W/d) 크기의 마스크 M을 사용해, 마스 크의 값에 따라 마스크의 값이 0인 경우 기존 해상도로, 마스크의 값이 1인 경우 다운 샘플링된 값을 사용한다.
[TeX:] $$\begin{equation} y(x, M)=\left(f\left(x_1, M\right), \ldots, f\left(x_{\frac{H}{d} \times \frac{W}{d}}, M\right)\right) \end{equation}$$
전체 피쳐맵을 가로, 세로 각각 d개의 패치로 나눴을 때, k번째 패치에 포함된 xi,j에 대해
다운 샘플링 기법 동작 비교 (위: 선택적 다운 샘 플링, 가운데: 확장 합성곱, 아래: 간격 2인 다운 샘플링된 컨볼루션)
[TeX:] $$\begin{equation} y_{i, j}=f\left(x_k, M\right)= \begin{cases}x_{i, j} & \text { if } m_{i, j}=0 \\ \operatorname{Pool}\left(x_{i, j}\right) & \text { if } m_{i, j}=1\end{cases} \end{equation}$$
과 같이 표현할 수 있다. 그림 1과 같이 합성곱을 연산 하기 전 입력 신호에 마스크를 적용해준 뒤 희소 (sparse) 합성곱[3] 방법을 이용하여, 저해상도 영역의 반복된 계산을 줄일 수 있다. 최종적으로 생성된 피처맵 의 경우 확장 합성곱과 동일한 공간 크기를 가져 표현력 은 유지하면서ㄴ, 계산량은 다운 샘플링의 활성도에 따 라 줄어들게 된다.
2.2 네트워크 디자인
[4]에서 제안된 기법의 경우, 마스크 예측을 위한 모 델이 일반적인 합성곱 신경망으로 구성이 되어 있다. 선택적 다운 샘플링의 경우 특성상 표현력을 유지하면 서도 연산량을 줄이기 위해서는 큰 공간적 해상도를 가 지는 레이어에 적용해야 하며, 합성곱 신경망의 경우 공간적 해상도에 따라 계산량이 늘어나게 된다. 계산을 효율적으로 하기 위해 제안된 기법인 만큼, 연산량을 줄이기 위해 깊이별 분리(Depthwise-separable) 합성곱 신경망으로 마스크 예측 모델의 구조를 변경하였고, 기 존 구조대비 80%의 계산량을 줄일 수 있었다.
또한 선택적 다운 샘플링을 하게 되면, 다운 샘플링 마스크가 적용된 부분의 경우(그림 1의 푸른색 영역의 볼드 표시된 값) 기존의 다운 샘플링을 통한 값과 동일 한 값을 얻을 수 있으나, 저해상도 계산을 하기 위한 영역의 값이 변경되기 때문에 고해상도 영역의 값 (그 림 1의 붉은 영역의 밑줄 표시된 값)이 변경되게 된다. 마스크 예측 모델을 경량화 하면서 표현력이 줄어들기 때문에, 이러한 문제가 더 심각해질 수 있다. 따라서, 일정한 위치의 값으로 다운 샘플링을 하지 않고 풀링 기법을 사용하여 테스크의 손실함수를 바탕으로 성능 하락을 줄일 수 있게 하였다.
2.3 손실함수
제안한 예측 모델의 경우, 다운 샘플링이 많이 실행 될 경우 성능 하락이 발생할 수 있으며, 적게 실행될 경우 효과가 없게 된다. 따라서, 적정수준의 다운 샘플 링이 필요하며, 이를 위해 마스크의 희소성(sparsity)을 손실 함수로 사용하였다. 희소성과 세그멘테이션의 성 능의 균형을 위해 세그멘테이션의 손실 함수와 희소성 을 합친 값을 최종 손실 함수로 사용하였다. 희소성을 전체 마스크의 크기 대비 다운 샘플링의 비율인
[TeX:] $$\begin{equation} S=\frac{\sum M}{H \times W} \end{equation}$$
로 정의하였을 때 최종 손실함수는
[TeX:] $$\begin{equation} L=\operatorname{Loss}_{\text {seg }}+\beta * S(1-S) \end{equation}$$ 를 사용하였다.
Ⅲ. 실험결과
성능 평가를 위해 ResNet101[6]을 백본 네트워크로 하는 DeepLab V3[1] 모델을 사용하였고, 19개의 클래 스를 가지는 의미론적 세그멘테이션(Semantic seg- mentation)을 목적으로 하는 Cityscape[5] 데이터셋을 활용하였다. 학습과 추론에는 Nvidia A40 GPU를 사용 하였고, 하이퍼 파라미터는 DeepLab V3의 학습 파라 미터와 동일하게 사용하였다.
실험 결과는 표 1과 같다. 기존의 기법 대비 깊이별 분리 합성곱 신경망을 사용하여 마스크 예측 모델만 간 소화 할 경우(Prop. 1) 마스크 연산을 위한 계산량은 80% 이상 간소화 시킬 수 있으나, 세그맨테이션 성능 (mIoU)이 소폭 하락하는 것을 확인할 수 있다. 이는 앞에서 설명한 바와 같이, 마스크 네트워크의 경량화로 인한 성능 하락과 더불어 선택적 다운 샘플링 계산에서 발생하는 고해상도 영역의 왜곡으로 인한 것으로 생각 된다. 이를 방지하기 위한 선택적 풀링 기법을 적용하고 로스 함수를 변경하면(Prop. 2), 풀링에 사용되는 계산 량으로 인해 계산량이 소폭 증가하지만, 비교 기법과 동일한 수준의 세그멘테이션 성능을 확인할 수 있었다.
Cityscape 데이터셋에 대한 비교 기법 및 제안 기법의 segmentation 결과와 추가적인 FLOPS 비교.
손실 함수의 경우 해당 테스크에 대해 유의미한 성능 차이를 보이지 않았으나, 기존의 방법론의 희소성의 경 우 타겟 희소비율을 설정해야 하기 때문에, 정확한 값을 알기 어려워 학습을 방해하는 문제가 있을 수 있다. 따 라서, 제안하는 손실 함수를 사용하면 안정적인 학습 효과가 있을 것으로 예상된다.
Ⅳ. 결 론
본 논문에서는 합성곱 신경망의 효율적인 동작을 위 한 선택적 다운 샘플링 기법에 관한 연구를 진행하였다. 합성곱 신경망의 피처 레이어의 공간적 해상도를 선택 적으로 다운 샘플링 함으로써, 성능 하락 없이 계산량을 줄일 수 있는 선택적 다운 샘플링 기법에 관한 연구를 진행하였다. 비교 기법 대비 80% 경량화 된 네트워크를 설계하였고, 경량화로 인한 성능 하락을 완화 시키기 위한 방법을 제안하였고, 실험을 통해 제안 기법의 성능 을 확인할 수 있었다.