Index


Figures


Tables

Kwak and Bahk: Mask-Based Selective Downsampling in Convolutional Neural Networks

Chulyoung Kwak♦ and Saewoong Bahk°

Mask-Based Selective Downsampling in Convolutional Neural Networks

Abstract: This letter presents a study on selective down-sampling techniques designed to enhance the efficiency of convolutional neural networks (CNNs). By selectively adjusting the resolution of feature layers based on the down-sampling mask, this method aims to improve efficiency. We develop a network that is 80% lighter than the baseline scheme, and introduce several methods to mitigate the performance degradation of light weight networks. The performance of the proposed methods is evaluated through extensive experiments.

Keywords: Down sampling , Convolutional Neural network , Signal Processing

곽철영♦, 박세웅°

합성곱 신경망의 마스크 기반 선택적 다운샘플링 기법

요 약: 본 논문에서는 합성곱 신경망(Convolutional neural network)의 효율적인 동작을 위한 선택적 다운 샘플링 기법에 관한 연구를 진행한다. 합성곱 신경망의피쳐 레이어의 중요도에 따라 해상도를 달리 사용함으로써, 계산량을 줄일 수 있는 선택적 다운 샘플링기법에 대해 살펴본다. 비교 기법보다 80% 경량화된 네트워크를 설계하였고, 경량화 된 네트워크의 성능 하락을 완화시키기 위한 방법론을 제안하였고, 실험을 통해 성능을 평가하였다.

Ⅰ. 서 론

최근 딥러닝 기술의 발달로 딥러닝 기반 어플리케이 션이 증가하고 있다. 자원이 풍부한 서버와는 달리 실제 어플리케이션이 사용되는 모바일, 엣지 디바이스, 모빌 리티 등에서는 제한된 자원으로 딥러닝 어플리케이션 을 실행해야 하기 때문에 양자화, 프루닝 등의 효율적인 추론을 위한 연구가 많이 이루어지고 있다[2]. 다운 샘 플링 기법은 신호처리 분야에서 널리 쓰이는 기법으로, 입력 신호를 축소하거나 압축하여 해상도를 줄여 효율 적인 연산을 할 때 사용되는 기법이다.

합성곱 신경망의 경우 이미지 속의 지역적인 정보를 바탕으로, 객체의 분류(classification), 감지(detection), 세그멘테이션(segmentation) 등 여러가지 목적에 사용 된다. 합성곱 신경망은 입력 이미지의 지역적인 특징을 파악하는데 사용되며, 모든 정보를 동등하게 간주하지 않는다. 합성곱 신경망의 피처 레이어의 또한 비슷한 방식으로 모든 정보가 동일하게 중요하지 않을 수 있다. 본 연구에서는 합성곱 신경망의 피처 레이어의 선택 적 다운 샘플링을 위한 개선된 기법을 제안하며, 실험 통해 제안된 다운 샘플링 기법의 성능을 평가한다.

Ⅱ. 시스템모델

2.1 마스크 기반 선택적인 다운 샘플링

일반적으로 다운 샘플링은 H×W×C 크기의 입력 신호를 H/d×W/d×C로 축소시켜주는 기법이다. 합 성곱 신경망의 경우 공간적 해상도를 조절할 때, 풀링 (Pooling) 혹은 stride를 조절한 합성곱 레이어를 통해 다운 샘플링을 수행한다.

마스크 기반 선택적 다운 샘플링[4]의 경우 입력에 대해 (H/d)×(W/d) 크기의 마스크 M을 사용해, 마스 크의 값에 따라 마스크의 값이 0인 경우 기존 해상도로, 마스크의 값이 1인 경우 다운 샘플링된 값을 사용한다.

[TeX:] $$\begin{equation} y(x, M)=\left(f\left(x_1, M\right), \ldots, f\left(x_{\frac{H}{d} \times \frac{W}{d}}, M\right)\right) \end{equation}$$

전체 피쳐맵을 가로, 세로 각각 d개의 패치로 나눴을 때, k번째 패치에 포함된 xi,j에 대해

그림 1.

다운 샘플링 기법 동작 비교 (위: 선택적 다운 샘 플링, 가운데: 확장 합성곱, 아래: 간격 2인 다운 샘플링된 컨볼루션)
1.png

[TeX:] $$\begin{equation} y_{i, j}=f\left(x_k, M\right)= \begin{cases}x_{i, j} & \text { if } m_{i, j}=0 \\ \operatorname{Pool}\left(x_{i, j}\right) & \text { if } m_{i, j}=1\end{cases} \end{equation}$$

과 같이 표현할 수 있다. 그림 1과 같이 합성곱을 연산 하기 전 입력 신호에 마스크를 적용해준 뒤 희소 (sparse) 합성곱[3] 방법을 이용하여, 저해상도 영역의 반복된 계산을 줄일 수 있다. 최종적으로 생성된 피처맵 의 경우 확장 합성곱과 동일한 공간 크기를 가져 표현력 은 유지하면서ㄴ, 계산량은 다운 샘플링의 활성도에 따 라 줄어들게 된다.

2.2 네트워크 디자인

[4]에서 제안된 기법의 경우, 마스크 예측을 위한 모 델이 일반적인 합성곱 신경망으로 구성이 되어 있다. 선택적 다운 샘플링의 경우 특성상 표현력을 유지하면 서도 연산량을 줄이기 위해서는 큰 공간적 해상도를 가 지는 레이어에 적용해야 하며, 합성곱 신경망의 경우 공간적 해상도에 따라 계산량이 늘어나게 된다. 계산을 효율적으로 하기 위해 제안된 기법인 만큼, 연산량을 줄이기 위해 깊이별 분리(Depthwise-separable) 합성곱 신경망으로 마스크 예측 모델의 구조를 변경하였고, 기 존 구조대비 80%의 계산량을 줄일 수 있었다.

또한 선택적 다운 샘플링을 하게 되면, 다운 샘플링 마스크가 적용된 부분의 경우(그림 1의 푸른색 영역의 볼드 표시된 값) 기존의 다운 샘플링을 통한 값과 동일 한 값을 얻을 수 있으나, 저해상도 계산을 하기 위한 영역의 값이 변경되기 때문에 고해상도 영역의 값 (그 림 1의 붉은 영역의 밑줄 표시된 값)이 변경되게 된다. 마스크 예측 모델을 경량화 하면서 표현력이 줄어들기 때문에, 이러한 문제가 더 심각해질 수 있다. 따라서, 일정한 위치의 값으로 다운 샘플링을 하지 않고 풀링 기법을 사용하여 테스크의 손실함수를 바탕으로 성능 하락을 줄일 수 있게 하였다.

2.3 손실함수

제안한 예측 모델의 경우, 다운 샘플링이 많이 실행 될 경우 성능 하락이 발생할 수 있으며, 적게 실행될 경우 효과가 없게 된다. 따라서, 적정수준의 다운 샘플 링이 필요하며, 이를 위해 마스크의 희소성(sparsity)을 손실 함수로 사용하였다. 희소성과 세그멘테이션의 성 능의 균형을 위해 세그멘테이션의 손실 함수와 희소성 을 합친 값을 최종 손실 함수로 사용하였다. 희소성을 전체 마스크의 크기 대비 다운 샘플링의 비율인

[TeX:] $$\begin{equation} S=\frac{\sum M}{H \times W} \end{equation}$$

로 정의하였을 때 최종 손실함수는

[TeX:] $$\begin{equation} L=\operatorname{Loss}_{\text {seg }}+\beta * S(1-S) \end{equation}$$ 를 사용하였다.

Ⅲ. 실험결과

성능 평가를 위해 ResNet101[6]을 백본 네트워크로 하는 DeepLab V3[1] 모델을 사용하였고, 19개의 클래 스를 가지는 의미론적 세그멘테이션(Semantic seg- mentation)을 목적으로 하는 Cityscape[5] 데이터셋을 활용하였다. 학습과 추론에는 Nvidia A40 GPU를 사용 하였고, 하이퍼 파라미터는 DeepLab V3의 학습 파라 미터와 동일하게 사용하였다.

실험 결과는 표 1과 같다. 기존의 기법 대비 깊이별 분리 합성곱 신경망을 사용하여 마스크 예측 모델만 간 소화 할 경우(Prop. 1) 마스크 연산을 위한 계산량은 80% 이상 간소화 시킬 수 있으나, 세그맨테이션 성능 (mIoU)이 소폭 하락하는 것을 확인할 수 있다. 이는 앞에서 설명한 바와 같이, 마스크 네트워크의 경량화로 인한 성능 하락과 더불어 선택적 다운 샘플링 계산에서 발생하는 고해상도 영역의 왜곡으로 인한 것으로 생각 된다. 이를 방지하기 위한 선택적 풀링 기법을 적용하고 로스 함수를 변경하면(Prop. 2), 풀링에 사용되는 계산 량으로 인해 계산량이 소폭 증가하지만, 비교 기법과 동일한 수준의 세그멘테이션 성능을 확인할 수 있었다.

Table 1.

Cityscape 데이터셋에 대한 비교 기법 및 제안 기법의 segmentation 결과와 추가적인 FLOPS 비교.
Light Mask Adaptive Pooling Loss mIoU FLOPS
Baseline[4] - - - 0.77 690M
Prop. 1 O - - 0.74 130M
Prop. 2 O O O 0.77 140M

손실 함수의 경우 해당 테스크에 대해 유의미한 성능 차이를 보이지 않았으나, 기존의 방법론의 희소성의 경 우 타겟 희소비율을 설정해야 하기 때문에, 정확한 값을 알기 어려워 학습을 방해하는 문제가 있을 수 있다. 따 라서, 제안하는 손실 함수를 사용하면 안정적인 학습 효과가 있을 것으로 예상된다.

Ⅳ. 결 론

본 논문에서는 합성곱 신경망의 효율적인 동작을 위 한 선택적 다운 샘플링 기법에 관한 연구를 진행하였다. 합성곱 신경망의 피처 레이어의 공간적 해상도를 선택 적으로 다운 샘플링 함으로써, 성능 하락 없이 계산량을 줄일 수 있는 선택적 다운 샘플링 기법에 관한 연구를 진행하였다. 비교 기법 대비 80% 경량화 된 네트워크를 설계하였고, 경량화로 인한 성능 하락을 완화 시키기 위한 방법을 제안하였고, 실험을 통해 제안 기법의 성능 을 확인할 수 있었다.

References

  • 1 L.-C. Chen, et al., "Encoder-decoder with atrous separable convolution for semantic image segmentation," in Proc. ECCV, 2018.custom:[[[-]]]
  • 2 M. J. A. Shanto, et al., "Lightweighted real-time object detection on a custom edge device," J. KICS, vol. 49, no. 10, pp. 14471457, Oct. 2024.custom:[[[-]]]
  • 3 G. Benjamin and D. M. Laurens, "Submanifold sparse convolutional networks," arXiv preprint arXiv:1706.01307, 2017.custom:[[[-]]]
  • 4
  • 5 M. Cordts, et al., "The cityscapes dataset for semantic urban scene understanding," in Proc. IEEE CVPR, 2016.custom:[[[-]]]
  • 6 K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proc. IEEE CVPR, 2016. Light Mask Adaptive Pooling Loss mIoU FLOPScustom:[[[-]]]
  • 4

Statistics


Related Articles

점진적 병렬 웨이브겐
H. Y. Kim, B. J. Woo, N. S. Kim
딥러닝 기반 장면인식 기법을 이용한 제조 작업공간 분류모델
J. S. Kim and D. M. Lee
Suppressing the Acoustic Effects of UAV Propellers through Deep Learning-Based Active Noise Cancellation
F. A. Khan and S. Y. Shin
이침 시술에 따른 자율신경계 변화와 혈관 상태의 개선에 대한 연구: 광용적 맥파(PPG) 분석
B. Na, J. Ahn, S. Bang, J. Yu, H. Lee
사전훈련된 딥러닝 네트워크를 활용한 이미지 기반 딥러닝 모델 설계
S. Kim, C. Moon, K. Kwon, D. Kim
블라인드 통신 환경에서 CNN을 활용한 변조 및 채널 코딩 인식과 프로토콜 역공학 시뮬레이션 구현
H. Cho, M. Chae, W. Lim
FPGA기반 다자간 실시간 디지털 오디오 합성기 구현
D. Oh, S. Baek, H. Choi
5G 단말 소프트웨어 모뎀의 셀 탐색 구현을 위한 Finite State Machine 기반 프로토콜 소프트웨어 구조 설계
H. Kim and J. Kim
Shallow CNN을 활용한 주가 예측 방법론
Y. Cho, E. Kim, H. Shin, Y. Choi
위장 공격에 대한 합성곱 신경망 기반의 물리계층 인증
H. Oh, J. Yoon, J. Moon, T. Kim, I. Bang

Cite this article

IEEE Style
C. Kwak and S. Bahk, "Mask-Based Selective Downsampling in Convolutional Neural Networks," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 5, pp. 722-724, 2025. DOI: 10.7840/kics.2025.50.5.722.


ACM Style
Chulyoung Kwak and Saewoong Bahk. 2025. Mask-Based Selective Downsampling in Convolutional Neural Networks. The Journal of Korean Institute of Communications and Information Sciences, 50, 5, (2025), 722-724. DOI: 10.7840/kics.2025.50.5.722.


KICS Style
Chulyoung Kwak and Saewoong Bahk, "Mask-Based Selective Downsampling in Convolutional Neural Networks," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 5, pp. 722-724, 5. 2025. (https://doi.org/10.7840/kics.2025.50.5.722)