Tables
Table 1 제안 모델의 ResNet 블록 구성 (The configuration of ResNet blocks in the proposed mode) Table 2 32개 빔 예측에 대한 기존 모델과 제안 모델의 성능 비교 (Performance comparison between the existing model and the proposed model for predicting 32 beams) Table 3 64개 빔 예측에 대한 기존 모델과 제안 모델의 성능 비교 (Performance comparison between the existing model and the proposed model for predicting 64 beams)
|
Yeo and Kim: Multi-Modal Sensing-Assisted Beam Prediction for UAV Communications Multi-Modal Sensing-Assisted Beam Prediction for UAV Communications Abstract: In this paper, we propose a deep learning model to predict the optimal beam for wireless communication systems by utilizing both camera image data and GPS data, enabling efficient beamforming. Existing work has proposed single-modal beam prediction models that utilize camera image data and GPS data individually. However, these models have limitations in that they are sensitive to measurement environments and outliers. To overcome the limitations, we propose a new model that combines and utilizes the two types of data based on a derivative model of Transformer called Vision Transformer. Experimental results show that the proposed model exhibits higher performance in terms of Top-1, 2, 3 accuracy for both 32-beam and 64-beam scenarios compared to the existing model. Particularly, the Top-3 accuracy of the proposed model showed nearly 100% accuracyinbothscenarios. Keywords: Beam prediction, Deep learning, Transformer, Multi-modal learning, Wireless communications UAV 통신을 위한 멀티모달 센싱 기반 빔 예측 요 약: 본 논문에서는 무선 통신 시스템에서 효율적인 빔포밍이 가능하도록 카메라 이미지 데이터와 GPS 데이터를 모두 사용해 최적의 빔을 예측하는 딥러닝 기법을 제안한다. 기존 연구에서는 카메라 이미지 데이터와 GPS 데이터를 개별적으로 사용하는 싱글모달 빔 예측 모델이 제안되었다. 하지만 이러한 방법은 측정 환경과 이상치에 민감하다는 한계를 갖는다. 본 논문에서는 이를 극복하기 위해 트랜스포머의 파생 모델인 비전 트랜스포머에 기반한두 가지 데이터를 결합하여 활용하는 새로운 기법을 제안한다. 실험 결과, 제안 모델이 기존 모델 대비 32개 빔과64개 빔에 대한 Top-1, 2, 3 정확도 모두에서 더 높은 성능을 보이는 것을 확인하였다. 특히 제안 모델의 Top-3 정확도는 두 가지 실험 모두에서 거의 100%에 가까운 정확도를 보였다. 키워드: 빔 예측, 심층 신경망, 트랜스포머, 멀티모달 학습, 무선 통신 Ⅰ. 서 론 밀리미터파(mmWave) 통신 시스템은 대형 안테나 어레이와 함께 빔포밍 기술을 활용하여 탁월한 데이터 전송 속도를 달성한다[1]. 특히 빔포밍에서 좁은 빔을 사용하면 노드 간 간섭이 최소화되고 타겟 수신 전력이 최대화된다. 그러나 고속 이동 환경에서 좁은 빔을 최적으로 유지하려면 상당한 오버헤드가 필요하므로 빔 관리에 어려움이 따른다[2]. 이 문제를 극복하기 위한 효과적인 접근 방식 중 하나는 대역 내 무선 신호 대신 센서 데이터를 사용하여 최적의 빔을 예측하는 것이다. 최근 실제 무선통신 환경에서 수집된 센서 데이터를 활용한 딥러닝 기반 빔 예측 기법이 활발히 연구되고 있다. 수집된 Global Positioning System(GPS) 데이터만을 사용하여 최적 빔을 예측하는 Fully Connected Neural Network(FCNN) 모델[3]이 제안되었고, 수집된 카메라 이미지와 GPS 데이터를 함께 사용하는 Convolutional Neural Network (CNN)과 FCNN이 결합된 모델[4]도 제안되었다. 선행 연구들의 실험 결과를 통해 한 가지 데이터만을 사용했을 때보다 두 가지 데이터를 함께 사용했을 때 더욱 정확한 빔 예측이 가능함이 검증되었다. 또한, 이미지와 LiDAR 데이터를 결합 된 형태로 사용하는 자율 주행용 모델 Transfuser[5]가 제안되었다. 이 모델은 두 센서 정보를 단순히 연접하는 것이 아니라 트랜스포머 모듈을 활용하여 센서 데이터 간 정보를 반복적으로 교환함으로써 성능을 크게 개선했다. 이후, Transfuser를 기반으로 한 이미지, LiDAR, Radar, GPS의 4가지 데이터를 모두 사용하는 트랜스포머 기반 멀티모달 빔 예측 모델[6]이 제안되었다. 그림(Fig.) 1. 제안하는 멀티모달 빔 예측 프레임워크 (The proposed framework for multi-modal beam prediction) 3차원 공간을 이동하며 통신하는 Unmanned Aerial Vehicle(UAV) 통신 환경에서는 최적 빔 예측이 더 빈번하게 요구됨에 따라 빔 학습 오버헤드가 더욱 증가하게 된다. 이를 극복하기 위하여 UAV 통신 환경에서 최적 빔 예측에 카메라 이미지 데이터와 GPS 데이터를 사용하는 딥러닝 기법[7]이 제안되었다. 그러나 두 가지 데이터를 개별적으로 사용함으로 인하여 이미지 데이터만 사용하는 경우는 날씨와 장애물에 크게 영향을 받고 GPS 데이터만 사용하는 경우는 위치 정확도에 크게 영향을 받는다. 따라서 본 논문에서는 카메라 이미지 데이터와 GPS 데이터를 함께 결합하여 사용하는 새로운 딥러닝 기법을 제안한다. 제안 모델은 ResNet50[8]과 Fully Connected(FC) 블록을 통해 각각 카메라 이미지 데이터와 GPS 데이터의 특성을 추출하고 비전 트랜스포머[9]를 사용해 각 데이터 간의 정보를 융합하여, 최종적으로 Multi-Layer Perceptron(MLP)를 통해 최적 빔을 예측한다. 모의실험을 통해 32개의 빔과 64개의 빔을 사용하는 UAV 통신 환경에서 제안한 기법이 기존 기법보다 탁월한 빔 예측 성능을 가짐을 보인다. Ⅱ. 시스템 모델 본 논문에서는 그림 1과 같이 단일 안테나 송신기를 탑재한 UAV가 M-요소 균일 선형 배열 안테나와 Red-Green-Blue(RGB) 정보를 수집할 수 있는 카메라를 갖춘 기지국에 의해 서비스되는 통신 시스템을 고려한다. 이 통신 시스템은 K개의 부 반송파를 사용하는 Orthogonal Frequency Division Multiplexing(OFDM) 전송 기법을 사용한다. 이동하는 UAV와 통신을 위해, 기지국은 미리 정의된 빔포밍 코드북 F={fq}Qq=1를 사용하는 것으로 가정한다. 여기서 Q는 빔포밍 벡터의 총 개수, fq∈CM×1는 q번째 빔포밍 벡터를 나타낸다. 시간 t에서 k번째 부 반송파에 대한 기지국과 UAV 사이의 채널을 hk[t]∈CM×1로 표시할 때, UAV에서 수신된 신호는 다음과 같이 표현된다. 여기서 vk[t]는 평균이 0이고 분산이 σ2인 가우시안 정규 분포를 따르는 가산 백색 가우시안 잡음(Additive White Gaussian Noise, AWGN)이다. 전송 심볼 X는 평균 심볼 파워 P로 제한된다. 즉, E[|x|2]=P이다. 시간 t에서 최적 빔포밍 벡터 f∗[t]∈F는 전체 부 반송파에 대한 평균 수신 신호 대 잡음비를 의미하는 Signal-to-Noise Ratio(SNR)가 최대가 되는 빔으로 선택된다. 이는 다음과 같은 식으로 표현된다. 여기서 SNR은 P/σ2이다. UAV에 의해 수집된 위도와 경도 정보가 담긴 GPS 데이터를 g[t]∈R2.로 나타내고, 기지국에 설치된 카메라가 수집한 이미지 데이터를 X[t]∈RW×H×C로 나타내었다. 이때, W, H, C는 각각 이미지의 폭, 높이, 채널 수를 나타낸다. 두 가지 종류의 센서 데이터를 결합한 것을 S[t]={g[t],X[t]}라고 하면, 최적 빔 인덱스를 찾는 매핑 함수 fΘ를 다음과 같이 표현할 수 있다. 여기서 Θ는 모델 파라미터이고, ˆf[t]는 시점 t에서 예측된 최적 빔을 의미한다. 데이터셋 내의 모든 샘플들에 대해 예측된 최적 빔과 실제 최적 빔이 최대한 일치하도록 예측 모델이 설계되어야 하기 때문에 최적의 매핑 함수는 다음과 같이 표현된다. 여기서 U는 데이터셋 내의 전체 데이터 샘플 수, ˆfu는 u번째 데이터 샘플에 대한 예측된 최적 빔 인덱스이고, f∗u는 u번째 데이터 샘플에 대한 실제 최적 빔 인덱스를나타낸다. Ⅲ. 제안하는 빔 예측 모델 본 논문에는 카메라 이미지 데이터와GPS 데이터를함께 사용하여 최적의 빔을 예측하기위해각데이터의특징을 추출하고 비전 트랜스포머블록을적용하는과정을 반복하여 데이터 간의 정보를공유한다. 본논문에서 제안하는 빔 예측 모델의 전체구조는그림2에나타나 있다. 그림(Fig.) 2. 트랜스포머 기반의 멀티모달 빔 예측 모델 (Transformer based multi-modal beam prediction model) 제안하는 빔 예측 모델의 세부 구조를 살펴보면, 입력 이미지 데이터에 convolution(Conv), batch normalization(BN), ReLU, max-pooling(MaxPool) 층을 순서대로 적용하고, 특징 추출을 위해 ResNet50을 사용한다. GPS 데이터에는 FC 층을 적용하여 특징을 추출하였다. 카메라 이미지 데이터와 GPS 데이터는 각각 ResNet 블록과 FC 층을 통과시키고 Embedding 층을 거쳐 크기를 변환한 후 서로 연접시킨다. 연접된 데이터는 시퀀스 정보를 고려하기 위한 Positional embedding 벡터와 더해져 트랜스포머 블록으로 전달되고, 이를 통해 데이터 간의 관계를 학습하게 된다. 이후, 데이터를 다시 분리하고, 크기를 변환해 다음 ResNet 블록 및 FC 층으로 전달하는데, 이때 각 데이터의 출력 값과 이전 입력 값을 더하여 전달한다. 마지막으로, 카메라 이미지 데이터는 Pooling 층과 Reshape 층을 거친 후, GPS 데이터와 연접되고 3개의 FC 층으로 구성된 MLP 블록을 통해 최적의 빔 인덱스를 예측한다. ResNet 블록은 Conv 층, BN 층, ReLU 함수가 반복되는 형태로 구성되며 카메라 이미지를 입력으로 받아 특징을 추출한다. 출력된 특징 벡터는 트랜스포머의 입력으로 사용되고, 트랜스포머 블록을 통해 출력된 벡터는 다음 ResNet 블록의 입력으로 사용된다. 제안 모델에서 사용한 ResNet 블록의 세부 구조는 그림 3에 나타나 있다. 또한, 각 블록에서 사용한 Conv 필터 크기 및 채널 수 정보는 표 1에 나타내었다. 멀티모달 데이터를 효과적으로 활용하기 위해 각 모달 간의 관계를 학습하는 비전 트랜스포머 블록을 적용하였다. 본 논문에서 제안하는 모델의 트랜스포머 블록 구조는 그림 4에 나타나 있다. 전체 모델에서 4개의 트랜스포머 블록이 동일한 구조를 갖도록 하되 임베딩 크기를 각각 64, 128, 256, 512로 설정하고, interpolation(Interp) 층에서 사용하는 Scale Factor를 각각 8, 4, 2, 1로 적용하였다. 그림(Fig.) 3. 제안 모델의 ResNet 블록 구조 (The structure of a ResNet block for the proposed model) 표(Table) 1. 제안 모델의 ResNet 블록 구성 (The configuration of ResNet blocks in the proposed mode) Block | Detailed structure | Block 1 | [1×1,643×3,641×1,64]×3 | Block 2 | [1×1,1283×3,1281×1,512]×4 | Block 3 | [1×1,2563×3,2561×1,1024]×6 | Block 4 | [1×1,5123×3,5121×1,2048]×3 | 그림(Fig.) 4. 제안 모델의 트랜스포머 블록 구조 (The structure of a Transformer block for the proposed mode) Ⅳ. 실험 및 결과 4.1 데이터셋 본 논문에서 사용한 데이터셋은 DeepSense 6G[10]에서 제공하는 시나리오 23으로, UAV를 날릴 수 있는 전용 필드인 애리조나주 챈들러(Chandler)에 위치한 Thude Park에서 무선 UAV과 고정 기지국을 이용해 수집되었다. 이 공원의 비행 구역의 길이와 너비는 각각 205m와 152m로, 다양한 거리와 높이에서 데이터를 수집할 수 있어 실제 무선 환경과 유사한 데이터셋을 구축할 수 있다. 시나리오 23은 기지국에서 측정한 전력 값 중 가장 큰 값을 갖는 빔의 인덱스 값과 카메라 이미지 데이터, UAV의 실시간 위치를 측정한 GPS 데이터 등으로 구성된다. 먼저, 고정 기지국인 unit 1은 3개의 센서로 구성되어 있다. 사전에 정의된 64개 빔의 오버 샘플링된 코드북을 사용해 60GHz 주파수 대역에서 주변 환경을 지속적으로 스캔하는 무선 센서와 unit 1의 시야와 같은 RGB 이미지를 캡처하는 시각 센서, 고정 장치의 위치를 측정하는 위치 센서로 구성된다. 이동 송수신기인 unit 2는 거리에서 계속 움직이며 실시간 위치를 측정하는 위치 센서로 구성되어 있다. 모든 위치 데이터에 대해서 min-max 정규화를 적용했고, 수식은 아래와 같다. 여기서 g 와 gnormalized 는 각각 정규화 전 GPS 데이터와 정규화 후 GPS 데이터를 나타낸다. 4.2 실험 환경 본 논문에서는 제안 모델의 성능을 확인하기 위해, 기존 연구[7]의 가정을 추가로 고려하고자 빔 인덱스를 64개에서 32개로 다운 샘플링 하여 각각 32개, 64개 빔을 예측하는 2가지 실험을 진행하였다. 빔 인덱스 다운샘플링 방법은 그림 5에 나타내었다. 또한, epoch는 40, batch size는 32로 설정하고, learning rate는 0.0001로 시작해 epoch 10, 20, 30에서 0.1씩 곱해지는 스케줄링을 적용하여 실험을 진행하였다. 성능 지표로는 Top-K Accuracy를 사용하였는데, 이는 예측된 상위 K개 빔 중 하나에 해당하는 샘플 중, 실제 정답 값을 나타내는 빔에 해당하는 샘플의 비율을 의미한다. 즉, 본 논문에서 평가하는 Top-3 정확도는 상위 3개 예측 빔 중 하나에 해당하는 샘플 중 정답 빔에 해당하는 샘플의 비율을 나타낸다. 그림(Fig.) 5. 빔 인덱스 다운 샘플링 (Beam index down sampling) 4.3 실험 결과 먼저 32개의 빔으로 다운 샘플링하여 최적의 빔을 예측한 실험 결과는 표 2에 나타나있다. 실험 결과, 트랜스포머 블록을 적용한 제안 모델이 기존 모델 대비 Top-1, 2, 3 정확도 모두에서 향상된 성능을 보임을 확인할 수 있다. 다음으로. 64개 빔에 대해서 최적의 빔을 예측한 결과, 32개 빔에 대해 예측한 결과와 마찬가지로 Top-1, 2, 3 정확도 모두에서 기존 모델 대비 제안 모델의 성능이 높은 것을 확인할 수 있었다. 또한, 이 경우는 32개 빔을 사용하는 경우보다 레이블의 수가 많아져 예측하기 까다로워지므로 모델 성능이 전체적으로 낮아진 것을 확인할 수 있다. 그럼에도 불구하고 제안 모델의 Top-3 성능은 약 99%의 높은 성능을 보였다. 64개 빔에 대해 예측한 실험 결과는 표 3에 나타나 있다. 이러한 결과는 단일 센서 데이터만으로 빔 예측을 수행하는 것보다 두 가지 센서 데이터를 함께 사용할 때 빔 예측 성능이 더 높아짐을 보여준다. 제안하는 모델은 각각의 센서 데이터로부터 특징을 추출한 후, 추출된 특징들 간의 관계를 학습하기 위해 트랜스포머 블록을 사용한다. 이를 통해 각 데이터의 개별 특징뿐만 아니라 두 데이터 간의 관계까지 학습하여, 기존 모델보다 더 정확하게 최적의 빔을 예측할 수 있다. 표(Table) 2. 32개 빔 예측에 대한 기존 모델과 제안 모델의 성능 비교 (Performance comparison between the existing model and the proposed model for predicting 32 beams) 구분 | Top-1 | Top-2 | Top-3 | 기존 모델[7] | 0.8653 | 0.9710 | 0.9903 | 제안 모델 | 0.8841 | 0.9894 | 0.9964 | 표(Table) 3. 64개 빔 예측에 대한 기존 모델과 제안 모델의 성능 비교 (Performance comparison between the existing model and the proposed model for predicting 64 beams) 구분 | Top-1 | Top-2 | Top-3 | 기존 모델[7] | 0.7647 | 0.9376 | 0.9850 | 제안 모델 | 0.7750 | 0.9438 | 0.9903 | Ⅴ. 결 론 본 논문에서는 한 가지 센서 데이터만을 사용하는 기존의 딥러닝 기반 빔 예측 모델을 개선하기 위해, 비전 트랜스포머 블록을 통해 두 가지 데이터를 결합하여 활용하는 새로운 빔 예측 모델을 제안하였다. 32개 빔과 64개 빔 후보에 대해 최적 빔을 예측하는 2가지 실험에서 제안 모델이 기존 모델 대비 Top-1, 2, 3 정확도 모두 높은 성능을 보이는 것을 확인하였다. 특히 제안 모델의 Top-3 정확도는 두 가지 실험 모두에서 거의 100%에 가까운 매우 높은 정확도를 보였다. 이러한 결과를 바탕으로 추후 LiDAR 및 Radar 같은 다양한 센서 데이터를 추가로 활용한다면 더욱 높은 정확도를 갖는 빔 예측 모델을 구축할 수 있고, 다양한 시나리오에서 수집된 실측 데이터를 활용하여 학습하면 실제 UAV 통신 환경에서 효과적으로 사용될 수 있을 것으로 기대된다. Biography 여 예 린 (Yerin Yeo) 2023년 2월: 순천향대학교 빅데이터공학과 졸업 2023년 3월~현재: 세종대학교 인공지능학과 석사과정 <관심분야> 딥러닝, 인공지능, 무선통신 Biography 김 정 현 (Junghyun Kim) 2006년 8월: 연세대학교 전기전자공학과 졸업 2008년 2월: 연세대학교 전기전자공학과 석사 2010년 7월~2013년 2월: 한국전자통신연구원 연구원 2017년 8월: 연세대학교 전기전자공학과 박사 2017년 9월~2019년 2월: 삼성전자 삼성리서치 책임연구원 2019년 3월~2022년 8월: 순천향대학교 빅데이티공학과 조교수 2022년 9월~2024년 8월: 세종대학교 인공지능데이터사이언스학과 조교수 2024년 9월~현재: 세종대학교 인공지능데이터사이언스학과 부교수 <관심분야> 인공지능, 빅데이터, 무선통신시스템 [ORCID:0000-0003-0265-5169] References - 1. H. Lee, B. Lee, H. Yang, J. Kim, S. Kim, W. Shin, B. Shim, and H. V. Poor, "Towards 6G hyper-connectivity: Vision, challenges, and key enabling technologies," J. Commun. Networks (JCN), vol. 25, no. 3, pp. 344-354, Jun. 2023. (http://doi.org/10.23919/JCN.2023.000006)
- 2. J. Kim and J. Kim, "Augmenting beam alignment for mmWave communication systems via channel attention," Electr., vol. 12, no. 20, pp. 1-15, Oct. 2023. (http://doi.org/10.3390/electronics12204318)
- 3. J. Morais, A. Behboodi, H. Pezeshki, and A. Alkhateeb, "Position aided beam prediction in the real world: How useful GPS locations actually are?," in Proc. Int. Conf. Commun. (ICC), pp. 1824-1829. Rome, Italy, May 2023. (http://doi.org/10.3390/electronics12204318)
- 4. G. Charan, T. Osman, A. Hredzak, N. Thawdar, and A. Alkhateeb, "Vision-position multi-modal beam prediction using real millimeter wave datasets," in Proc. IEEE Wireless Commun. Netw. Conf. (WCNC), pp. 2727-2731, Austin, TX, USA, Apr. 2022. (http://doi.org/10.1109/ICC45041.2023.102789 98)
- 5. K. Chitta, A. Prakash, B. Jaeger, Z. Yu, K. Renz, and A. Geiger, "Transfuser: Imitation with transformer-based sensor fusion for autonomous driving," IEEE Trans. Pattern Anal. Mach. Intell., vol. 45, no. 11, pp. 1287812895, Nov. 2023. (http://doi.org/10.1109/TPAMI.2022.3200245)
- 6. Y. Tian, Q. Zhao, Z. Kherroubi, F. Boukhalfa, K. Wu, and F. Bader, "Multimodal transformers for wireless communications: A case study in beam prediction," CoRR, vol. abs/2309.11811, 2023. from http://arxiv.org/a bs/2309.11811 (https://doi.org/10.52953/JWRA8095)
- 7. G. Charan, A. Hredzak, C. Stoddard, B. Berrey, M. Seth, H. Nunez, and A. Alkhateeb, "Towards real-world 6G drone communication: Position and camera aided beam prediction," in Proc. IEEE Glob. Commun. Conf. (GLOBECOM), pp. 2951-2956, Rio de Janeiro, Brazil, 2022. (http://doi.org/10.1109/GLOBECOM48099.202 2.10000718)
- 8. K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), pp. 770-778, 2016. (http://doi.org/10.1109/cvpr.2016.90)
- 9. D. Alexey, B. Lucas, K. Alexander, and W. Dirk "An image is worth 16x16 words: Transformers for image recognition at scale," in Proc. Int. Conf. Learn. Represent. (ICLR), pp. 1-21, Vienna, Austria, May 2021.
- 10. A. Alkhateeb, G. Charan, T. Osman, A. Hredzak, and N. Srinivas. "DeepSense 6G: Large-scale real-world multi-modal sensing and communication datasets," 2022. from https://www.DeepSense6G.net (http://doi.org/10.1109/MCOM.006.2200730)
Article information Continued Copyright © 1976-2025 KICS. All rights reserved. |
Cite this article
IEEE Style
Y. Yeo and J. Kim, "Multi-Modal Sensing-Assisted Beam Prediction for UAV Communications," The Journal of Korean Institute of Communications and Information Sciences, vol. 49, no. 9, pp. 1330-1336, 2024. DOI: 10.7840/kics.2024.49.9.1330.
ACM Style
Yerin Yeo and Junghyun Kim. 2024. Multi-Modal Sensing-Assisted Beam Prediction for UAV Communications. The Journal of Korean Institute of Communications and Information Sciences, 49, 9, (2024), 1330-1336. DOI: 10.7840/kics.2024.49.9.1330.
KICS Style
Yerin Yeo and Junghyun Kim, "Multi-Modal Sensing-Assisted Beam Prediction for UAV Communications," The Journal of Korean Institute of Communications and Information Sciences, vol. 49, no. 9, pp. 1330-1336, 9. 2024. (https://doi.org/10.7840/kics.2024.49.9.1330)
|