Index


Figures


Tables

Kim , Jang , Cho , Shin , and Jung: Terminal Mobility Prediction for Deep Reinforcement Learning-Based Handover Optimization in Non-Terrestrial Networks

Junyoung Kim♦ , Huiyeon Jang* , In-Sop Cho** , Minsu Shin** and Soyi Jung°

Terminal Mobility Prediction for Deep Reinforcement Learning-Based Handover Optimization in Non-Terrestrial Networks

Abstract: Low Earth orbit (LEO) satellites are crucial for global coverage and real-time communication services. However, their rapid mobility and unique channel characteristics pose challenges for conventional handover techniques, leading to frequent disruptions and limited seamless connectivity. Optimized methods are needed to address the satellites' movement and the stochastic mobility of user terminals. This paper proposes a novel approach combining deep learning and reinforcement learning to optimize handovers. Time-series data of satellite and terminal movements are analyzed to predict the received signal strength (RSSI) using deep learning. Based on the predicted RSSI, a reinforcement learning-based framework determines the optimal handover timing. This integration achieves faster convergence and precise handover decisions, enhancing RSSI and overall system performance.

Keywords: Non-terrestrial networks , LEO satellites communication , Handover , Deep reinforcement learning

김준영♦, 장희연*, 조인섭**, 신민수**, 정소이°

단말 이동성 예측 기술 기반 심층 강화학습 비지상 네트워크 핸드오버 최적화 연구

요 약: 저궤도 위성은 글로벌 커버리지 실시간 통신 기술 실현하기 위한 핵심 기술이다. 저궤도 위성의 빠른 이동성과채널 특성으로 인해 기존 지상 네트워크의 핸드오버 기법은 빈번한 핸드오버가 발생하며 통신 중단과 지속적인서비스를 받는 것에 대해 한계가 존재한다. 이에, 위성의 빠른 이동성과 단말의 무작위적인 움직임에 따른 최적화기법이 요구된다. 본 논문에서는, 시계열적 데이터 특성을 가진 위성과 단말의 움직임 데이터 분석을 통해 단말의수신신호세기 예측 딥러닝 기술과, 예측된 수신신호 세기를 기준으로 최적의 타이밍에 핸드오버를 수행하는 강화학습 기반 핸드오버 최적화 기법을 제안한다. 제안하는 딥러닝 기술과 강화학습 기법의 융합을 통해 빠른 학습 속도와 정확한 타이밍에 핸드오버를 발생하여, 단말의 수신신호세기와 전체 시스템 성능을 향상하였다.

키워드: 비지상 네트워크, 저궤도 위성통신, 핸드오버, 심층 강화학습

Ⅰ. 서 론

위성 네트워크는 지상 네트워크의 한계를 보완하여 글로벌 커버리지 실시간 무선 통신 서비스 개발에 기여 할 것으로 기대된다[1]. 최근 통신 기술의 급속한 발전과 함께 저궤도(low Earth orbit satellite, LEO) 위성은 학 계와 산업계에서 많은 관심을 받고 있다[2]. LEO 위성은 전송 지연이 적고 에너지 소비가 적어 실시간 통신과 높은 처리량을 달성할 수 있다[3]. 그러나, LEO 위성의 빠른 이동성으로 인해 중단없이 통신을 유지하기 위해 서는 단말이 다른 위성으로 연결 관계를 변경하는 핸드 오버 절차가 지속적으로 요구된다[4]. LEO 위성은 지상 기지국과 비교하여 높은 고도에 위치하기 때문에 셀 간 거리에 따른 신호 세기의 차이가 매우 작다. 따라서 기 존의 지상 네트워크에서 사용되는 핸드오버 기법을 사 용한다면 불필요한 핸드오버, 통신 중단 증가 등 많은 문제를 유발할 수 있다. 3GPP(3rd generation partner- ship project, 3GPP)에서는 비지상 네트워크(non-ter- restrial-network, NTN)에서 LEO의 빠른 이동성에 따 른 핸드오버 문제를 해결하기 위하여 특정 조건을 만족 하면 실행되는 조건부 핸드오버 절차를 제안하였으며, 거리 기반 및 타이밍 기반과 같은 다양한 핸드오버 트리 거링 이벤트를 정의하였다[5].

그러나, 위성 네트워크에서 단말과 위성의 움직임을 고려하여 수신신호를 예측하는 이동성 예측 기술 기반 핸드오버 최적화 기법에 관한 연구는 많이 진행되지 못 하였다. 이에, 본 논문에서는 위성과 단말의 움직임에 따른 수신 신호 세기를 학습하여 단말이 각 핸드오버 후보 위성에 대한 수신 신호 세기를 예측하고 최적의 서비스 위성을 선택하는 예측형 이동성 인지 딥러닝 기 술을 설계한다. 더하여, 딥러닝 네트워크를 통해 예측된 데이터와 DRL 기법의 융합을 통해 최적의 타이밍에서 지상 단말(user equipment, UE)이 핸드오버를 수행하 여 지속적으로 LEO에 연결되어 지속적인 서비스와 서 비스 품질(quality of service, QoS)을 보장하는 기법을 제안한다[6].

Ⅱ. 저궤도 위성 핸드오버 기법 연구 동향

위성 핸드오버 성능을 최적화하기 위하여 궤도를 따 라 규칙적으로 이동하는 위성의 특징을 고려하여 인공 지능을 활용해 핸드오버 성능을 향상하기 위한 여러 연 구가 진행되었다. 본 절에서는 인공지능을 접목한 최신 연구 동향을 논한다.

2.1 위성 환경 이동성 예측 기술 딥러닝 기술 동향

위성 궤도 데이터는 시계열적 특성을 가진다. 주식 추세 변동, 계절 변동 및 순환 변동 등 일정한 시계열 데이터를 분석하는 딥러닝 기술은 보통 순환 신경망 (recurrent neural network, RNN), 장단기 메모리 네트 워크(long short-term memory, LSTM), 게이트 순환 유 닛(gated recurrent unit, GRU), 합성곱 신경망 (convolutional neural network, CNN) 등이 있다. 특히 LSTM 기법은 연속적으로 긴 데이터 처리가 가능하고, 효과적인 정보 처리 및 다양한 시계열 데이터의 문제를 해결하기에 성능이 뛰어난 모델로, 복잡하고 긴 시계열 적 특성을 가진 위성 궤도 데이터와 변동성이 심한 이동 체 이동성을 예측하는 기술로 적합하다.

[7]에서는 다중 LSTM 기반 도플러 주파수 편이 선 보상 알고리즘을 제안하였다. 현재 궤도 데이터와 현재 시간 간의 차이를 기반으로 단일 또는 다중 LSTM 모델 을 선택해 궤도 매개변수를 예측하여 향후 도플러 주파 수 편이 값을 계산하고, 단말에 선보상을 수행한다. 이 를 통해 기존 알고리즘 대비 주파수 편이 선보상 정확도 를 향상하였다. [8]에서는 지상 단말과 위성의 시간적 상관관계를 기반으로 GNU를 활용한 지상 단말의 CSI(channel state information, CSI) 예측 모델을 제안 하였다. 제안 모델은 기존 방식 대비 우수한 성능을 보 이며, 위성의 상승 및 하강 이동성에 대한 CSI 패턴을 효과적으로 학습함을 보였다.

2.2 심층 강화학습 기반 핸드오버 기법 연구 동향

[9]에서는 심층 강화학습 기법(deep reinforcement learning, DRL)을 기반으로 사전 정의된 위성의 궤도 패턴에 대하여 단말의 핸드오버 성공 여부를 강화학습 을 통해 학습한다. 이를 통해 단말이 언제 핸드오버 요 청을 보낼지를 예측하고 접속 지연과 충돌률을 최소화 하는 핸드오버 결정을 내린다. 이를 통해 전파 지연을 제거하며 접속 지연, 충돌률 및 핸드오버 성공률 측면에 서 좋은 성능을 보였다. [10]에서는 multi-agent deep Q-learning(MADQL)을 통하여 단말의 시야에서 고도 각 제한을 만족하는 위성에 대해서 위성에 대한 부하와 남은 가시 시간을 고려하여 불필요한 핸드오버를 최소 화하고 가용 자원이 많은 위성에 연결하도록 한다. 이를 통해 변화하는 트래픽 패턴을 가지는 단말의 핸드오버 성공률을 향상시켰다. [11]에서는 multi-agent double deep Q-network(MADDQN)을 통해 단말의 위성에 대 한 가시 시간, 현재 위성 연결 정보, 예상 전송 속도, 패킷 대기열 정보와 같은 단말 로컬 상태 정보와 이전에 인접한 다른 단말들이 한 핸드오버 결정 정보를 기반으 로 데이터 전송 효 율을 극 대화하고 핸드오버와 패킷 손 실을 최소화하도록 학습하도록 한다. 이를 통해 데이터 전송 성능을 최적화하면서 핸드오버를 최소화한다. [12]에서는 multi-agent Q-learning(MAQL)을 통한 부 하 균형 핸드오버 기법을 제안한다. 각 단말이 위성의 커버리지 포함 여부, 위성 부하, 남은 가시 시간과 같은 정보를 기반으로 가시 시간이 길 고 부하가 적은 위성에 연결하도록 학습한다. 이를 통해 핸드오버 빈도를 감소 시키고 실시간 위성 부하 균 을 맞추어 네트워크 혼잡을 방지하고 낮은 핸드오버 차단율을 보였다.

2.3 시계열 데이터 예측 기술 및 심층 강화학습 융합 기술 연구 동향

위성과 단말의 이동성 예측 딥러닝 기술과 심층 강화 학습을 통한 핸드오버 최적화 기법의 융합은 지상 UE 와 비지상 네트워크 기지국(non-terrestrial network base station, NT-BS)이 다수 존재하는 mega-con- stellation 시나리오에서 상호 간의 연계를 통해 throughput을 향상하기에 적합한 기법이다. LSTM과 심층 강화학습 기법 중 deep-q-network(DQN)을 활용 해 지상 UE와 NT-BS 간의 핸드오버 최적화 기법에 대해 연구가 진행되었다[13]. 본 연구에서는, DQN 네트 워크의 상태 입력값으로 LSTM 신경망을 통해 얻은 위 성 궤도 이동 데이터가 입력 된다 . 입력 데이터는 연속된 시간 슬롯 데이터가 포함되며, 입력 게이트(it), 망각 게이트(ft), 출력 게이트(at)로 이루어진 총 3개의 게이 트로 LSTM 유닛이 구성되며, 각 유닛은 NT-BS의 시 계열적 특성을 분석해 지상 셀 상태(ct)를 출력한다. LSTM 네트워크를 통해 출력 된 ct 는 DQN의 상 태 값에 영향을 주며, 지상 UE 에이전트는 시간 슬롯 t에서 전 송률을 보상 값으로 설정하고, 핸드오버가 수행될 때마 다 페널티를 부여해 빈번한 핸드오버가 발생하지 않도 록 시스템 모델을 설계한 것이 가장 큰 특징이다. 시뮬 레이션 결과, 제안하는 기법이 타 기법에 비해 최적 결 과에 가장 유사하게 도출되었다.

위성 네트워크에서 고정된 단말에 대한 핸드오버 최 적화 연구는 활발히 진행되고 있지만, 단말의 움직임을 고려한 핸드오버 최적화 연구는 부족하다. 이에 본 논문 에서는 위성과 단말의 움직임에 따른 수신 신호 세기를 학습하여 단말이 위성에 대한 수신 신호 세기를 예측하 고 최적의 핸드오버 위성을 선택하는 예측형 이동성 인 지 핸드오버 최적화 기법을 제안한다.

그림 1.

LEO 안테나 패턴
1.png

Ⅲ. 비지상 네트워크 시스템 모델

본 논문에서는 시계열적 데이터를 활용하여 UE의 이동 경로 예측 데이터 및 수신 신호 세기 예측 데이터 를 기반으로 LEO가 이동하는 환경에서 UE가 최적의 타이밍에 핸드오버를 수행하는 강화학습 기법을 제안 한다. 고도 600 km에 위치한 저궤도 위성이 정해진 궤 도에 따라 속도 v로 이동하는 시나리오를 고려한다. 총 I개의 LEO 위성으로 구성되며, [TeX:] $$\begin{equation} I=\{i \mid i=1,2, \cdots, I\} \end{equation}$$로 나타낼 수 있다. 각각의 LEO는 19개의 빔으로 총 K개 의 지상 셀을 커버하며, 이는 [TeX:] $$\begin{equation} K=\{k \mid k=1,2, \cdots, K\} \end{equation}$$로 표현한다.

본 시스템 모델은 시간 슬롯 t에서 LEO 위성의 좌표 를 [TeX:] $$\begin{equation} s_{i, m}(t)=\left[x_{i, m}(t), y_{i, m}(t), z_{i, m}(t)\right] \end{equation}$$으로 정의한다. 본 논문의 NTN LEO 시스템 모델은 전체 서비스 시간 T가 여러 시간 슬롯 t로 구성되었으며 , 각 슬롯 의 지속 시간 [TeX:] $$\begin{equation} \Delta t \end{equation}$$이다. 따라서 LEO 위성의 이동은 [TeX:] $$\begin{equation} s_{l, m}(t+1)=s_{l, m}(t)+v \Delta t \end{equation}$$로 정의한다.

3.1 LEO 위성 안테나 패턴

본 논문에서는 3GPP 표준 문서를 기반으로 위성의 안테나 패턴을 고려하였다[14]. 정규화된 안테나 이득 패 턴은 원형 개구를 가진 전형적인 반사 안 테나에 해 당되 며, 그림 1과 같이 표현되고 3GPP 표준 TR 38.811 문 서에 기재된 안테나 패턴 수식 (1)을 기준으로 한다.

(1)
[TeX:] $$\begin{equation} G\left(\theta_b^{i, k}\right)=\left\{\begin{array}{lc} 1 & \text { if } \theta_{i, k}=0 \\ 4\left|\frac{J_1\left(k a \sin \theta_{i, k}\right)}{k a \sin \theta_{i, k}}\right|^2 & \text { if } 0<\theta_{i, k} \leq 90^{\circ} \end{array}\right. \end{equation}$$

그림 2.

3GPP 표준 기반 LEO 위성 빔 구성도
2.png

함수 J1은 알종의 베셀 함수이며, a는 안테나의 원형 개구 반지름을 나타낸다. GHz 단위의 반송 주파수(fc), 빛의 속도(c)의 관계로 파수(k)는 [TeX:] $$\begin{equation} k=2 \pi f_c / c \end{equation}$$로 나타 낸다. LEO 위성의 구성된 빔은 총 19개로, 각 빔도 속도 v를 기반으로 움직이는 무빙 셀 환경을 고려하였 으며, [TeX:] $$\begin{equation} \theta_{i, k} \end{equation}$$는 LEO 위성 i와 지상 셀 k간의 빔 중심선 사이의 각도다. 그림 1을 기반으로 형성된 지상의 LEO 위성 빔은 그림 2와 같이 19개 빔으로 시뮬레이션을 진행한다.

3.2 채널 감쇠 모델

LEO 위성과 지상 셀 간의 채널 모델은 여러 감쇠에 영향을 받는다. 본 논문에서 사용한 감쇠 모델은 large scale model을 채택하였다[13]. 이에 LEO 위성 i와 지 상셀 k간의 경로 손실(PLi,k)은 수식 (2)와 같이 정의 한다.

(2)
[TeX:] $$\begin{equation} P L_{i, k}=P L_b+P L_g+P L_s+P L_e .\end{equation}$$

경로 손실(PLi,k)은 기본 경로 손실(PLb), 대기 가스 에 의한 감쇠(PLg)와 전리층 또는 대류권 난류에 의한 감쇠(PLs), 도시 빌딩에 의한 감쇠(PLe)로 정의되며, PLb는 수식 (3)과 같이 정의된다.

(3)
[TeX:] $$\begin{equation} P L_b=F S P L_{i, k}+S F+C L. \end{equation}$$

PLb는 free-space-path-loss(FSPLi,k), shadow fad- ing(SF), 그리고 clutter loss(CL)의 관계로 표현되며 특히, FSPLi,k는 지상 UE와 LEO 위성까지의 거리 (d), 주파수(fc)로 수식 (4)와 같이 정의한다.

(4)
[TeX:] $$\begin{equation} F S P L_{i, k}=32.45+20 \log _{10}\left(f_c\right)+20 \log _{10}(d). \end{equation}$$

본 논문에서는 3GPP 표준 문서의 시골 시나리오에 서의 지상 UE와 LEO 위성 간의 고도각(elevation an- gle) 기반 LoS(line-of-sight)과 NLoS(non-line of-sight)의 분포도의 SF와 CL 값을 참조하였고, 경로 손실 모델은 기본 경로 손실 모델만 고려하였다[14,15].

3.3 위성 네트워크 신호 모델

위성과 지상 UE의 수신 신호 세기와 신호 대 잡음비 (signal to noise ratio, SINR)을 계산하기 위해 3GPP 문서에 명시된 수식을 활용한다[5],[14]. 먼저 하향링크 (downlink, DL)와 상향링크(uplink, UL) 시나리오에 서 수신 신호 세기([TeX:] $$\begin{equation} P_{r x}^{i, k} \end{equation}$$)는 송신 전력([TeX:] $$\begin{equation} P_{t x}^{i, k} \end{equation}$$), 경로 손실 (PLi,k), 송신기 안테나 이득(Gtx), 수신기 안테나 이득 (Grx)으로 수식 (5)와 같이 정의한다[14].

(5)
[TeX:] $$\begin{equation} P_{r x}^{i, k}=P_{t x}^{i, k}-P L_{i, k}+G_{t x}+G_{r x}. \end{equation}$$

위성 송신 파워([TeX:] $$\begin{equation} P_{t x}^{i, k} \end{equation}$$)는 EIRPden(effective isotropi- cally radiated power density, EIRP), 위성 채널 대역 (bn), 그리고 위성 송신 안테나 이득([TeX:] $$\begin{equation} G_{t x}^{i, k} \end{equation}$$)간의 관계로 수식 (6)과 같이 정의한다.

(6)
[TeX:] $$\begin{equation} P_{t x}^{i, k}=E I R P_{\text {den }}+10 \log 10\left(b_n\right)-G_{t x}^{i, k}. \end{equation}$$

신호 대 잡음 비(signal to noise ratio, SNR)를 도출 해 내기 위해 안테나 이득 대 잡음 온도 비율(G/T)은 수신기 안테나 이득(GR), 수신기 잡음 지수(Nf), 주위 온도(ambient temperature, T0), 그리고 수신기 안테나 온도(antenna temperature, Ta)의 관계로 수식(7)과 같 이 정의한다.

(7)
[TeX:] $$\begin{equation} \begin{aligned} & G / T=G_R-N_f \\ & -10 \log _{10}\left(T_0+\left(T_a-T_0\right) 10^{-0.1 N_f}\right). \end{aligned} \end{equation}$$

위 정의된 파라미터를 기반으로 SNR은 ERIP, G/T, 볼츠만 상수(k), 자유 공간 경로 손실(FSPL),

그림 3.

LSTM 구조
3.png

그리고 위성 채널 대역폭 (B)으로 수식 (8)과 같이 정의 한다.

(8)
[TeX:] $$\begin{equation} S N R=E I R P+G / T-k-F S P L-B \end{equation}$$

신호 대 간섭 비(signal to interference ratio, SIR)은 현재 단말의 수신 신호 세기([TeX:] $$\begin{equation} P_{r x}^{i, k} \end{equation}$$)와 간섭 신호의 총합 ([TeX:] $$\begin{equation} \sum_{i, k=1}^{I, K} P_{r x}^{i, k} \end{equation}$$)의 비율로 수식 (9)와 같이 정의한다.

(9)
[TeX:] $$\begin{equation} S I R=\frac{P_{r x}^{i, k}}{\sum_{i, k=1}^{I, K} P_{r x}^{i, k}} \end{equation}$$

따라서, 최종적으로 본 논문의 주요 성능 지표인 SINR 은 SIR과 SNR의 관계로 수식 (10)과 같이 정의한다.

(10)
[TeX:] $$\begin{equation} S I N R=-10 \log _{10}\left(10^{-0.1 S N R}+10^{-0.1 S I R}\right) \end{equation}$$

Ⅳ. 단말 이동성 및 수신신호 세기 예측 기법

4.1 LSTM

LSTM은 시간 연속성 특성을 가진 시계열 데이터를 처리하는데 효과적인 딥러닝 모델이다. LSTM은 기존 의 RNN이 가지는 기울기 소실 문제를 해결하기 위해 게이트 메커니즘을 도입하였다. 이를 통해 데이터의 단 기 및 장기적인 변화에 대하여 더 중요한 정보를 학습하 고 기억한다. 그림 3은 LSTM 구조를 나타낸다.

(11)
[TeX:] $$\begin{equation} i_t=\sigma\left(W_i\left[h_{t-1}, x_t\right]+b_i\right), \end{equation}$$

(12)
[TeX:] $$\begin{equation} f_t=\sigma\left(W_f\left[h_{t-1}, x_t\right]+b_f\right), \end{equation}$$

그림 4.

RSRP 예측 LSTM 모델 구조도
4.png

(13)
[TeX:] $$\begin{equation} o_t=\sigma\left(W_o\left[h_{t-1}, x_t\right]+b_o\right), \end{equation}$$

(14)
[TeX:] $$\begin{equation} \widetilde{c_t}=\tanh \left(W_c\left[h_{t-1}, x_t\right]+b_c\right), \end{equation}$$

(15)
[TeX:] $$\begin{equation} c_t=f_t * c_{t-1}+i_t * \tilde{c_t}, \end{equation}$$

(16)
[TeX:] $$\begin{equation} h_t=o_t * \tanh \left(c_t\right). \end{equation}$$

LSTM에서 각 게이트는 활성화 함수를 통하여 정보 를 얼마나 반영할지 결정한다. 수식 (11)의 입력 게이트 it는 이전 시점 은닉 상태 ht-1와 현재 입력 xt에 대해 서 입력 게이트의 가중치 Wi와 입력 게이트 편향 bi을 기반으로 현재 입력 정보의 셀 상태 반영 정도를 결정한 다. 수식 (12)의 망각 게이트 ft는 이전 은닉 상태 ht-1 와 현재 입력 xt에 대해서 망각 게이트의 가중치 Wf와 편향 bf를 통해 이전 셀 상태에서 제거할 정보를 결정한 다. 수식 (13)의 출력 게이트 ot는 이전 은닉 상태 ht-1 와 현재 입력 xt에 대해 출력 게이트의 가중치 Wo와 편향 bo를 통하여 다음 시점 은닉 상태를 결정한다. 마 지막으로, 시점 t에서의 출력 ht는 수식 (14)와 (15)를 기반으로 수식(16)을 통해 결정된다[17]. 수식 (14)의 후 보 셀 상태 [TeX:] $$\begin{equation} \tilde{c_t} \end{equation}$$는 이전 은닉 상태 ht-1와 현재 입력 xt에 대하여 후보 셀 상태의 가중치 Wc와 편향 bc을 통해 입력 게이트를 통해 새로 추가될 정보를 계산한다. 수식 (15)의 현재 셀 상태 ct는 망각 게이트 ft와 이전 시점 셀 상태 ct-1를 통해 이전 셀 상태의 유지 비율을 반영 하고, 입력 게이트 it와 후보 셀 상태 [TeX:] $$\begin{equation} \tilde{c_t} \end{equation}$$를 통해 새로운 정보 반영 비율을 결정한다. 수식 (16)의 은닉 상태 ht 는 출력 게이트 ot와 현재 셀 상태 ct를 통해 계산되며, 이는 다음 시점으로 전달된다.

그림 5.

제안하는 CNN-LSTM 모델 구조도
5.png

시계열 데이터의 장기적 의존성을 학습하는 LSTM 모델은 각 위성에 대한 단말의 시간에 따른 수신 신호 세기 변화를 학습하기에 적합하다. 그림 4는 단말 이동 성에 따른 위성의 수신 신호 세기 예측을 위한 LSTM 모델 구조이다. 위성과 단말의 위치 정보와 이때 단말의 수신 신호 세기 정보에 대한 시계열 데이터를 입력으로 받아 다음 시점에서 단말의 수신 신호 세기를 예측한다.

4.2 CNN-LSTM

LSTM 모델은 시계열 데이터 예측에 효과적이지만, 연속적으로 긴 시퀀스 모델 학습 과정에서 새로운 데이 터에 대한 학습 성능이 좋지 않다. 또한 CNN과 비교하 여 LSTM은 주어진 입력에서 가장 영향력 있는 feature 를 추출하는 능력이 부족하다. CNN은 예측 성능이 약 하지만, 시계열 데이터 분류에서 서로 다른 신호를 연관 시키는 능력이 강하다[18]. 이에 이동성이 큰 저 궤도 위 성 네트워크에서 단말 이동성에 따른 수신신호를 예측 하는데 예측 성능을 향상하기 위해 CNN-LSTM 기반 수신 신호 세기 예측 모델을 제안한다. 그림 5와 같이, 제안하는 CNN-LSTM 기법은 convolution layer를 추 가하여 각 입력 특징에 대한 관계를 반영하여 LSTM layer에서 입력된 시계열 데이터에 대한 관계를 학습하 고 다음 time step에서 단말이 수신할 수신 신호 세기를 예측한다[19].

4.3 단말 이동성 및 수신 신호 세기 예측 시스템 모델

그림 6.

네트워크시나리오
6.png

그림 7.

제안하는 RSRP 예측 모델 구조
7.png

제안하는 CNN-LSTM을 통해 UE의 이동성 예측 데 이터와, 위성 위치에 따른 UE 수신 신호 세기 데이터를 산출하기 위해 본 논문에서는 그림 6과 같은 서로 다른 고도 및 궤도를 가진 저 궤도 위성군 환경을 가정한다. 각 위성은 global navigation satellite system (GNSS) 기능을 탑재하여 각 위성에 대한 위치 데이터를 주기적 으로 지상 단말에 전송한다. 또한 위성의 위치 및 속도 데이터를 통해서 단말에 대한 위성의 LoS remain-time 을 계산할 수 있다. 그림 7과 같은 절차를 기반으로 지 상 단말은 자신과 각 위성의 위치 정보와 수신 신호 세기, 계산한 각 위성의 LoS remain-time을 기반으로 각 위성에 대한 수신 신호 세기를 예측한다.

Ⅴ. 심층 강화학습 기반 핸드오버 최적화 기법

5.1 A3 핸드오버 기법

NTN에서 지상 UE는 지속적인 서비스를 유지하기 위해서는 LEO의 빠른 이동성을 고려하여 적절한 시점 에 핸드오버를 수행하는 것이 중요하다. 주로 활용되는 핸드오버 이벤트인 A3 event는 target cell의 수신 신호 세기가(ut) 현재 서비스 중인 UE의 수신 신호 세기(us) 와 handover margin(HOM)의 합보다 초과할 시 서비 스 기지국이 핸드오버가 발생 되는 기준으로서 이는 수 식(17)로 정의한다.

(17)
[TeX:] $$\begin{equation} u_t>u_s+\text { HOM } . \end{equation}$$

그림 8.

DQN 알고리즘 구조도
8.png
5.2 Deep Q-Network 기법

일반적인 심층 강화학습의 목표는 주어진 환경에서 강화학습 에이전트가 현재 상태(st) 공간에서 행동(at) 을 통해 보상(rt)을 최대화하는 정책(π)을 학습을 진행 하는 것이 주된 목표다. DQN은 벨만 방정식을 기반으 로 현재 상태에서 특정 행동을 수행하여 획득한 Q값을 최대화하는 Q-learning의 성능을 개선하기 위한 기법이 다. DQN은 특정 상태에서의 행동 가치 함수 [TeX:] $$\begin{equation} Q^\pi\left(s_t, a_t\right)=E_{s, a, \pi}\left[\sum_{i=t}^T r^{i-t} r_i\right] \end{equation}$$ 를 최대화하는 방향으로 학습을 진행한다. DQN의 주된 특징은, replay memory 에 저장된 experience replay sample을 Q-network와 target network의 입력값이 되어 학습의 안정성을 향상 하고, 손실 함수(L) 값을 최소화하는 행동을 선택할 수 있게 주기적으로 Q-network를 복제하여 생성되는 tar- get network 구조를 통해 지나치게 급격한 업데이트를 방지하며, 빠른 학습이 가능한 것이 주된 특징이다. Replay buffer에 저장된 샘플을 활용하게 되면 데이터 효율성이 증가하고, 데이터 간의 상관성이 제거되며, 안 정적이고 균등한 학습이 가능하다. Target network를 형성하는 기준 값인 target value는 수식 (18)와 같으며, 에이전트의 행동 값에 따른 DQN의 손실 함수 (L)는 수 식 (19)로 정의한다.

(18)
[TeX:] $$\begin{equation} Y_t=r_t+\gamma {\max}_{a^{\prime}} Q\left(s_{t+1}, a^{\prime} ; \theta\right), \end{equation}$$

(19)
[TeX:] $$\begin{equation} L=\left(Y_t-Q\left(s_t, a_t ; \theta\right)\right)^2 \end{equation}$$

그림 9.

제안하는 LSTM-DQN 융합 최적화 기법
9.png

DQN의 알고리즘 절차는 환경 초기화, 현재 st에서 입실론 그리디 정책을 사용한 행동 at를 선택하고 , 보상 rt와 다음 상태 st+1를 관찰한다. 이후, [TeX:] $$$$ 를 replay buffer에 저장하고 해당 buffer에서 mini-batch를 샘플링하여 Q-network를 학습한다. 손실 함수(L) 값을 계산하고 이를 기반으로 네트워크 파라 미터(θ)를 업데이트 하며, 주기적으로 target network 를 형성하는 방식으로 진행되며 알고리즘 개요도는 그 림 8과 같다.

5.3 제안하는 이동성 예측 딥러닝 모델 기반 핸 드오버 강화학습 융합 기법

본 논문에서는 , 5.1 절에서 정의한 A3 핸드오버 기법 을 기반으로 지상 UE 에이전트가 최적의 시점에 핸드 오버를 수행하여 에이전트의 수신 신호 세기를 최대화 하는 스케줄링 문제를 강화학습 DQN 알고리즘으로 최 적화하는 것을 목표로 그림 9와 같이 제안한다[19]. UE 가 LEO의 이동성에 따른 수신 신호 세기를 최대화하기 위해 제안하는 DQN 기법에서 마르코프 결정 프로세스 (Markov decision process, MDP)의 상태, 행동, 보상에 관한 정의는 다음과 같이 표현한다.

1) 상태(states): [TeX:] $$\begin{equation} s_t^{i, k}=\left[s_d^{i, k}, s_e^{i, k}, s_g^{i, k}, s_r^{i, k}\right] \end{equation}$$로 정의한다. UE 와 각 LEO 까지의 거리([TeX:] $$\begin{equation} s_d^{i, k} \end{equation}$$), UE와 LEO 간 ele- vation angle([TeX:] $$\begin{equation} s_e^{i, k} \end{equation}$$), UE의 수신 신호 세기([TeX:] $$\begin{equation} s_g^{i, k} \end{equation}$$), 그리 고 UE의 signal-to-interference-plus-noise 적으로 정보를 수집할 수 있도록 한다. 특히, UE가 LEO를 선택하는 과정에서 [TeX:] $$\begin{equation} s_e^{i, k} \end{equation}$$의 값이 최소 30° ratio (SINR) 값([TeX:] $$\begin{equation} s_r^{i, k} \end{equation}$$)으로 설정하여 에이전트가 지속 조건을 만족해야 핸드오버가 가능한 LEO로 분류하 였다.

그림 10.

제안하는 시스템 모델
10.png

Table 1.

3GPP 시스템 레벨 시뮬레이션 파라미터
Parameter Value
Satellite type & altitude LEO 600 km
Satellite DL frequency Ka-band(20 GHz)
Satellite EIRPdensity 4 dBW
Satellite tx max gain 58.5 dBi
Satellite beam diameter 20 km
UE characteristics VSAT
UE rx antenna gain 39.7 dBi
UE noise figure 1.2 dB
T0, Ta 290 K, 150 K

2) 행동(actions): [TeX:] $$\begin{equation} a_t^{i, k}=\left[a_m^{i, k}, a_h^{i, k}\right] \end{equation}$$으로 정의한다. UE가 서비스 받을 LEO를 선택하는 스케줄링 관점에서 UE의 action([TeX:] $$\begin{equation} a_t^{i, k} \end{equation}$$)으로는 현재 시점에서 서비스 중 인 LEO 신호 세기([TeX:] $$\begin{equation} {s}_g^{i, k} \end{equation}$$)가 좋으면 지속적으로 연결 을 유지하는 행동([TeX:] $$\begin{equation} a_m^{i, k} \end{equation}$$), se의 각도가 최소 각도 30° 를 만족하여 연결 가능 후보 위성 중에서 핸드오버 조건 수식(1)을 동시에 만족하여 핸드오버를 수행 하는 행동([TeX:] $$\begin{equation} a_h^{i, h} \end{equation}$$)으로 정의한다.

3) 보상(rewards): 본 논문에서 제시하는 심층 강화학습 기반 핸드오버 기법의 목표로 단말의 이동성 예측에 기반한 최적 시점의 핸드오버를 수행하는 것이 목표 인 것을 고려하여, UE 에이전트의 수신 신호 세기 (sg)및 데이터 전송 속도(wt)가 개선되는 방향으로 설계하였다. wt는 채널 대역폭(B), 현재 기지국에 엑세스 되어 있는 UE의 수(Nt), 그리고 sr간의 관계 로 수식(20)과 같이 정의한다.

Table 2.

LSTM 모델 학습 파라미터
Parameter Value
Input Feature 8
Hidden Parameter 2 0
LSTM Layer 6
CNN Layer 1
Learning Rate 0.001
Batch Size 64
DropoutRate 0.2
Time Step 0.1
Data Window 20

Table 3.

CNN-LSTM 모델 학습 파라미터
Parameter Value
Input Feature 8
Hidden Parameter 2 0
LSTM Layer 6
CNN Layer 1
Learning Rate 0.001
Batch Size 64
DropoutRate 0.2
Time Step 0.1
Data Window 20

(20)
[TeX:] $$\begin{equation} \omega_t=\left(\frac{B}{N_t}\right) \times \log _2\left(1+s_r^{i, k}\right) \end{equation}$$

UE 에이전트가 지속적으로 LEO로부터 서비스를 제공받을 수 있도록 서비스 지속 시간([TeX:] $$\begin{equation} \varphi_t^{i, k} \end{equation}$$)보상과,빈 번한 핸드오버 발생을 방지하기 위해 핸드오버 비용을 부가하여 에이전트가 최적의 타이밍에 핸드오버를 수 행하여 데이터 전송 시간, 수신 신호 세기를 확보하고 서비스 지속 시간을 증가할 수 있도록 보상을 수식(21) 로 정의한다.

(21)
[TeX:] $$\begin{equation} \begin{cases}\omega_t+\eta \varphi_t^{i, k} & \text { if } a_t=a_m, \\ \omega_t+\eta \varphi_t^{i, k}-C & \text { if } a_t=a_h.\end{cases} \end{equation}$$

핸드오버 비용(C)은 에이전트의 액션이 핸드오버를 수 행하였을 때만 부가하도록 하였고, 가중치 요소(η)를 설정하여 데이터 전송 속도와 서비스 제공 시간을 적절 히 조절하였다. 에이전트가 핸드오버 수행하는 액션 (ah)을 많이 수행하면 할수록 핸드오버 비용의 패널티 로 인해, 획득하는 보상은 감소하게 된다. 따라서, 서비 스 중인 serving cell과 target cell이 영역이 혼재하는 위치에 있는 상황에서, UE 에이전트는 학습 시 얻는 패널티 보상 C를 기반으로 더욱 최적화된 타이밍에 target cell 혹은 위성으로 핸드오버를 수행하도록 설계 하였다.

Ⅵ. 시뮬레이션 결과

6.1 시뮬레이션 환경

본 논문에서 제안하는 단말 이동성 예측 데이터 기반 강화학습 시스템 모델은 그 림 10과 같다 . 지상 UE 에이 전트 위로 각기 다른 LEO 위성 궤도가 존재하며, 시계 열적 위성 궤도 데이터를 기반으로 서로 다른 궤도로 LEO 위성 시나리오에서 RSRP 예측 딥러닝 학습을 진 행하였다. UE는 학습이 수행되는 스텝마다 LSTM 네 트워크를 통과한 위성 궤도 데이터를 수신하며, UE는 자신의 이동성 데이터를 교환하는 방식을 수행한다. 강 화학습 UE 에이전트는 RSRP 예측 데이터를 입력값으 로 받고, 후보 LEO 위성 중, 수식 (17) 조건을 만족할 때 핸드오버 수행을 결정하며, 빈번한 핸드오버가 발생 하지 않도록 핸드오버 발생 시 부과되는 패널 티 를 달리 하면서 실험을 진행하였다. LEO와 에이전트 사이 채널 모델링은 모두 3GPP 표준에 기반하여 설계하였고, 해 당 파라미터는 표 1과 같다. 제안하는 기법은 python 환경에서 진행하였으며, 상세 학습 하드웨어 스펙은 Intel core i7-13700KF, RAM 64GB, NVIDIA GeForece RTX 4060 Ti 환경에서 진행하였다.

6.2 단말 수신신호세기 예측 기술 결과

그림 11.

RSRP 예측 오차 누적 분포 함수
11.png

단말과 위성의 이동에 따른 단말의 수신 신호 세기 예측을 위한 LSTM 모델의 학습 파라미터는 표 2에, CNN-LSTM 모델의 학습 파라미터는 표 3에 나타내었 다. 시뮬레이션 시간 간격은 0.1초로 설정하였으며, 데 이터 윈도우 크기는 20으로 설정하였다. 따라서 제안하 는 모델은 20초 동안의 위성 및 단말의 위치 정보를 기반으로 향후 위성에 대한 단말의 RSRP를 예측한다. 그림 11은 각 모델의 위성에 대한 단말 RSRP 예측 오 차값의 누적분포 함수를 나타낸다. 기존의 LSTM 모델 은 넓은 오차 범위를 보이며, 이는 LSTM 모델의 데이 터에 대한 학습 과정에서의 불안정성을 나타낸다. 반면, 제안하는 CNN-LSTM 모델의 RSRP 예측 오차값의 약 80%가 25dBm 이하로, 매우 높은 예측 정확도를 보인 다. 특히, RSRP는 노이즈 및 쉐도잉으로 인해 짧은 시 간에 큰 값의 변화를 보일 수 있음에도 불구하고, CNN-LSTM 모델은 이를 효과적으로 학습하여 높은 예측 정확도를 나타낸다.

그림 12.

RSRP 예측값과 실제값
12.png

그림 12는 실제 RSRP 값과 예측된 RSRP 값을 나타 낸 것이다. 위성의 이동에 따른 RSRP 변화양상을 비교 해 보았을 때, 기존의 LSTM 모델은 위성의 이동에 따른 RSRP 변화양상을 학습하지 못하고 일직선 형태의 RSRP 예측값을 보인다. 반면에 CNN-LSTM 모델은 데이터의 공간적 특성 및 시간적 특성을 효과적으로 학 습하여 위성의 이동에 따른 RSRP 변화양상을 정확히 예측한다. 이는 CNN-LSTM 모델이 핸드오버를 결정 하는데 있어 신뢰성 있는 RSRP 예측값을 제공할 수 있음을 나타낸다. 따라서 제안하는 CNN-LSTM 모델 이 핸드오버 최적화를 위한 단말 및 위성의 이동성을 반영한 RSRP 예측 모델에 대한 적합성을 확인하였다.

Table 4.

강화학습 파라미터
Parameter Value
Batch size 32
Learning rate 0.001
Discountfactor 0.98
Replay buffer size 50,000

그림 13.

강화학습 보상 수렴도
13.png

그림 14.

UE 에이전트 수신 RSRP
14.png

그림 15.

UE 에이전트 수신 SINR
15.png
6.3 이동성 예측 데이터 기반 강화학습 핸드오버 최적화 결과

핸드오버 최적화 기법을 도출하기 위한 강화학습 기 법의 학습 파라미터는 표 4를 활용하였다. UE 에이전트 는 현재 서비스 중인 서빙 위성과 핸드오버를 진행한 타겟 위성 간 최적 타이밍의 핸드오버를 수행함으로써, 를 최대화하는 방향으로 학습을 진행하였고, 수식 (20)의 값의 범위를 0~1 사이로 선형화하여 안정적으로 학습하도록 하였다. 강화학습 핸드오버 최적화 기법의 성능 평가를 위해 reward 구성 요소 중 handover cost에 따른 강화학습 모델의 성능 분석을 진행하였으며, 성능 분석 결과는 그림 13과 같다. 그림 13과 같이, handover cost가 0일 경우 잦은 핸드오버가 발생할 가능성이 크 기 때문에, 가장 수렴이 늦게 되는 경향을 확인할 수 있었다. 더하여, handover cost를 지나치게 부여한 경우 보다, 적당한 handover cost를 부여했을 경우, 다른 cost 에 비해 가장 빨리 수렴한 것을 확인할 수 있다. Handover cost에 따른 보상 함수 수렴도 결과에 따른 지상 UE agent의 수신 신호 세기 결과는 그림 14과 같다. 학습 결과, 적당한 handover cost를 부여한 경우 의 agent 수신 신호 세기가 가장 빠르게 수렴하는 경향 을 확인했다. 더하여 에피소드가 진행되는 동안 수신신 호세기가 일정 경향 수렴되는 이유는 정해진 학습 epi- sode 동안 동일 위성의 예측 위치 데이터를 활용하여 학습하기 때문인 것으로 파악된다. 이에, RSRP가 일정 수렴하는 경향은 최적의 타이밍에 타겟 LEO 위성에 핸드오버를 수행하여 도출되었다고 할 수 있다. 그림 15는 수식 (8), (9), (10)을 통해 계산된 UE 에이전트의 SINR 결과 그래 프 이다 그림 14와 같이 그림 15의 결과 그래프도 마찬가지로, 수렴하는 경향이 보인다는 것은 최적의 타이밍에 핸드오버를 수행하였기 때문인 것으 로 유추할 수 있다. 더불어, NTN LEO 네트워크에서는 SINR 값이 – 8 dB 이하로 측정된 값은 무선 링크 실패 (radio link failure, RLF)로 간주한다[20]. 그러나, 제안 하는 DQN 기반 강화학습 핸드오버 최적화 기법은 해 당 범위에 크게 상위하는 값인 13 dB에 수렴하는 것을 보아 UE 에이전트가 최적의 타이밍에 핸드오버를 수행 하여 수신 신호 세기 및 데이터 전송률을 극대화하는 제안하는 강화학습 기법의 강건성을 확인할 수 있다.

Ⅶ. 결 론

본 논문에서는 LEO의 빠른 이동성과 지상 단말의 움직임에 따른 신호 세기 예측 데이터를 LSTM 네트워 크를 통해 예측하고, 예측 데이터를 기반한 핸드오버 최적화 강화학습 기법을 제안하였다. 먼저, 제안하는 CNN-LSTM 모델은 위성의 이동에 따른 단말의 수신 신호 세기 변화양상을 예측 성공률이 높은 것을 확인했 고, 이를 통해 추출된 예측 데이터를 강화학습 상태 입 력값에 반영하여, 빠르고 정확한 타이밍에 핸드오버를 발생할 수 있도록 하였다. 성능 분석 결과, 적정선의 핸드오버 비용을 추가한 보상 함수 설계를 통해 핸드오 버 최적화 강화학습 모델을 추출하였다.

제안하는 기법을 통해 향후 정지궤도 위성과 저궤도 위성이 혼재하는 시나리오에서 서로 다른 주파수 대역 을 사용하는 시나리오에서 핸드오버 이슈, 천음속 급 이동체의 무작위 이동성으로 인한 핸드오버 이슈가 존 재하는 상황에서 최적 핸드오버 연구를 멀티 에이전트 심층 강화학습 기법을 적용하는 방향으로 확장한다.

Biography

김 준 영 (Junyoung Kim)

2023년 2월: 한림대학교 소프트웨어학부 학사

2023년 3월~현재: 아주대학교 AI융합네트워크학과 석사과정

<관심분야> 모빌리티, 자율주행, 저궤도 위성통신, 인공지능

Biography

장 희 연 (Huiyeon Jang)

2023년 8월 : 아주대학교 전자 공학과 학사

2023년 9월~현재 : 아주대학교 AI융합네트워크학과 석사과정

<관심분야> 저궤도 위성통신 시스템, 이동통신

Biography

조 인 섭 (In-Sop Cho)

2011년 2월 : 고려대학교 전파 통신공학과 학사

2021년 2월 : 고려대학교 컴퓨 터·전파통신공학과 박사

2021년 3월~2021년 12월 : 한 국전력공사 전력연구원 선임 연구원

2022년 1월~현재 : 한국전자통신연구원 선임연구원

<관심분야> 위성통신시스템, 네트워크 최적화

Biography

신 민 수 (Minsu Shin)

2000년 8월 : 한국항공대학교 항 공전자공학과 석사

2011년 8월 : 충남대학교 정보통 신공학과 박사

2000년 8월~현재 : 한국전자통 신연구원 책임연구원

<관심분야> 위성통신시스템, 위성통신네트워크, 저궤 도위성통신

Biography

정 소 이 (Soyi Jung)

2013년 2월 : 아주대학교 전자 공학과 학사

2015년 2월 : 아주대학교 전자 공학과 석사

2021년 2월 : 아주대학교 전자 공학과 박사

2021년 3월~2021년 8월 : 고려 대학교 정보통신기술연구소 연구교수

2021년 3월~2022년 8월 : 한림대학교 소프트웨어학 부 조교수

2021년 9월~2022년 8월 : University of California at Irvine 방문교수

2022년 9월~현재 : 아주대학교 전자공학과 조교수

<관심분야> 모빌리티, 자율주행, 이동통신, 저궤도 위성통신, 인공지능

References

  • 1 Starlink, Sep. 2021, (Online) Available: https:// www.starlink.com.custom:[[[https://www.starlink.com]]]
  • 2 A. Roy, H. B. Nemade, and R. Bhattacharjee, "Symmetry chirp modulation waveform design for LEO satellite IoT communication," IEEE Commun. Lett., vol. 23, no. 10, pp. 18361839, Oct. 2019. (https://doi.org/10.1109/LCOMM.2019.293321 1)doi:[[[10.1109/LCOMM.2019.2933211]]]
  • 3 C. Han, L. Huo, X. Tong, H. Wang, and X. Liu, "Spatial anti-jamming scheme for Internet of satellites based on the deep reinforcement learning and stackelberg game," IEEE Trans. Veh. Technol., vol. 69, no. 5, pp. 5331-5342, May 2020. (https://doi.org/10.1109/TVT.2020.2982672)doi:[[[10.1109/TVT.2020.2982672]]]
  • 4 S. Zhang, A. Liu, C. Han, X. Ding, and X. Liang, "A network-flows-based satellite handover strategy for LEO satellite networks," IEEE Wireless Communi. Lett., vol. 10, no. 12, pp. 2669-2673, Dec. 2021. (https://doi.org/10.1109/LWC.2021.3111680)doi:[[[10.1109/LWC.2021.3111680]]]
  • 5 3GPP TR 38.821 v16.1.0, "Solutions for NR to support non-terrestrial networks(NTN) (Release 16)," 3rd Generation Partnership (3GPP), Technical Report 38.821, May 2021. (https://portal.3gpp.org/)custom:[[[https://portal.3gpp.org/)]]]
  • 6 H. Lee and J. Kim, "Survey on deep reinforcement learning applied for LEO satellites," J. KICS, vol. 48, no. 2, pp. 196205, Feb. 2023. (https://doi.org/10.7840/kics.2023.48.2.196)doi:[[[10.7840/kics.2023.48.2.196]]]
  • 7 H. Li, Y. Liu, J. Shi, Y. Zhou, R. Zhuo, and S. Li, "Multimodal LSTM forecasting for LEO satellite communication terminal access," in Proc. 2023 IEEE 97th VTC2023-Spring, Florence, Italy, 2023. (https://doi.org/10.1109/VTC2023-Spring5761 8.2023.10199836)doi:[[[10.1109/VTC2023-Spring57618.2023.10199836]]]
  • 8 G.-Y. Chang, C. K. Hung, and C.-H. Chen, "A CSI prediction scheme for satelliteterrestrial networks," IEEE Internet of Things J., vol. 10, no. 9, May 2023. 739 (https://doi.org/10.1109/JIOT.2022.3229683)doi:[[[10.1109/JIOT.2022.3229683]]]
  • 9 J. Lee, C. Park, S. Park, and A. Molish, "Handover protocol learning for LEO satellite networks: Access delay and collision minimization," IEEE Trans. Wireless Commun., vol. 23, no. 7, pp. 7624-7637, Jul. 2024. (https://doi.org/10.1109/TWC.2023.3342975)doi:[[[10.1109/TWC.2023.3342975]]]
  • 10 N. Badini, M. Jaber, M. Marchese and F. Patrone, "User centric satellite handover for multiple traffic profiles using deep Q-learning," IEEE Trans. Aerospace and Electr. Syst., Early Access. (https://doi.org/10.1109/TAES.2024.3434771)doi:[[[10.1109/TAES.2024.3434771]]]
  • 11 F. Yang, W. Wu, Y. Gao, Y. Sun, T. Sun, and P. Si, "Multi-agent fingerprints-enhanced distributed intelligent handover algorithm in LEO satellite networks," IEEE Trans. Veh. Technol., vol. 73, no. 10, pp. 15255-15269, Oct. 2024. (https://doi.org/10.1109/TVT.2024.3412287)doi:[[[10.1109/TVT.2024.3412287]]]
  • 12 N. Badini, M. Jaber, M. Marchese, and F. Patrone, "Reinforcement learning-based load balancing satellite handover using NS-3," in Proc. IEEE ICC, Rome, Italy, 2023. (https://doi.org/10.1109/ICC45041.2023.102795 21)doi:[[[10.1109/ICC45041.2023.10279521]]]
  • 13 Y. Cao, S. Lien, and Y. C. Liang, "Deep reinforcement learning for multi-user access control in non-terrestrial networks," IEEE Trans. Commun., vol. 69, no. 3, Mar. 2021. (https://doi.org/10.1109/TCOMM.2020.304134 7)doi:[[[10.1109/TCOMM.2020.3041347]]]
  • 14 3GPP TR 38.811 v 15.4.0, "Study on new radio(NR) to support non-terrestrial networks (Release 15)," 3rd Generation Partnership (3GPP), Technical Report 38.811, Sep. 2020. (https://portal.3gpp.org/)custom:[[[https://portal.3gpp.org/)]]]
  • 15 B. Lee, N. Lee, J.-H. Kim, and W. Shin, "A survey of LEO satellite networks for 5G and beyond: Channel modeling, research trends, and open challenges," J. KICS, vol. 46, no. 7, pp. 1097-1108, Jul. 2021. (https://doi.org/10.7840/kics.2021.46.7.1097)doi:[[[10.7840/kics.2021.46.7.1097]]]
  • 16 3GPP TR 38.863 v 18.2.0, "Non-terrestrial networks(NTN) related RF and co-existence aspects(Release 18)," 3rd Generation Partnership(3GPP), Technical Report 38.864, Jun. 2024. (https://portal.3gpp.org/)custom:[[[https://portal.3gpp.org/)]]]
  • 17 K. Greff, R. K. Srivastava, J. Koutnik, B. R. Steunebrink, and J. Schmidhuber, "LSTM: A search space odyssey," IEEE Trans. Neural Netw. and Learn. Syst., vol. 28, no. 10, pp. 2222-2232, Oct. 2017. (https://doi.org/10.1109/TNNLS.2016.2582924)doi:[[[10.1109/TNNLS.2016.2582924]]]
  • 18 J. Wang, Y. Chen, S. Hao, X. Peng, and L. Hu, "Deep learning for sensor-based activity recognition: A survey," Pattern Recognition Lett., vol. 119, pp. 3-11, Mar. 2019. (https://doi.org/10.1016/j.patrec.2018.02.010)doi:[[[10.1016/j.patrec.2018.02.010]]]
  • 19 M. Alhussein, K. Aurangzeb and S. I. Haider, "Hybrid CNN-LSTM model for short-term individual household load forecasting," IEEE Access, vol. 8, pp. 180544-180557, Oct. 2020. (https://doi.org/10.1109/ACCESS.2020.302828 1)doi:[[[10.1109/ACCESS.2020.3028281]]]
  • 20 3GPP TR 36.839 v11.1.0. "Evolved universal terrestrial radio access(E-UTRA):Mobility enhancements in heterogeneous networks (Release 11)," 3rd Generation Partnership (3GPP), Technical Report 36.839, Dec. 2012. (https://portal.3gpp.org/)custom:[[[https://portal.3gpp.org/)]]]

Statistics


Related Articles

3GPP LTE 시스템에서 기지국 구성 자동 설정 동작을 위한 하드 핸드오버 알고리즘
D. W. Lee, K. Hyun, D. Kim
NTN에서 조건부 핸드오버 실패율 감소를 위한 최적의 저궤도 위성 선정 알고리즘
K. Seo, J. Kwon, H. Baek
심층 강화학습 기반 하이브리드 액션을 이용한 자율주행 차량의 고속도로 주행 판단 연구
S. Kim, K. Shin, J. Jeon, J. Bang, J. Kim, S. Jung
PMIPv6(Proxy Mobile IPv6)에서 고속핸드오버를 이용한 Packet bicasting기법
J. Lee and S. Lee
장애물과 신호등을 고려한 디지털 가상환경 모델 구현 및 심층강화학습기반 다차선 자율주행 연구
J. Lee and S. Yoo
Joint Application and Physical-Layer Design for IPTV Services over WiFi Network
C. Ahn, J. Noh, S. Lee, D. Song
고속열차에서 다중 셀룰러 망을 이용한 MPTCP를 위한 선제적 핸드오버 인지 패킷 스케줄링
M. Kim, E. Kim, S. J. Kang, Y. Cho
실용적 강화학습 기술 동향: 모방학습부터 오프라인 강화학습까지
D. Lee, C. Eom, S. Choi, S. Kim, M. Kwon
Optimal Power Allocation and Sub-Optimal Channel Assignment for Downlink NOMA Systems Using Deep Reinforcement Learning
W. Kim, J. Lee, S. Kim, T. An, W. Lee, D. Kim, K. Shin
어뢰위협 회피를 위한 강화학습 기반 기만 전술
J. Chung, G. S. Kim, S. Park, J. Kim, W. Yun

Cite this article

IEEE Style
J. Kim, H. Jang, I. Cho, M. Shin, S. Jung, "Terminal Mobility Prediction for Deep Reinforcement Learning-Based Handover Optimization in Non-Terrestrial Networks," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 5, pp. 728-740, 2025. DOI: 10.7840/kics.2025.50.5.728.


ACM Style
Junyoung Kim, Huiyeon Jang, In-Sop Cho, Minsu Shin, and Soyi Jung. 2025. Terminal Mobility Prediction for Deep Reinforcement Learning-Based Handover Optimization in Non-Terrestrial Networks. The Journal of Korean Institute of Communications and Information Sciences, 50, 5, (2025), 728-740. DOI: 10.7840/kics.2025.50.5.728.


KICS Style
Junyoung Kim, Huiyeon Jang, In-Sop Cho, Minsu Shin, Soyi Jung, "Terminal Mobility Prediction for Deep Reinforcement Learning-Based Handover Optimization in Non-Terrestrial Networks," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 5, pp. 728-740, 5. 2025. (https://doi.org/10.7840/kics.2025.50.5.728)