Sohee Yoo♦ , Gyuwon Hwang* and Jaehyun Yoo°Detection of Psychological Risk for Protected Individuals by Using PPG Signals from SmartwatchAbstract: This paper proposes a machine learning approach to detect dangerous emition using short-term PPG (Photoplethysmogram) signals from a commercial smartwatch. In supervised learning, having accurately annotated training data is essential. However, a key challenge in emition detection problem is the uncertainty regarding how accurately data labeled as ”danger” reflects actual dangerous responses, since participants may react differently to the same experiments. The main contribution of this paper is the development of a feature selection method to remove ambiguously labeled training data, thereby improving the accuracy of the prediction model. In the test, PPG measurements were collected from participants playing a horror VR (Virtual Reality) game, and the proposed method validated the superiority of our proposed approach in comparison with other methods. Keywords: Dangerous emotion detection , PPG signals , machine learning , smartwatch 유소희♦, 황규원*, 유재현°스마트워치의 PPG 신호를 이용한 신변보호 대상자의 심리적 위험 감지요 약: 본 연구에서는 스마트워치로부터 측정된 짧은 길이의 PPG 신호를 이용해 위험을 느끼는 감정을 추론하는 기계학습 모델을 제안한다. 지도학습에서는 정확하게 참 값이 기록된 학습데이터가 필요하다. 그러나, 위험 분류를 목표하는 실험에서 참가자들이 느끼는 위험의 정도 차이 때문에 학습데이터에 참 값을 기록하기 어렵다. 본 연구의핵심은 학습 데이터에서 모호하게 레이블 된 데이터를 제거하는 알고리즘을 개발하여 결과적으로 추론 모델의 정확성을 향상시키는 것이다. 학습데이터는 긍정/부정 영상 시청을 통해 수집하였고, 추론 정확도는 공포 VR 게임을수행하는 참가자들의 PPG 신호를 이용하였다. 기존의 PPG를 이용한 감정 추론 방법들과 비교를 통해 제안한 방법의 우수성을 입증하였다. 키워드: 위험감지, PPG 신호, 머신러닝, 스마트워치 Ⅰ. 서 론스마트워치는 다양한 센서 데이터를 제공하여 개인 의 건강 상태를 확인할 수 있도록 한다. 시중의 많은 스마트워치들은 생체 신호 측정에 기반하여 심박수와 스트레스 같은 기본적인 건강 상태 알림을 제공한다. 가장 흔하게 사용되는 센서는 심전도(electrocardio- gram: ECG)와 광용적맥파(Photoplethysmogram: PPG)이다. ECG 신호는 사용자가 제한적인 측정 환경 이 필요하나, PPG 신호는 특정한 조건 없이도 수동적으 로 측정할 수 있다. ECG와 PPG 신호를 이용하여 건강 상태를 측정하는 다양한 연구가 진행되어 왔다[1]. 이 연구는 보호 대상자에게 초점을 맞추어 치안 기술 을 발전시키기 위한 것으로부터 시작되었다. 스마트워 치 착용자가 심리적으로 위험에 처한 상황일 때 즉각적 으로 구조 신호를 보내는 것을 목표로 한다. 기술적으로 는 10초정도 단기간의 PPG 신호만으로도 이를 감지할 수 있도록 하는 것이다. 그러나, 주로 저비용 센서가 사용되는 스마트워치의 상업적 특성 때문에, 신호는 낮 은 주파수로 측정될 뿐 아니라 모션 아티팩트나 외부 요인에 영향을 쉽게 받기 때문에 노이즈가 발생하기 쉽 다[2]. 이러한 요인들은 고비용의 센서 장치를 사용하는 다른 감정 분류 연구들과는 차별화된다. 기계학습을 이용하여 위험 감지 문제를 해결하기 위 해 참가자들로부터 학습 데이터를 수집할 때 좋은 품질 의 데이터를 얻는 것은 중요하다. 그러나 같은 위험 상 황을 유도하는 실험에서 개개인의 반응이 전부 다르다. 어떤 참가자는 스트레스를 받을 수 있으나, 다른 참가자 는 감정의 동요가 없을 수도 있다. 이러한 가변성은 데 이터의 참값에 부정확한 라벨링을 야기하여 부정확한 추론 모델을 학습시킬 수밖에 없다. 본 연구의 핵심은 모호하게 라벨링된 학습데이터를 제거하고, 특징 데이터만을 선별하는 알고리즘을 개발 하는 것이다. 가우시안 혼합 모델(Gaussian Mixture Model:GMM)기법[3]을 사용하여 긍정 및 부정 클래스 내에서 정상과 비정상 데이터를 구분하고, 위험예 측 모델에는 1D-CNN을 사용하여 위험을 효과적으로 감 지한다. 부정/긍정 영상 시청을 통해 학습데이터를 수집하였 고, 테스트 실험은 공포 VR 게임을 통해 진행하였다. 동일한 추론 모델을 사용했을 때, 제안한 GMM 기반 특징 선택기법을 전처리 단계에서 사용하였을 때와 않 았을 때를 비교하면, 약 16%의 정확도 차이가 난다. 본 논문은 다음과 같은 순서로 기술된다. 2장에서는 원시PPG신호를 학습 가능한 형태로 변환하는 전처리 방법을 설명하고, 3장과 4장에서는 각각 제안한 특징 선별 알고리즘과 예측 모델에 대해서 기술한다. 5장에 서는 실험 결과를 분석하고, 6장은 결론을 맺는다. Ⅱ. 연구방법2.1 전처리본 연구에서는 갤럭시워치5 스마트워치에 내장된 25Hz의 녹색 PPG 신호를 사용하고, 삼성 헬스 SDK를 통해 측정된다. 신호 판독은 12초마다 이루어져, 알고 리즘은 25x12개의 시계열 측정으로 시작된다. 전처리 과정에서의 주요 목표는 그림 1에 표시된 것처럼 12초 시계열 데이터를 단일 펄스로 변환하는 동시에 품질이 낮은 신호들을 제거하는 것이다. 300개의 샘플이 포함 된 12초 데이터로부터 각 펄스가 1.1초동안 27개의 샘플로 구성된 단일 펄스를 추출한다. 12초의 데이터는 우선 주파수 대역 0.5Hz와 8Hz 범 위의 bandpass filter를 통과한다. 이 주파수 범위는 다 양한 대역 실험을 통해 선정되었는데, PPG 신호는 0.5Hz에서 5Hz까지의 주파수 대역에서 활성화 되고, 이러한 활성 주파수 대역 이외에서 발생하는 잡음의 경 우 bandpass filter로 잡음을 제거할 수 있다. 다만 여러 차례 실험을 통해 본 논문에서는 8Hz 이상의 주파수를 제거하기로 결정했다. 다음 단계는 유효한 피크를 식별하는 것이다. 유효하 지 않은 피크를 제거하는 것은 PPG 신호의 특징 추출 기법에서 일반적으로 사용되는 방식인데, 특히 모션 아 티팩트 또는 다른 외부환경 노이즈의 영향을 완화하기 위함이다[4]. 이후, 단일 펄스들이 생성되는데, 이는 각 각 유효한 피크를 기준으로, 피크 전 13개의 샘플과 피 크 후 14개의 샘플을 포함한다. 2.2 특징 선택 알고리즘참가자들로부터 원시 PPG 데이터를 수집할 때, 신호 는 긍정 또는 부정으로 레이블 된다. PPG 데이터는 주 로 사고나 테러를 묘사하는 등의 공포를 유발하는 동영 상을 보면서 기록되었는데, 이는 부정으로 레이블 된다. 반대로 아기 동물 또 는 고요한 자연의 장면과 같은 편안 한 동영상을 보면서 수집된 데이터는 긍정으로 레이블 된다. 그러나, 심리적 실험으로부터 측정된 데이터는 레이 블이 부정확할 수 있다는 주요한 단점이 있을 수 있다. 어떤 참가자는 불쾌한 영상을 시청해도 괜찮다고 느끼 는 반면, 어떤 참가자는 차분한 영상을 시청하는 동안에 도 불편함을 느낄 수 있다. 경험에 따르면, 이처럼 단순 하게 레이블 된 학습데이터를 추론 모델 학습에 직접 사용하면 기계학습의 분류 정확도가 크게 낮아진다. 이 문제를 해결하기 위해서 본 논문에서는 GMM을 적용하였다. 긍정과 부정 클래스를 명확하게 구분되도 록 하는 샘플들만 선별하기 위함이다. 그림 2는 두 클래 스 데이터 샘플들 사이의 특징을 추출하기 위해 GMM 이 어떻게 사용되는지 보여준다. GMM을 적용하지 않 으면 클래스에 관계없이 원본 데이터 샘플의 분포가 겹 치기 때문에 각 클래스 샘플의 특징을 정확하게 나타내 는 것을 어렵게 한다. GMM은 이러한 불확실하게 겹쳐 있는 데이터를 지우기 위해 사용되어, 학습 가능한 샘플 들만 남아있도록 한다. GMM을 통한 전처리 후 작업은 본 실험에서 학습 성능을 크게 향상시켰다. GMM은 유명한 기계학습 알고리즘 중 하나이므로, 본 논문에서 관련 수학적 정의와 최적화 과정 설명은 생략한다. 더 많은 설명을 위해 [3]을 참고하면 자세한 내용을 확인할 수 있다. 대신, GMM을 적용하기 위한 문제 정의는 이 어서 설명된다. 그림 2. 특징 선택 알고리즘에서는 GMM을 사용하여 기존 단일 펄스 데이터에서 특징적인 데이터만 선택한다. 기존 샘플의 대부 분은 긍정과 부정 클래스에 겹쳐서 존재하지만, GMM을 적용한 후의 새로운 샘플은 두 클래스를 더 명확하게 구분짓는다. ![]() 긍정/부정 클래스에 속한 각각의 데이터 샘플이 정상 또는 비정상으로 분류될 수 있다고 가정한다. 예를 들 어, 만약 불쾌한 감정을 느낀 참가자로부터 수집된 데이 터가 부정 특징을 나타낸다면, 이는 정상으로 분류되지 만, 반대의 경우에 이는 비정상으로 분류된다. 이 정의 를 GMM 공식에 적용하기 위해서, 정상과 비정상 데이 터가 각각의 가우시안 분포를 따른다고 가정한다. 각각 의 가우시안 모델의 평균과 분산은 GMM의 최적화 방 식에 따라 학습된다. 결과적으로 4개의 가우시안 모델 이 학습되는데, 부정 클래스의 정상과 비정상 분포를 나타내는 두 개와 긍정 클래스에서의 두 개이다. 결과적 으로, 2장의 전처리 방식을 거친 모든 데이터 샘플은 학습된 4개의 가우시안 모델 중 하나로 분류된다. 2.3 예측 모델1D-CNN은 시계열 예측에 효과적이고, PPG 신호와 같은 생체 신호 데이터에도 적용될 수 있다[5]. 이 구조는 특징을 추출하고 분류하는 여러 개의 레이 어로 구성된다. 모델은 단일 펄스의 사이즈에 따라 27 차원을 입력으로 가지고, 이진 분류를 수행한다. 표 1에 제안된 1D-CNN 구조는 단일 펄스를 입력으로 이용하 여 긍정 혹은 부정을 출력한다. 최종적으로 위험이 감지되었는지 아닌지에 대한 여 부는 다음 규칙에 따라 결정된다. 먼저 1D-CNN의 입 력은 1.1.초의 27차원 단일 펄스로 구성되며, 예측 기간 은 12초임을 명시한다. 따라서, 12초 데이터 세트 내의 유효한 단일 펄스 개수는 전처리 단계에서 결정되며 신 호품질에 따라 달라진다. 본 논문에서는 12초 내에 추 론되는 1D-CNN 결과 횟수 중 33% 이상이 부정일 때 ‘위험’으로 결정하고, 나머지 조건은 정상이다. 표 1. 단일펄스를입력으로 가진긍정및 부정분류를위 한1D-CNN구조
Ⅲ. 실험3.1 데이터수집학습 데이터를 얻기 위해서 20명의 참가자로부터 PPG 신호를 측정했다. 참가자들은 총 74분 14초의 긍 정 영상을 시청했고, 66분 29초의 부정 영상을 시청했 다. PPG 신호는 참가자들의 손목에 갤럭시 워치 5를 착용하여 얻었다. 처음에 단일 펄스 학습 데이터는 긍정 73,763개와 부정 87,505개의 총 161,268로 구성되었다. GMM을 통한 특징 추출 단계를 거친후, 긍정과 부정 샘플의 개수는 각각 43,945개와 39,106개로 줄었다. 테스트 실험을 위해 PPG 데이터는 8명의 참가자로 부터 동일한 종류의 스마트워치를 손목에 착용하고 다 음과 같은 환경에서 측정되었다. 영상시청보다 더욱 현 실감 있는 테스트를 위해 VR 공포 게임 플레이를 통해 위험 실험을 하였다. 긍정 클래스 데이터는 실험자가 편안하게 휴식하면 서 몇 분동안 침착하게 움직이지 않는 상태에서 PPG를 측정하였다. 반면, 부정적인 클래스 데이터를 얻는 과정 에서는, 참가자들은 그림 3과 같은 공포VR게임을 플 레이했다. 게임 시나리오는 시작과 끝이 정해져 있지만 플레이 시간은 개인의 VR 게임 실력에 따라 조금씩 다르다. 게임에서 가장 공포스러운 사건이 발생한 후 약 5분간 지속되는 장면에서 수집된 데이터는 부정 클 래스로 명시된다. 게임의 다른 부분은 참가자들이 주로 움직이거나 아이템을 찾는 부분이므로, 추론 테스트에 사용하지 않았다. 3.2 결과위험 감지 문제를 다루기 위해 4개의 서로 다른 모델 을 적용하여 비교하였다. 알고리즘은 스마트워치에 적 용할 수 있는 기준이 되는, 12초의 PPG 시계열 데이터 분석이 가능한 것을 기반으로 선택되었다. 예를 들어, 우리는 주파수 도메인으로부터 특징을 추 출하는 방법들은 제외했는데, 이 방법들은 적어도 90초 이상의 측정 시간이 필요하기 때문이다[6]. 표 2는 8개의 테스트 결과를 정리하여 나타낸 것이 다. 비교 모델 중 2개 (Model 1과 Model 2)는 기존에 문헌에서 보고된 알고리즘이며, 논문에서 기술한대로 구현하였다. Model 3은 본 논문에서 개발한 1D-CNN 을 backbone으로 사용하되 GMM을 적용하지 않은 방 법이다. 이는 GMM의 효과를 검증하기 위해 비교되었 다. 모든 비교 모델은 최고의 결과를 얻기 위해 미세 조정되었는데, 예를 들어, 필터링 과정에서의 주파수 차 단 범위나 예측 모델의 하이퍼 파라미터를 조정했다. 첫 번째 비교 Model 1 구조는 CNN과 LSTM 네트워 크를 결합하여 PPG 신호로부터 공간 및 시간적 특징을 모두 사용한다[7,8]. 이 모델의 전처리 과정에서는 PPG 데이터를 분할하고 정규화하여 노이즈를 제거하는 작 업이 수행된다. 표 2. 위험 탐지 실험의 8가지 테스트 결과
본 논문의 알고리즘에서 사용하는 12초와 달리 4초 로 분할된 PPG 데이터는 먼저 공간적 특징을 추출하기 위해 CNN구조로 들어가고, 이후 시간적 종속성을 파 악하기 위해 LSTM으로 전달된다. 이렇게 결합된 구조 는 특징 추출에는 CNN을, 순차적 데이터 처리에는 LSTM을 활용한다. 이 네트워크는 4초 단위로 분할된 데이터를 처리하기 때문에 세 번의 연속적인 네트워크 의 예측 결과 중 하나 이상이 부정클래스인 경우 위험으 로 판단한다. 이 방법은 전체적으로 51%의 정확도를 달성했다. 두 번째 비교 Model 2 구조는 NN-interval이라는 특징을 기계학습 입력 데이터에 추가하는데, NN-inter- val은 10초의 PPG 신호동안 1개의 scalar가 추출된다[9],[10]. NN-interval은 보통 연속적인 R-peak들 사이의 시 간 간격을 의미한다. 1D-CNN에서 이 특징을 사용하 여 모델은 불규칙적인 신호나 센서 결함으로 인한 잡 음을 필터링 하는 것을 목표로 한다. 입력은 10초의 데이터 세그먼트로 구성되므로, 위험상황은 네트워크 의 출력에 의해 바로 결정된다. 이 모델은 부정 클래스 에 편향되는 경향이 있어, 전반적인 정확도에서 0.42를 달성했다. 세 번째 Model 3은 본 논문에서 사용한 동일한 네트 워크에서 전처리단계에서 GMM만 적용하지 않은 것이 다. 이 모델 또한 긍정 클래스 예측에 편향되는 경향을 보인다. 반면 GMM을 통한 특징 추출 알고리즘을 포함 하는 우리의 방법은, 편향 없이 균형 잡힌 예측 결과를 보여주며, 다른 모델과 비교하여 우수한 성능을 보인다. BiographyBiographyBiographyReferences
|