기술읽기 17분

머신러닝은 생체신호를 어떻게 학습할까? 시계열 생체데이터와 AI의 원리

퀀퀀텀바이오 기술연구팀·2024년 10월 4일

생체신호 머신러닝은 심박, 근전도(EMG), 뇌파(EEG), 피부전도도처럼 시간에 따라 변하는 시계열 생체데이터에서 의미 있는 패턴을 자동으로 찾아내도록 컴퓨터를 학습시키는 기술입니다. 핵심 원리는 의외로 단순합니다. 사람이 일일이 "이런 파형은 이런 상태"라고 규칙을 정하는 대신, 수많은 신호 예시를 모델에 보여주고 그 안의 통계적 규칙성을 스스로 추출하게 하는 것입니다. 이 글에서는 잡음 섞인 아날로그 생체신호가 어떻게 숫자 데이터로 바뀌고, 어떤 단계를 거쳐 머신러닝 모델이 그것을 "이해"하게 되는지를, 효능을 단정하지 않고 교육적·개념적으로 풀어 설명합니다.

핵심 요약: 생체신호 머신러닝은 (1) 센서로 시계열 신호를 수집하고 (2) 잡음을 제거·정규화한 뒤 (3) 신호에서 특징을 추출하거나 딥러닝이 직접 학습하게 하고 (4) 정답이 있는 데이터로 모델을 훈련하며 (5) 새로운 데이터에서의 성능을 엄격히 검증하는 과정으로 이루어진다.

시계열의 본질: 생체신호는 "순서"가 의미를 갖는 데이터로, 일반 표 데이터와 다른 접근이 필요하다.
전처리가 절반: 노이즈 제거·필터링·정규화 없이는 좋은 모델이 나오지 않는다.
특징 vs 표현 학습: 사람이 특징을 설계하는 방식과, 딥러닝이 특징을 스스로 학습하는 방식이 공존한다.
일반화가 관건: 사람마다 신호가 달라, 새로운 사용자에게도 통하는지가 가장 어려운 문제다.

생체신호란 무엇이고 왜 머신러닝과 잘 맞을까?

생체신호(biosignal)는 우리 몸이 활동하면서 자연스럽게 발생시키는 물리·전기·화학적 변화를 측정한 데이터입니다. 심장이 뛸 때 생기는 미세한 전기 변화를 기록한 심전도(ECG), 두피에서 측정하는 뇌의 전기 활동인 뇌파(EEG), 근육이 수축할 때의 전기 신호인 근전도(EMG), 광학 센서로 혈류 변화를 읽는 PPG(맥파), 피부의 땀샘 활동을 반영하는 피부전도도(EDA) 등이 대표적입니다. 이들은 모두 시간 축을 따라 연속적으로 변하는 값이라는 공통점이 있습니다.

바로 이 "시간에 따른 변화"라는 성질이 머신러닝과 잘 맞습니다. 심박 하나하나의 절댓값보다, 박동 사이의 간격이 어떻게 변하는지(심박변이도), 파형의 모양이 어떤 리듬을 그리는지가 더 많은 정보를 담고 있기 때문입니다. 사람이 눈으로 이런 미묘한 패턴을 일일이 판별하는 것은 한계가 있지만, 머신러닝은 방대한 양의 신호에서 반복되는 규칙성을 통계적으로 잡아내는 데 강점이 있습니다.

또한 생체신호는 한 종류만 쓰이는 경우가 드뭅니다. 심박과 움직임, 피부전도도를 함께 보면 같은 순간의 몸 상태를 여러 각도에서 교차 확인할 수 있어, 한 신호만으로는 모호하던 패턴이 또렷해지기도 합니다. 이렇게 여러 신호를 결합하는 멀티모달(multimodal) 접근은 잡음에 강하고 정보가 풍부하다는 장점 때문에 점점 널리 연구되고 있습니다.

다만 한 가지 분명히 해둘 점이 있습니다. 머신러닝이 신호에서 패턴을 찾아낸다는 것은 어디까지나 데이터 안의 상관관계를 학습한다는 의미이며, 그 자체로 의학적 진단이나 질병의 원인을 규명하는 것은 아닙니다. 이 글은 기술이 "어떻게 작동하도록 설계되는지"를 설명하는 것이지, 특정 건강 효과를 보장하는 것이 아닙니다.

시계열 데이터는 왜 특별하게 다뤄야 할까?

표 형태의 일반 데이터, 예를 들어 키·몸무게·나이 같은 값은 순서를 바꿔도 의미가 변하지 않습니다. 그러나 생체신호는 다릅니다. 1초 전의 심박과 지금의 심박은 인과적으로 연결되어 있고, 순서를 뒤섞으면 정보가 완전히 파괴됩니다. 이런 시간 의존성(temporal dependency) 때문에 시계열 데이터는 전용 접근법을 요구합니다.

시계열을 다룰 때 자주 등장하는 개념을 정리하면 다음과 같습니다.

샘플링 주파수(sampling rate): 1초에 몇 번 신호를 측정하는가. 뇌파는 보통 초당 수백 회, 심전도는 수백~수천 회로 기록한다. 너무 낮으면 중요한 파형을 놓친다.
윈도잉(windowing): 연속 신호를 일정 길이의 조각(예: 5초)으로 잘라 분석 단위로 삼는 방법. 모델은 이 "창" 단위로 신호를 본다.
정상성(stationarity): 신호의 통계적 성질이 시간에 따라 변하는지 여부. 생체신호는 대개 비정상적(non-stationary)이어서 더 까다롭다.
주기성(periodicity): 심박처럼 반복되는 리듬. 주파수 영역 분석으로 잘 드러난다.

이런 특성 탓에 같은 머신러닝이라도 이미지나 텍스트와는 다른 도구상자가 동원됩니다. 신호의 시간적 흐름을 보존하면서 의미를 추출하는 것이 시계열 생체데이터 분석의 출발점입니다. 윈도우의 길이를 어떻게 정하느냐만 해도 결과가 크게 달라집니다. 창이 너무 짧으면 한 주기의 리듬조차 담기지 않고, 너무 길면 서로 다른 상태가 한 조각에 뒤섞여 모델이 혼란스러워집니다. 그래서 신호의 생리적 주기를 고려해 적절한 시간 단위를 고르는 것 자체가 중요한 설계 결정이 됩니다.

전처리: 잡음 섞인 신호를 어떻게 다듬을까?

현장에서 측정된 생체신호는 결코 깨끗하지 않습니다. 웨어러블이 손목에서 흔들리며 생기는 움직임 잡음, 전원선에서 들어오는 60Hz 간섭, 센서 접촉 불량으로 생기는 갑작스러운 값의 튐 등이 섞여 있습니다. 흔히 하는 말로 "쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)"는 표현은 생체신호 머신러닝에서 특히 절실합니다. 전처리는 전체 작업의 절반 이상을 차지한다고 해도 과언이 아닙니다.

대표적인 전처리 단계는 다음과 같습니다.

필터링: 관심 있는 주파수 대역만 남기고 나머지를 걸러낸다. 예를 들어 근육 떨림에서 오는 고주파나 호흡에 의한 저주파 변동을 제거한다.
아티팩트 제거: 눈 깜빡임이 섞인 뇌파, 움직임이 섞인 심박 구간 등 명백히 오염된 부분을 탐지해 보정하거나 제외한다.
정규화(normalization): 사람마다, 센서마다 신호의 절댓값 범위가 달라서 0~1 또는 평균0·분산1 형태로 크기를 맞춘다. 이 과정이 없으면 모델이 사람 간 차이를 신호의 의미로 오해한다.
리샘플링과 결측 보간: 측정 누락이나 주파수 불일치를 보정해 일정한 형식으로 정렬한다.

전처리에서 가장 경계해야 할 것은 과도한 가공으로 정작 중요한 정보까지 지워버리는 것입니다. 잡음과 신호를 가르는 경계가 늘 명확하지 않기 때문에, 어떤 주파수 대역을 남길지·어떤 구간을 버릴지에 대한 판단은 도메인 지식에 크게 의존합니다. 좋은 생체신호 엔지니어는 모델 설계자이기 이전에 신호의 생리학적 의미를 이해하는 사람입니다.

한 가지 더 유의할 점은 전처리 규칙을 정할 때 미래 정보가 새어 들어가지 않도록 하는 것입니다. 예를 들어 정규화에 쓰는 평균과 분산을 전체 데이터에서 한꺼번에 계산해버리면, 평가 단계에서 봐야 할 정보를 훈련 단계가 미리 엿본 셈이 됩니다. 그래서 전처리 기준은 훈련 데이터에서만 산출해 평가 데이터에 그대로 적용하는 절차적 엄격함이 요구됩니다.

특징 추출과 표현 학습: 사람이 만들까, 기계가 배울까?

전처리된 신호를 모델에 넣기 전에, 신호를 "모델이 알아듣기 좋은 형태"로 바꾸는 단계가 있습니다. 여기에는 크게 두 가지 철학이 있습니다.

전통적 특징 공학(feature engineering)

오랫동안 주류였던 방식은 사람이 직접 의미 있는 숫자를 설계해 뽑아내는 것입니다. 시간 영역에서는 평균 심박, 박동 간격의 표준편차, 신호의 첨도 같은 통계량을 계산합니다. 주파수 영역에서는 푸리에 변환으로 신호를 주파수 성분으로 분해해 특정 대역의 에너지가 얼마나 큰지를 봅니다. 심박변이도 분석에서 자주 등장하는 저주파/고주파 비율 같은 지표가 이런 특징의 예입니다. 이 방식의 장점은 결과를 해석하기 쉽고, 적은 데이터로도 동작한다는 점입니다.

딥러닝의 표현 학습(representation learning)

최근에는 신호의 원형 또는 최소 가공된 형태를 그대로 신경망에 넣고, 어떤 특징이 중요한지를 모델이 스스로 학습하게 하는 방식이 확산되고 있습니다. 사람이 미처 생각하지 못한 미묘한 패턴까지 잡아낼 수 있다는 것이 강점입니다. 대신 많은 데이터와 연산 자원이 필요하고, 모델이 "왜 그렇게 판단했는지"를 설명하기가 어려워집니다. 그래서 실무에서는 두 접근을 섞어, 핵심 특징은 사람이 설계하고 나머지 미세 패턴은 딥러닝에 맡기는 절충안이 흔합니다.

어느 쪽이든 목표는 같습니다. 복잡한 파형을, 상태 구분에 도움이 되는 압축된 표현으로 바꾸는 것입니다. 이 표현의 질이 곧 모델 성능의 상한선을 결정합니다. 최근에는 정답 라벨이 거의 없는 방대한 신호로 신호 자체의 구조를 먼저 익히게 한 뒤, 적은 양의 라벨로 마무리 학습을 하는 자기지도학습(self-supervised learning)도 활발히 연구되고 있습니다. 생체신호는 모으기는 쉬워도 일일이 정답을 다는 데 비용이 많이 들기에, 라벨 없는 데이터를 활용하는 이런 접근이 특히 주목받습니다.

모델은 실제로 어떻게 "학습"할까?

이제 핵심 질문입니다. 머신러닝 모델이 생체신호를 "학습한다"는 것은 구체적으로 무슨 뜻일까요? 가장 흔한 형태인 지도학습(supervised learning)을 예로 들어보겠습니다.

먼저 신호 조각마다 정답 라벨이 붙은 데이터를 준비합니다. 예를 들어 "이 5초 구간은 안정 상태, 저 구간은 활동 상태"처럼요. 모델은 처음에는 무작위에 가까운 추측을 합니다. 그 추측이 정답과 얼마나 틀렸는지를 손실 함수(loss function)라는 수치로 계산하고, 이 오차를 줄이는 방향으로 내부 파라미터(가중치)를 조금씩 조정합니다. 이 조정을 수만~수백만 번 반복하면서 모델은 점점 정답에 가까워집니다. 이 과정의 핵심 알고리즘이 경사하강법(gradient descent)과 역전파(backpropagation)입니다.

시계열 생체신호에 자주 쓰이는 모델 구조는 다음과 같습니다.

1D 합성곱 신경망(1D CNN): 신호를 따라 슬라이딩하며 국소적 파형 패턴(예: 심박 한 주기의 모양)을 잡아낸다.
순환 신경망(RNN/LSTM/GRU): 시간 순서를 따라 정보를 누적하며 이전 맥락을 기억한다. 긴 의존성에 강하다.
트랜스포머(Transformer): 어텐션 메커니즘으로 신호의 먼 구간끼리의 관계를 한 번에 본다. 최근 시계열 분야에서 주목받는다.

여기서 짚어둘 점은 학습의 두 가지 함정입니다. 과적합(overfitting)은 모델이 훈련 데이터의 잡음까지 통째로 외워버려 새 데이터에서 무너지는 현상이고, 과소적합(underfitting)은 모델이 너무 단순해 패턴을 충분히 잡지 못하는 상태입니다. 좋은 학습은 이 둘 사이의 균형을 찾는 일이며, 데이터를 늘리거나 모델 복잡도를 조절하거나, 학습 도중 일부 연결을 무작위로 끄는 드롭아웃 같은 규제 기법으로 다스립니다.

또 하나 기억할 것은, 정확도라는 단 하나의 숫자만으로 모델을 평가해서는 안 된다는 점입니다. 안정 상태가 데이터의 대부분을 차지하는 불균형한 상황이라면, 모델이 무조건 "안정"이라고만 답해도 정확도는 높게 나옵니다. 그래서 정밀도·재현율, F1 점수, 혼동 행렬처럼 어떤 종류의 오류를 얼마나 내는지 보여주는 여러 지표를 함께 살펴야 모델의 실제 쓸모를 정직하게 가늠할 수 있습니다.

왜 사람마다 다른 신호가 가장 어려운 문제일까?

생체신호 머신러닝에서 가장 까다로운 난제는 개인 간 변이(inter-subject variability)입니다. 같은 안정 상태라도 사람마다, 심지어 같은 사람도 그날의 컨디션·자세·온도·센서 부착 위치에 따라 신호가 크게 달라집니다. A라는 사람의 데이터로만 잘 맞추도록 학습한 모델이 처음 보는 B에게는 형편없이 동작하는 일이 비일비재합니다.

이 문제를 다루기 위해 여러 전략이 연구되고 있습니다.

개인 간 검증(cross-subject validation): 훈련에 쓰지 않은 완전히 새로운 사람의 데이터로만 성능을 평가해, 일반화 능력을 정직하게 측정한다.
도메인 적응(domain adaptation): 새로운 사용자나 새로운 기기에 모델을 빠르게 적응시키는 기법.
개인화(personalization): 공통 모델을 먼저 학습한 뒤, 소량의 개인 데이터로 미세 조정해 그 사람에게 맞춘다.
데이터 증강(data augmentation): 신호에 약간의 변형을 가해 다양성을 인위적으로 늘려 강건함을 키운다.

또 하나 중요한 것은 데이터 누수(data leakage)를 막는 일입니다. 같은 사람의 데이터가 훈련 세트와 평가 세트에 동시에 들어가면 성능이 과장되게 부풀려져, 시험 점수는 매우 높은데 실제 새 사용자에게는 거의 쓸 수 없는 모델이 만들어질 수 있습니다. 그래서 사람 단위로 데이터를 엄격히 분리해 검증하는 규율이 생체신호 분야에서는 특히 강조됩니다.

이런 어려움은 곧 데이터의 다양성과 품질이 모델의 운명을 좌우한다는 뜻이기도 합니다. 특정 연령대나 한 종류의 기기에서만 모은 데이터로 학습하면, 그 좁은 범위를 벗어나는 순간 성능이 흔들립니다. 그래서 폭넓은 사용자와 환경을 아우르는 데이터를 윤리적이고 투명하게 수집·관리하는 일은, 정교한 모델 구조를 설계하는 일만큼이나 중요한 과제로 다뤄집니다.

웨어러블과 디지털 헬스케어에서 이 기술은 어떻게 쓰일까?

오늘날 손목의 웨어러블, 가슴 패치, 반지 형태의 기기들은 이미 PPG·심박·움직임 같은 신호를 실시간으로 수집합니다. 이런 일상 데이터에 머신러닝을 결합하면, 단순히 숫자를 보여주는 것을 넘어 신호의 변화 추이에서 개인의 생활 리듬을 읽어내는 방향으로 발전하고 있습니다. 수면·활동·휴식의 패턴을 시각화하거나, 데이터를 장기적으로 모아 변화를 관찰하는 식의 활용이 대표적입니다.

여기에는 기술적 제약도 함께 고려됩니다. 웨어러블은 배터리와 연산 능력이 제한적이라, 무거운 모델을 기기 안에서 그대로 돌리기 어렵습니다. 그래서 모델을 가볍게 압축하거나, 일부 계산은 기기에서 처리하고 나머지는 서버에서 맡기는 식의 분담을 연구하기도 합니다. 동시에 민감한 생체데이터를 다루는 만큼, 데이터를 한곳에 모으지 않고 각자의 기기에서 학습하는 연합학습 같은 프라이버시 보호 기법도 함께 탐구되고 있습니다.

퀀텀바이오 역시 양자 기반 디지털 에너지의학과 디지털 헬스케어 관점에서, 생체신호와 주파수 데이터를 다루는 기술을 연구 중인 접근으로 탐구하고 있습니다. 다만 여기서 다시 한번 분명히 해둘 것이 있습니다. 머신러닝이 신호에서 패턴을 찾는다고 해서, 그것이 곧 어떤 질병을 진단하거나 치료한다는 의미는 아닙니다. 데이터에서 발견된 상관관계가 임상적으로 의미가 있는지는 별도의 엄격한 검증과 규제 절차를 거쳐야 하며, 그 책임은 가볍게 다룰 수 없는 영역입니다. 기술의 가능성을 이야기하되 효능을 단정하지 않는 신중함이, 이 분야에서 가장 중요한 직업윤리입니다.

자주 묻는 질문

생체신호 머신러닝과 일반 데이터 분석은 무엇이 다른가요?

가장 큰 차이는 데이터의 "시간성"입니다. 일반 표 데이터는 행의 순서가 의미를 갖지 않지만, 생체신호는 시간 순서 자체가 핵심 정보입니다. 따라서 순서를 보존하며 패턴을 읽는 시계열 전용 모델과 전처리 기법이 필요하고, 잡음 제거와 정규화의 비중이 훨씬 큽니다.

딥러닝이 항상 전통적 방식보다 좋은가요?

아닙니다. 데이터가 충분히 많고 미세한 패턴이 중요할 때는 딥러닝이 유리하지만, 데이터가 적거나 결과를 해석해야 하는 상황에서는 사람이 설계한 특징 기반 방식이 더 실용적일 수 있습니다. 두 방식을 결합하는 절충안이 현실에서 자주 쓰입니다.

왜 같은 모델이 사람마다 성능 차이가 큰가요?

생체신호는 개인의 생리적 특성, 컨디션, 측정 환경에 따라 크게 달라지기 때문입니다(개인 간 변이). 이를 줄이기 위해 새로운 사람으로만 검증하는 교차 검증, 개인화 미세 조정, 도메인 적응 같은 기법이 연구되고 있습니다.

생체신호 머신러닝을 공부하려면 무엇부터 시작해야 하나요?

신호 처리의 기초(샘플링, 필터링, 푸리에 변환)와 머신러닝의 기본 개념(지도학습, 손실 함수, 과적합)을 함께 익히는 것이 좋습니다. 그다음 공개된 생체신호 데이터셋으로 전처리부터 검증까지 작은 파이프라인을 직접 만들어 보면, 이론과 실무의 간극을 메우는 데 큰 도움이 됩니다.

웨어러블 데이터로 학습한 AI가 건강 상태를 진단할 수 있나요?

머신러닝은 신호에서 통계적 패턴을 찾을 뿐, 그 자체로 의학적 진단을 내리지는 않습니다. 데이터에서 발견된 패턴이 임상적으로 유의미한지는 별도의 엄격한 검증과 규제 승인이 필요하며, 건강과 관련된 판단은 반드시 전문 의료인의 영역입니다.

생체신호 머신러닝은 데이터 수집·전처리·특징 추출·학습·검증이라는 정교한 사슬로 이루어진 기술이며, 그 어느 단계도 소홀히 할 수 없습니다. 시계열 생체데이터에 담긴 우리 몸의 리듬을 어떻게 다루고 해석하는지에 대한 연구는 디지털 헬스케어의 토대가 됩니다. 퀀텀바이오가 양자 기반 디지털 헬스케어 관점에서 탐구하는 기술 이야기가 궁금하시다면 퀀텀 기술 소개에서 더 자세한 내용을 살펴보실 수 있습니다.

※ 본 콘텐츠는 일반적인 건강·웰니스 정보를 제공하기 위한 것으로, 의학적 진단이나 치료를 대체하지 않습니다. 건강 문제는 전문 의료인과 상담하시기 바랍니다.

#생체신호 머신러닝#시계열 데이터#디지털 헬스케어#딥러닝#웨어러블 AI

← 블로그 목록으로