기술읽기 16분

GAN과 생성형 AI는 헬스 데이터 연구를 어떻게 바꾸고 있을까? 합성 데이터의 모든 것

퀀퀀텀바이오 기술연구팀·2024년 8월 4일

생성형 AI가 헬스 데이터 연구에서 가장 주목받는 이유는 '없는 데이터를 그럴듯하게 만들어내는 능력' 때문입니다. GAN(생성적 적대 신경망)이나 디퓨전 모델 같은 생성형 AI는 실제 환자 기록·생체신호·의료 영상의 통계적 패턴을 학습한 뒤, 특정 개인에게 직접 연결되지 않으면서도 진짜와 유사한 합성 데이터(synthetic data)를 생성합니다. 이렇게 만들어진 데이터는 개인정보 노출 위험을 낮추고, 희귀한 사례나 부족한 표본을 보완하며, 알고리즘을 더 폭넓게 학습·검증하는 연구 자원으로 활용되고 있습니다. 즉 생성형 AI 헬스 연구에서 이 기술은 '진단을 대신하는 도구'라기보다, 연구와 개발을 가능하게 하는 데이터 인프라로서 의미가 큽니다.

핵심 요약: 생성형 AI 헬스 연구의 본질은 '실제 데이터의 통계적 특성은 닮았지만 특정 개인과 직접 연결되지 않는 합성 데이터'를 만들어, 프라이버시 보호·데이터 부족·불균형 문제를 동시에 다루려는 시도입니다. 이는 효능을 주장하는 기술이 아니라, 연구의 토대를 넓히려는 방법론으로 이해하는 것이 정확합니다.

GAN은 '생성자'와 '판별자' 두 신경망이 경쟁하며 점점 더 진짜 같은 데이터를 만들어내는 구조입니다.
합성 데이터는 개인정보를 직접 담지 않으면서 연구·테스트·교육에 쓸 수 있는 대체 자원으로 연구됩니다.
의료 영상, 시계열 생체신호, 전자의무기록(EHR) 표 데이터 등 거의 모든 헬스 데이터 유형에 적용이 연구되고 있습니다.
생성형 AI는 진단·치료 도구가 아니라 연구 도구로 이해하는 것이 정확하며, 한계와 검증의 문제가 함께 따릅니다.

생성형 AI란 무엇이고, 헬스 데이터와 왜 만나는가?

생성형 AI(Generative AI)는 기존 데이터를 '분류·예측'하는 데서 한 걸음 더 나아가, 학습한 패턴을 바탕으로 새로운 데이터를 만들어내는 인공지능을 뜻합니다. 텍스트를 생성하는 대규모 언어모델, 이미지를 만드는 디퓨전 모델, 그리고 이 글의 주인공인 GAN이 모두 여기에 속합니다. 공통점은 '데이터의 확률 분포'를 학습한다는 점입니다. 다시 말해, 어떤 데이터가 '있을 법한지'를 모델이 익히고, 그 분포에서 새로운 표본을 뽑아내는 방식입니다.

헬스케어 분야는 이런 기술과 만날 이유가 분명합니다. 의료 데이터는 본질적으로 민감하고, 구하기 어렵고, 불균형하기 때문입니다. 환자의 진료 기록·유전 정보·생체신호는 가장 민감한 개인정보에 속해 기관 밖으로 공유하기가 매우 까다롭습니다. 동시에 희귀 질환이나 특정 인구 집단의 데이터는 절대량 자체가 적어, 알고리즘을 학습시키기에 표본이 부족한 경우가 흔합니다.

생성형 AI는 이 두 가지 난제에 동시에 접근할 가능성을 제시합니다. 실제 데이터를 직접 공유하는 대신, 그 통계적 특성을 닮은 합성 데이터를 만들어 공유하면 어떨까 하는 발상입니다. 이는 '데이터를 늘리면서도 개인을 보호한다'는, 언뜻 모순처럼 보이는 목표를 기술적으로 절충하려는 시도로 연구되고 있습니다. 다만 이 절충이 완벽한 해법은 아니며, 어떤 조건에서 얼마나 잘 작동하는지는 여전히 활발히 검증되는 단계라는 점도 함께 기억해 둘 필요가 있습니다.

GAN은 어떻게 작동하나? — 위조범과 감정사의 게임

GAN(Generative Adversarial Network, 생성적 적대 신경망)은 2014년 이안 굿펠로(Ian Goodfellow)와 동료들이 제안한 구조로, 생성형 AI의 역사에서 분기점이 된 아이디어입니다. 이름의 '적대(adversarial)'가 핵심을 압축합니다. 두 개의 신경망이 서로 경쟁하며 함께 성장하는 구조이기 때문입니다.

가장 널리 쓰이는 비유는 '위조범과 감정사'입니다. 한쪽에는 가짜 지폐를 만드는 생성자(Generator)가 있고, 다른 쪽에는 진짜와 가짜를 가려내는 판별자(Discriminator)가 있습니다. 이 둘은 다음과 같은 순환 속에서 학습합니다.

생성자는 무작위 잡음(noise)에서 출발해 '진짜처럼 보이는' 가짜 데이터를 만들어냅니다.
판별자는 진짜 데이터와 생성자가 만든 가짜 데이터를 함께 받아, 어느 쪽이 진짜인지 판정합니다.
판별자가 가짜를 들켜내면, 생성자는 '어디서 들켰는지'를 피드백으로 받아 더 정교한 가짜를 만들도록 조정됩니다.
반대로 판별자도 더 깐깐하게 진위를 가려내도록 함께 갱신됩니다.

이 경쟁이 수없이 반복되면, 생성자는 점점 진짜와 구별하기 어려운 데이터를 만들어내고, 판별자는 더 이상 확실하게 구분하지 못하는 지점에 도달합니다. 이 균형점에서 생성자는 실제 데이터의 분포를 상당히 잘 모사하는 능력을 갖추게 됩니다. 헬스 데이터 맥락에서 이는 '실제 흉부 X선과 통계적으로 비슷하지만 어떤 환자의 것도 아닌' 이미지를 만들어낼 수 있다는 뜻입니다.

다만 GAN은 학습이 까다로운 모델로도 잘 알려져 있습니다. 두 네트워크의 균형이 무너지면 다양한 표본을 만들지 못하고 비슷한 결과만 반복하는 '모드 붕괴(mode collapse)' 같은 문제가 생길 수 있습니다. 또 생성된 데이터가 통계적으로는 그럴듯해도 의학적으로 타당한지는 별도의 문제여서, 결과물을 그대로 신뢰하기보다 전문가의 점검이 필요합니다. 그래서 최근에는 디퓨전 모델, 변분 오토인코더(VAE) 등 다른 생성 기법이 GAN을 보완하거나 대체하며 함께 연구되고 있습니다.

합성 데이터란 무엇이고 왜 중요한가?

합성 데이터(synthetic data)는 실제 사건이나 측정에서 직접 수집한 것이 아니라, 알고리즘이 만들어낸 인공 데이터를 말합니다. 핵심은 '무작위로 지어낸 가짜'가 아니라는 점입니다. 잘 만들어진 합성 데이터는 원본 데이터의 통계적 구조 — 변수들 사이의 상관관계, 분포의 모양, 시간에 따른 패턴 등 — 를 충실히 닮도록 설계됩니다.

헬스 데이터 연구에서 합성 데이터가 주목받는 이유는 크게 세 가지로 정리할 수 있습니다.

프라이버시 보호: 합성 데이터에는 특정 실제 환자의 기록이 그대로 담기지 않으므로, 적절히 생성·검증된 경우 개인 식별 위험을 낮추면서 데이터를 더 자유롭게 공유·활용할 수 있는 가능성을 엽니다.
데이터 부족 보완: 희귀 질환, 드문 부작용, 특정 연령·인구 집단처럼 표본이 적은 영역에서 학습용·검증용 데이터를 보강하는 데 연구되고 있습니다.
불균형 완화와 공정성: 특정 집단의 데이터가 과소 대표되면 알고리즘이 편향될 수 있는데, 합성 데이터로 균형을 맞춰 더 공정한 모델을 만들려는 시도가 이뤄지고 있습니다.

중요한 점은 합성 데이터가 '실제 데이터를 완전히 대체한다'기보다, 실제 데이터를 보완하고 안전하게 다루기 위한 도구로 자리매김하고 있다는 것입니다. 연구의 초기 단계, 알고리즘의 사전 검증, 교육·시연용 자료처럼 민감한 원본을 직접 쓰기 어려운 국면에서 특히 유용하다고 평가됩니다. 반대로, 규제 승인이나 임상적 결론처럼 높은 신뢰가 요구되는 단계에서는 합성 데이터만으로 판단을 내리지 않고 실제 데이터로 다시 확인하는 것이 원칙으로 받아들여집니다.

헬스케어 연구에서 합성 데이터는 어디에 쓰이나?

생성형 AI로 만든 합성 데이터의 활용 범위는 데이터의 종류만큼이나 넓습니다. 대표적으로 연구·개발 현장에서 논의되는 활용처는 다음과 같습니다.

의료 영상 보강

X선, CT, MRI, 병리 슬라이드 같은 의료 영상은 판독 알고리즘 개발의 핵심 재료지만, 라벨이 달린 양질의 영상은 늘 부족합니다. GAN과 디퓨전 모델은 실제 영상과 유사한 합성 영상을 만들어 학습 데이터를 늘리고(data augmentation), 특히 드물게 나타나는 병변 사례를 보강하는 용도로 연구됩니다. 이는 알고리즘이 다양한 변이에 더 강건해지도록 돕는 접근으로 알려져 있습니다.

시계열 생체신호 생성

심전도(ECG), 뇌파(EEG), 광용적맥파(PPG)처럼 시간에 따라 변하는 생체신호도 합성 생성의 대상입니다. 웨어러블과 디지털 헬스 기기가 쏟아내는 생체신호 데이터를 다루는 알고리즘을 개발·검증할 때, 다양한 조건의 합성 신호가 보조 자원으로 쓰일 수 있습니다. 신호 처리·노이즈 제거 알고리즘을 시험하는 무대로도 논의됩니다.

전자의무기록(EHR) 표 데이터

병원의 전자의무기록은 진단 코드, 검사 수치, 처방 이력 등이 얽힌 복잡한 표 형태의 데이터입니다. 가장 민감한 정보이기도 하죠. 이 영역에서는 실제 코호트의 통계적 특성을 닮은 합성 환자 집단을 만들어, 연구 가설을 사전 탐색하거나 분석 파이프라인을 구축·테스트하는 데 활용하려는 연구가 활발합니다.

소프트웨어 개발과 알고리즘 검증

의료 소프트웨어를 개발할 때, 실제 환자 데이터에 접근하기 전 단계에서 합성 데이터로 시스템을 만들고 시험하면 개발 속도를 높이고 위험을 줄일 수 있습니다. 디지털 헬스케어를 연구하는 기업·기관 입장에서 합성 데이터는 안전한 '연습장' 역할을 한다고 볼 수 있습니다. 다만 이 연습장에서 얻은 결과는 어디까지나 실제 환경에서 다시 검증되어야 하는 중간 산출물이라는 점이 전제됩니다.

프라이버시는 정말 지켜지나? — 합성 데이터의 빛과 그림자

합성 데이터의 가장 큰 매력은 프라이버시 보호이지만, 이 부분은 신중하게 이해해야 합니다. '합성'이라는 이름만으로 자동으로 안전이 보장되는 것은 아니기 때문입니다.

핵심 위험은 모델이 학습 데이터를 너무 충실히 외워버리는 '기억(memorization)' 현상입니다. 생성 모델이 특정 환자의 특징을 사실상 복제해 출력하면, 합성 데이터를 통해 실제 개인이 역추적될 가능성이 생깁니다. 이를 막기 위해 연구자들은 다음과 같은 장치를 함께 연구합니다.

차등 프라이버시(differential privacy): 학습 과정에 수학적으로 통제된 잡음을 더해, 특정 개인의 데이터가 결과에 미치는 영향을 제한하는 기법입니다.
프라이버시 공격 테스트: 합성 데이터로부터 원본 개인을 식별할 수 있는지 일부러 공격해 보며 안전성을 평가합니다.
유용성-프라이버시 균형 평가: 데이터가 너무 안전하면 쓸모가 떨어지고, 너무 유용하면 위험해질 수 있어 둘 사이의 균형을 정량적으로 점검합니다.

또 하나의 그림자는 품질과 편향입니다. 합성 데이터는 원본 데이터의 패턴을 학습하므로, 원본에 담긴 편향도 그대로 물려받거나 심지어 증폭할 수 있습니다. 원본에 없던 희귀 패턴은 합성 데이터에서도 제대로 표현되지 않을 수 있고, 반대로 모델이 '있을 법하지만 실제로는 의학적으로 말이 안 되는' 조합을 만들어낼 위험도 있습니다. 그래서 합성 데이터는 반드시 전문가의 검증과 적절한 평가 지표를 거쳐 활용되어야 한다는 점이 강조됩니다.

합성 데이터의 품질은 어떻게 평가하나?

생성형 AI 헬스 연구에서 합성 데이터가 '쓸 만한지'를 판단하려면, 막연한 인상이 아니라 정량적인 평가 기준이 필요합니다. 연구 현장에서는 보통 세 가지 축으로 합성 데이터를 점검한다고 알려져 있습니다.

충실도(fidelity): 합성 데이터가 원본의 통계적 분포·상관관계를 얼마나 잘 닮았는지를 봅니다. 변수별 분포 비교, 상관 구조 비교 등이 활용됩니다.
유용성(utility): 합성 데이터로 학습한 모델이 실제 데이터로 학습한 모델과 비슷한 성능을 내는지를 확인합니다. 'TSTR(Train on Synthetic, Test on Real)' 같은 방식이 대표적입니다.
프라이버시(privacy): 앞서 살펴본 역추적·재식별 위험이 충분히 낮은지를 공격 시뮬레이션으로 평가합니다.

중요한 것은 이 세 축이 서로 긴장 관계에 있다는 점입니다. 충실도와 유용성을 높이려다 보면 프라이버시가 약해지기 쉽고, 프라이버시를 강하게 보호하면 데이터의 쓸모가 떨어질 수 있습니다. 그래서 합성 데이터를 다루는 일은 '하나의 정답'을 찾는 작업이라기보다, 용도와 위험 수준에 맞게 균형점을 설계하는 작업에 가깝습니다. 어떤 목적에 어느 정도의 충실도와 안전성이 필요한지를 먼저 정의하고, 그 기준에 맞춰 생성·검증 전략을 세우는 것이 책임 있는 활용의 출발점으로 여겨집니다.

생성형 AI 헬스 연구의 한계와 책임 있는 활용

생성형 AI는 강력한 도구이지만, 헬스케어에서는 특히 신중한 태도가 요구됩니다. 몇 가지 한계를 분명히 이해하는 것이 책임 있는 활용의 출발점입니다.

첫째, '그럴듯함'과 '사실'은 다릅니다. 생성형 AI는 통계적으로 그럴듯한 데이터를 만드는 데 능하지만, 그것이 의학적 진실을 보장하지는 않습니다. 합성 데이터로 얻은 통찰은 어디까지나 가설이며, 최종적으로는 실제 데이터와 임상적 근거로 검증되어야 합니다.

둘째, 합성 데이터는 진단·치료의 근거가 아닙니다. 생성형 AI로 만든 데이터나 그로 학습된 알고리즘은 연구·개발의 보조 수단이며, 개인의 건강 상태를 진단하거나 치료를 결정하는 일은 전문 의료인의 판단과 규제 절차를 통해 이뤄져야 합니다.

셋째, 투명성과 거버넌스가 중요합니다. 어떤 데이터로 어떻게 합성했는지, 어떤 검증을 거쳤는지를 기록하고 공개하는 것은 연구의 재현성과 신뢰를 위해 필수적입니다. 의료 분야의 데이터 활용은 각국의 개인정보·의료기기 규제 틀 안에서 이뤄져야 한다는 점도 빼놓을 수 없습니다.

퀀텀바이오를 비롯해 디지털 헬스케어를 연구하는 곳들에게 생성형 AI와 합성 데이터는 '더 안전하고 폭넓게 데이터를 다루기 위한 연구 인프라'라는 관점에서 의미가 있습니다. 데이터의 양과 다양성이 연구의 질을 좌우하는 시대에, 프라이버시를 지키면서도 연구를 진전시키는 절충점을 찾는 일은 앞으로도 중요한 과제로 남을 것입니다.

자주 묻는 질문

합성 데이터는 가짜 데이터인가요? 믿을 수 있나요?

합성 데이터는 무작위로 지어낸 가짜가 아니라, 실제 데이터의 통계적 패턴을 학습해 만든 인공 데이터입니다. 잘 생성·검증되면 분포와 상관관계가 원본과 닮아 연구·테스트에 유용합니다. 다만 품질과 편향, 프라이버시 안전성은 별도의 평가 지표로 반드시 검증해야 하며, 검증 없이 무조건 신뢰할 수는 없습니다.

GAN과 디퓨전 모델은 어떻게 다른가요?

둘 다 생성형 AI지만 방식이 다릅니다. GAN은 생성자와 판별자가 경쟁하며 학습하고, 디퓨전 모델은 데이터에 잡음을 점진적으로 더했다가 다시 제거하는 과정을 학습합니다. 디퓨전 모델은 학습이 비교적 안정적이고 고품질 결과를 내는 경향이 있어 최근 많이 쓰이며, GAN과 함께 헬스 데이터 생성에 모두 연구되고 있습니다.

합성 데이터를 쓰면 개인정보는 완전히 안전한가요?

'합성'이라는 이름만으로 완벽한 안전이 보장되지는 않습니다. 모델이 특정 개인의 특징을 외워버리면 역추적 위험이 생길 수 있어, 차등 프라이버시나 프라이버시 공격 테스트 같은 장치로 안전성을 함께 점검합니다. 적절히 설계·검증된 합성 데이터는 위험을 크게 낮출 수 있지만, '검증을 거쳐야 안전하다'고 이해하는 것이 정확합니다.

생성형 AI가 의사의 진단을 대체하나요?

아닙니다. 이 글에서 다룬 생성형 AI의 역할은 진단·치료가 아니라 '연구와 개발을 돕는 데이터 인프라'입니다. 합성 데이터나 그로 학습된 알고리즘은 보조 수단이며, 개인의 건강 상태에 대한 판단은 전문 의료인과 규제된 절차를 통해 이뤄져야 합니다.

합성 데이터는 실제 데이터를 완전히 대체할 수 있나요?

현재로서는 대체보다 '보완'으로 이해하는 것이 적절합니다. 합성 데이터는 데이터가 부족하거나 민감해 직접 쓰기 어려운 국면에서 큰 도움을 주지만, 최종적인 검증과 결론은 실제 데이터와 임상 근거를 바탕으로 이뤄져야 합니다. 둘은 경쟁 관계라기보다 함께 쓰일 때 가치가 커지는 관계입니다.

생성형 AI와 합성 데이터는 헬스 데이터 연구의 오래된 난제 — 민감함과 부족함 — 를 새로운 방식으로 풀어보려는 흥미로운 시도입니다. 기술의 가능성과 한계를 함께 이해할 때, 우리는 더 안전하고 신뢰할 수 있는 디지털 헬스케어로 한 걸음 나아갈 수 있습니다. 퀀텀바이오가 데이터와 AI를 어떤 관점으로 연구하는지 궁금하시다면 퀀텀 기술 소개에서 더 많은 이야기를 만나보실 수 있습니다.

※ 본 콘텐츠는 일반적인 건강·웰니스 정보를 제공하기 위한 것으로, 의학적 진단이나 치료를 대체하지 않습니다. 건강 문제는 전문 의료인과 상담하시기 바랍니다.

#생성형 AI 헬스#합성 데이터#GAN#헬스 데이터#AI 헬스케어

← 블로그 목록으로