FDA clearance 이후 AI 의료기기 모델 모니터링 계획: drift 임계값과 실세계 성능 근거를 설계하는 법

FDA가 AI 의료기기에 요구하는 것은 일회성 검증이 아니라 실세계 성능 모니터링이다. 한국 AI 디바이스 기업이 clearance 직후 세워야 할 drift 감지·대응 체계를 정리한다.

FDA 승인 후 AI 의료기기 모델 모니터링 드리프트 임계값과 실제 성능 추이 대시보드를 표현한 KoreaMED Global 썸네일

clearance가 끝이 아니라 시작이다

FDA가 2024년 12월 PCCP(Predetermined Change Control Plan) 최종 가이던스를 발행하면서, AI 의료기기 규제는 "사전 승인"에서 "전체 제품 수명주기 관리(TPLC)"로 완전히 전환되었다. clearance나 approval을 받은 시점부터 실세계 성능(real-world performance, RWP) 모니터링이 의무적이다.

2025년 9월 FDA가 공개 의견 수렴(Request for Public Comment, Docket No. FDA-2025-N-4203)을 통해 AI 의료기기의 실세계 성능 측정 방법에 대해 업계 의견을 모집한 것은, 곧 구체적인 모니터링 기준이 가이던스로 제정될 것임을 시사한다.

한국 AI 의료기기 기업이 FDA clearance를 받은 후 "이제 끝"이라고 생각하면 위험하다. clearance 이후에도 data drift, concept drift, model drift를 지속적으로 감지하고, 임계값을 초과하면 대응 절차를 실행하는 체계를 품질시스템(QMS)에 내장해야 한다.

FDA가 기대하는 AI 모델 모니터링의 4가지 핵심 요소

1. Data Drift 감지

Data drift는 모델이 학습된 데이터 분포와 실제 임상 환경에서 들어오는 입력 데이터의 분포가 달라지는 현상이다. 환자 인구 통계, 임상 실무, 이미징 장비 변경 등이 원인이 된다.

FDA 기대 사항:

  • 입력 데이터의 통계적 특성을 지속적으로 모니터링
  • 학습 데이터 분포와 실세계 입력 분포의 유의한 차이를 감지
  • 특정 하위 집단(subgroup)에서의 drift를 별도로 추적

실행 방안:

  • Population Stability Index(PSI), Kolmogorov-Smirnov 검정, Jensen-Shannon divergence 등의 통계적 방법을 적용
  • PSI > 0.25를 "significant drift" 임계값으로 설정하는 것이 업계 관행
  • 월간 또는 분기별로 입력 분포 리포트를 자동 생성

2. Concept Drift 감지

Concept drift는 입력-출력 간의 관계 자체가 변화하는 현상이다. 예를 들어, 임상 진단 가이드라인이 변경되어 동일한影像 패턴의 임상적 의미가 달라지는 경우가 이에 해당한다.

FDA 기대 사항:

  • 모델 예측 결과와 실제 임상 결과의 일치도를 지속 추적
  • 시간에 따른 성능 변화 추세를 분석
  • 드물지만 치명적인 오분류(misclassification) 패턴을 파악

실행 방안:

  • 모델 출력에 대한 ground truth 확보 체계 구축 (예: 방사선과 의사의 판독 결과와 AI 판독 결과 비교)
  • AUROC, sensitivity, specificity, PPV, NPV를 월별로 추적
  • 성능 지표가 사전 설정된 임계값 이하로 하락하면 자동 알림

3. Bias 모니터링

모델이 특정 인종, 연령, 성별, 지역 하위 집단에서 성능이 저하되는 bias drift를 감지해야 한다.

FDA 기대 사항:

  • 하위 집단별 성능 메트릭을 정기적으로 산출
  • 학습 데이터에 과소 대표된 집단의 실세계 성능을 특히 주시
  • bias 발견 시 원인 분석 및 시정 조치

실행 방안:

  • 인종, 연령대, 성별, 병원 규모별로 성능 지표를 분할하여 추적
  • 하위 집단 간 성능 차이가 사전 설정된 허용 범위(예: AUROC 차이 < 0.05)를 초과하면 알림
  • quarterly bias audit 리포트를 작성하고 품질위원회에서 검토

4. 실세계 성능(RWP) 증거 수집

FDA는 PCCP 가이던스에서 실세계 성능 모니터링을 PCCP와 통합된 피드백 루프로 설계할 것을 요구한다.

FDA 기대 사항:

  • 레지스트리, EHR, claims 데이터를 활용한 성능 추적
  • 사용자 피드백 수집 및 분석 체계
  • PCCP에 명시된 수정(modification) 실행 후 성능 변화 검증

실행 방안:

  • 임상 사이트와의 데이터 공유 협약을 clearance 전에 체결
  • adverse event, near-miss, user complaint를 체계적으로 수집
  • 분기별 RWP 리포트를 FDA에 제출할 수 있는 형태로 작성

Drift 임계값 설정: 실무 가이드

임계값 설정은 자동화된 모니터링의 핵심이다. 너무 민감하면 false alarm이 쏟아지고, 너무 둔감하면 실제 문제를 놓친다.

지표 권장 임계값 경고 단계 심각 단계
PSI (입력 분포) < 0.10: 정상 0.10~0.25: 관찰 > 0.25: 조치 필요
AUROC (전체) > 0.90 (예시) 0.85~0.90: 관찰 < 0.85: 원인 분석
Sensitivity (특정 subgroup) > 0.85 (예시) 0.80~0.85: 관찰 < 0.80: 즉각 대응
Subgroup 간 AUROC 차이 < 0.03 0.03~0.05: 관찰 > 0.05: bias 조사
오분류율 (월간) 베이스라인 대비 < +2% +2~5%: 관찰 > +5%: 원인 분석

주의: 이 수치는 예시이며, 각 제품의 risk profile과 임상 컨텍스트에 따라 조정해야 한다. 생명 위협과 직결된 진단 AI는 더 엄격한 임계값이 필요하다.

PCCP와 모니터링의 통합

PCCP는 clearance 시 승인받은 "사전 합의된 변경 계획"이다. 모델 재학습, 하이퍼파라미터 조정, 학습 데이터 추가 등을 새로운 제출 없이 실행할 수 있다. 하지만 PCCP의 효과는 실세계 모니터링 데이터에 의존한다.

통합 피드백 루프

실세계 데이터 수집 → Drift 감지 → PCCP 수정 프로토콜 실행
    ↑                                      ↓
    ← 검증 결과 ← PCCP 내 변경 적용 ←

실행 포인트:

  • PCCP에 명시된 각 modification 유형에 대해, 어떤 drift 지표가 트리거인지를 정의하라
  • PCCP 범위를 벗어나는 변경은 새로운 510(k) 또는 De Novo 제출이 필요하다
  • 모든 PCCP 실행 이력과 검증 결과를 QMS에 기록하라. FDA 실사 시 audit trail로 요구된다.

한국 AI 의료기기 기업이 특히 주의할 것

"MFDS 허가 후 FDA clearance, 그 다음은?" 하는 공백

한국 기업은 MFDS 심사와 FDA 심사에 집중하다가, clearance 이후 모니터링 체계를 소홀히 하는 경향이 있다. 하지만 FDA는 21 CFR 820(QMSR)에 따라 실사 시 post-market surveillance 체계를 확인한다. AI 모델의 경우, 일반 의료기기보다 훨씬 더 구체적인 모니터링 증거를 요구한다.

미국 임상 사이트와의 데이터 파이프라인 구축

미국 병원의 EHR, PACS, 레지스트리에서 모델 입력·출력 데이터를 수집하려면 BAAs(Business Associate Agreements), HIPAA 컴플라이언스, IRB 승인이 필요하다. 이는 clearance 전에 준비해야 하며, clearance 후에 시작하면 6~12개월이 소요된다.

사이버보안과 drift의 관계

FDA 2025년 9월 공개 의견 수렴에서 사이버보안 위협이 데이터 분포를 변화시켜 drift를 유발할 수 있다고 명시했다. 연결형 AI 디바이스의 경우, 사이버보안 모니터링과 모델 성능 모니터링을 통합해야 한다. (한국 연결형 의료기기 제조사의 FDA 사후관리 사이버보안 참고)

FDA OSEL이 개발 중인 3가지 모니터링 도구

FDA CDRH의 규제과학 연구부서(OSEL)는 AI 의료기기 사후관리 모니터링을 위해 세 가지 구체적인 도구를 개발하고 있다.

프로젝트 목적 활용 방안
OOD(Out-of-Distribution) 입력 감지 학습 데이터 분포에서 벗어난 입력을 실시간 탐지 새로운 환자 집단, 장비 변경, 데이터 품질 저하 조기 발견
Data Drift·성능 사전 모니터링 시계열 데이터에서 changepoint를 감지해 drift를 통계적으로 식별 PSI, CUSUM 등 기법의 실제 의료 데이터 적용 사례 확보
연합 평가(Federated Evaluation) 다수 임상 사이트에서 모델 성능을 분산 평가 환자 데이터를 중앙으로 모으지 않고 각 사이트에서 로컬 평가 후 결과만 집계

시사점: 한국 AI 의료기기 기업은 이러한 FDA 연구 결과가 향후 가이던스에 반영될 것을 예상하고, 연합 평가(federated evaluation) 아키텍처를 모니터링 인프라에 미리 고려해야 한다. 다수 미국 병원에 배포되는 디바이스의 경우, 중앙 집중식 데이터 수집이 HIPAA·IRB 허들을 넘기 어렵기 때문이다.

Clearance 직후 90일 실행 체크리스트

주차 행동 항목 담당
1~2주 Drift 모니터링 지표·임계값을 QMS 문서에 공식 등록 QA/데이터과학
3~4주 미국 임상 사이트 데이터 파이프라인 계약 체결 BD/QA
5~6주 자동화된 drift 감지 대시보드 구축 데이터과학/IT
7~8주 PCCP 수정 프로토콜과 drift 트리거 매핑 완료 RA/데이터과학
9~10주 첫 번째 월간 RWP 리포트 발행 QA/임상
11~12주 Bias audit 계획 확정 및 첫 분기 audit 착수 QA/데이터과학

참고 자료

  • FDA, "Predetermined Change Control Plan (PCCP)" 최종 가이던스 (2024년 12월)
  • FDA, "Measuring and Evaluating AI-enabled Medical Device Performance in the Real World; Request for Public Comment" (Docket No. FDA-2025-N-4203, 2025년 9월)
  • FDA, "Methods and Tools for Effective Postmarket Monitoring of AI-Enabled Medical Devices" (CDRH OSEL)
  • Hogan Lovells, "FDA seeks public comment on monitoring strategies for AI-enabled devices" (2025)
  • Paragon Institute, "Targeted Postmarket Surveillance: The Way Toward Responsible AI Innovation in Health Care"
  • Greenlight Guru, "FDA PCCP requirements for AI SaMD" (2026)
  • MDDI, "FDA's AI Device Regulations: Key Updates & Compliance Strategies" (2026년 4월)
  • Dayma et al., "Evaluating Transparency of PCCPs in FDA-Cleared Radiology AI Devices" (2026)