생성형 AI, 의료 진단 정확도 전공의 수준 도달…전문의보단 낮아

생성형 인공지능(AI)의 의료 진단 정확도가 전공의 수준에 근접했다는 연구 결과가 나왔다.

22일 미국 과학 전문 매체 ‘사이언스 데일리’는 일본 오사카공립대학교 연구진이 최근 학술지 ‘npj Digital Medicine’에 발표한 논문을 인용해 이같이 보도했다. 해당 논문은 ‘생성형 AI와 의사 간 진단 성능 비교에 대한 체계적 검토 및 메타 분석’을 통해 AI의 진단 능력을 분석했다.

연구팀은 2018년 6월부터 2024년 6월까지 발표된 1만8천여 편의 논문 가운데 엄선한 83편을 기반으로 메타 분석을 실시했다. 분석 대상에는 GPT-4, GPT-3.5, Claude 3, Gemini 등 주요 생성형 AI 모델이 포함됐으며, 이들의 평균 진단 정확도는 52.1%(95% 신뢰구간: 47.0~57.1%)로 나타났다.

이는 수련의 및 전공의 평균 진단 정확도인 52.7%와 유사한 수준이다. 전체 의사 집단의 평균 진단 정확도인 61.9%보다는 낮았지만, 통계적으로 유의한 차이는 없었다. 다만 전문의의 진단 정확도인 67.9%보다는 15.8%포인트 낮아, 이 차이는 통계적으로도 유의한 것으로 분석됐다.

연구진은 “생성형 AI는 아직 의료 전문가 수준의 진단을 완전히 대체할 수 있는 수준은 아니지만, 비전문의 수준에서는 보조 진단 도구로 충분한 가능성을 보였다”고 평가했다. 이어 “특히 의료 자원이 부족한 지역이나 의학 교육 시뮬레이션 환경에서 AI의 활용 가치는 주목할 만하다”고 설명했다.

연구진은 또 “이번 연구는 2024년 상반기까지의 데이터를 기반으로 했기 때문에, 최신 모델들의 성능이 더 향상됐을 가능성도 크다”고 덧붙였다. 실제로 GPT-4o, Claude 3, Gemini 등 차세대 모델의 성능은 계속 진화 중이며, Med-PaLM 2, Meditron, Clinical Camel 같은 의료 특화 AI의 개발도 본격화되고 있다.

향후에는 실제 진료 상황에 가까운 임상 시나리오를 기반으로 한 정밀한 평가가 필요하다는 것이 연구진의 제언이다.

댓글 남기기

EduKorea News에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기