의료 인공지능(AI) 기업 루닛과 서울대학교병원 영상의학과 박창민 교수팀이 정확도가 높은 AI 모델을 사용한 경우에만 판독자의 검출 능력이 향상된다는 연구 결과를 발표했다.

이번 연구는 서울대병원에서 지난 2015년 12월부터 2021년 2월까지 흉부 엑스레이를 촬영한 120명의 환자를 대상으로 진행되었으며 영상 판독자(Readers)로 흉부 영상의학과 전문의(thoracic radiologists) 20명과 영상의학과 레지던트(radiology residents) 10명, 총 30명이 참여했다.

연구팀은 폐암이 검출된 흉부 엑스레이 영상 60장과 암이 없는 정상 소견 영상 60장 등 총 120장의 영상을 AI 도움 없이 각자 단독으로 1차 판독했다.

이후 판독의를 15명씩 두 그룹으로 나눠 A그룹은 정확도가 높은 AI를, B그룹은 정확도가 낮은 AI를 각각 활용해 2차 판독했다.

연구를 위해 A그룹은 흉부 엑스레이 AI 영상분석 솔루션 '루닛 인사이트 CXR'의 고성능 알고리즘을 사용했고, B그룹은 전체 학습 데이터의 10%만 학습한 상대적으로 저성능 알고리즘을 사용했다.

루닛의 흉부 엑스레이 AI 영상분석 솔루션 '루닛 인사이트 CXR'
루닛의 흉부 엑스레이 AI 영상분석 솔루션 '루닛 인사이트 CXR'

그 결과, 인공지능 모델의 성능평가 지표인 AUROC(Area Under the Receiver Operating Characteristic) 분석에서 고성능 루닛 인사이트 CXR 알고리즘의 단독 폐암 검출 능력은 0.88로, 저성능 알고리즘 0.77에 비해 높은 정확도를 나타냈다.

또한, A그룹 판독의가 1차 판독 후 루닛 인사이트 CXR을 활용해 2차 판독한 경우 AUROC 수치는 0.77에서 0.82로 향상됐다.

반면 B그룹 판독의들은 1·2차 판독 모두 0.75을 기록하며 수치상 변화가 없었다. 통상적으로 AUROC 수치가 1에 가까울수록 성능이 뛰어나며, 0.8 이상인 경우 고성능 모델로 평가된다.

이와 함께 연구에서는 판독의의 1차 단독 판독 결과와 2차 판독 시 AI의 결과가 서로 엇갈릴 경우, AI가 제안한 결과에 따라 판정을 수정한 비율을 측정했다.

연구 결과, 1차에서 판독의가 독자적으로 판독한 결과와 상충하는 AI 결과가 2차에서 제시되는 경우에 해당 제안을 받아들여 최종 판독을 뒤집은 경우는 A그룹 67%, B그룹 59%로, 고성능 알고리즘을 사용한 집단에서 인공지능에 대한 수용성(Susceptibility)이 더 높았다.

박창민 교수는 "이번 연구에서는 AI를 사용한 2차 판독의 정확도에 영향을 미치는 요인을 분석하기 위해 판독의들의 경력기간, AI에 대한 인식, AI 사용 및 연구경험 유무 등을 사전에 조사했다"며 "그 결과 개별 판독의의 1차 진단 정확도와 AI 자체의 정확도 만이 AI를 사용해 2차 판독한 의료진의 정확도에 유의미한 영향을 미쳤을 뿐, 판독의 고유의 경험과 성향은 무관한 것으로 나타났다"고 말했다.

서범석 루닛 대표는 "이번 연구는 개별 의료진의 특성과 무관하게, 성능이 높은 AI를 활용해야만 판독 개선 효과와 함께 AI에 대한 의료진의 수용성이 높아진다는 것을 확인한 연구"라며 "앞으로도 루닛은 의료진의 판독 정확도를 높이고, 환자들에게 보다 정확한 정보를 제공할 수 있도록 AI 성능 향상에 매진하겠다"고 말했다.

이번 연구결과는 미국영상의학회(RSNA)가 발간하는 국제학술지 'Radiology'에 게재됐다.

저작권자 © 코리아헬스로그 무단전재 및 재배포 금지