인공지능의 임상검증 방법론(알고리즘 정확도, 임상적 유용성)
인공지능의 임상검증 방법론(알고리즘 정확도, 임상적 유용성)
의학적 진단과 판단을 보조하는 인공지능 알고리즘들이 이제 개발단계를 지나 환자 진료에 점차 도입되고 있습니다. 인터넷 검색을 해보면 이러한 인공지능 알고리즘의 높은 정확도를 알리는 글도 많이 발견할 수 있습니다. 그런데 인공지능 알고리즘이 진로에 보급되면서 제한된 실험실 환경이 아닌 실제 진료환경에서는 정확도가 낮아지는 현상이 나타나 주목을 받고 있습니다. 최근 미국 위스콘신 의과대학이 미국 식품의약국으로부터 이미 의료기기 허가를 받아 시판되고 있는 한 인공지능 알고리즘의 정확도에 대한 연구결과를 발표하였습니다. 이 인공지능 알고리즘은 경추의 전산화 단층 촬영 영상을 분석해서 경추 골절이 있는지를 진단하는데, 미국 식품의약국 허가자료에 따르면 민감도 91.7%, 특이도 88.6%로 보고되어 있으나, 실제 위스콘신 의과대학 병원에서 테스트를 해보니 민감도 54.9%, 특이도 94.1%로 큰 차이가 있었습니다. 어떻게 이런 일이 일어나는 것일까요. 환자의 건강과 안전을 위해서는 인공지능 알고리즘을 환자에게 사용하기 전에 충분한 임상검증이 하여야 합니다. 인공지능 알고리즘의 임상검증은 어떻게 해야 할까요.
알고리즘의 정확도에 대한 임상검증
인공지능 알고리즘의 임상검증은 크게 두 가지로 구분됩니다. 하나는 알고리즘의 정확도에 대한 임상검증이고, 다른 하나는 임상적 유용성에 대한 임상검증입니다. 먼저 인공지능 알고리즘의 정확도에 대한 임상검증 방법을 알아보겠습니다. 인공지능 알고리즘에 따라 약간 달라지지만 정확도 평가에는 다음과 같은 지표들이 주로 사용됩니다. 민감도, 특이도, ROC 곡선 면적, 양성 예측도, Precision-Recall 곡선 면적, F1 점수 이 중 민감도, 특이도, ROC 곡선 면적이 가장 자주 이용되며, 이들에 대해서 유방촬영 검사 영상에서 유방암을 진단하는 인공지능 알고리즘을 예로 설명해 보겠습니다. 민감도는 유방암이 있는 환자 중 인공지능이 유방암이 있다고 결과를 제시한 비율이고, 특이도는 유방암이 없는 환자 중 인공지능이 유방암이 없다고 결과를 제시한 비율을 말합니다. 그런데 인공지능 알고리즘은 실제로는 유방암이 있을 가능성을 마치 확률처럼 가령 0에서 1 사이의 어떤 숫자로 제시하는 것이고, 어느 값 이상이면 인공지능이 유방암이 있다고 판단한 것인지를 미리 정해 놓고 이에 따라 사용자에게 최종 결과를 제시하게 됩니다. 그러므로, 기준을 어떻게 정하는지에 따라 알고리즘의 민감도와 특이도가 달라지게 됩니다. 기준을 0에서 1까지 조금씩 높여가며, 민감도와 특이도를 구해볼 수 있습니다. 기준을 높임에 따라 민감도는 점차 낮아지고, 특이도는 점차 높아지게 됩니다. ROC 곡선 면적은 0에서 1까지 값을 가지며 값이 클수록 높은 정확도를 의미합니다. 인공지능 알고리즘의 정확도를 평가할 때, 인공지능 알고리즘의 일반화에 대한 취약성을 반드시 고려해야 합니다. 인공지능 알고리즘은 학습에 사용된 데이터에 대해서는 매우 높은 정확도를 보이지만 학습에 사용된 것과 다른 데이터에서는 정확도가 낮아지는 약점을 가지고 있습니다. 인공지능의 일반화에 대한 취약성은 특히 의료 분야 인공지능에서 더 문제가 되고 있는데, 가장 중요한 이유는 의료 데이터가 의료기관, 시기, 지역, 국가, 인종 등에 따라 차이가 있는 경우가 많기 때문입니다. 이로 인해 인공지능 알고리즘이 한 병원에서는 정확하더라도 다른 병원에서는 정확하지 않은 일들이 자주 발생합니다. 앞에서 이야기드렸던 위스콘신 의과대학병원에서 테스트를 했을 때, 미국 식품의약국 허가 때와는 달리 정확도가 많이 낮아졌던, 경추골절 진단 인공지능 알고리즘의 경우도 일반화에 대한 취약성으로 설명할 수 있습니다. 따라서 인공지능 알고리즘의 정확도를 임상 검증할 때에는 외부 검증이 중요합니다. 외부 검증을 위해서는 일반적으로 알고리즘 개발에 사용된 자료를 수집한 의료기관이 아닌 외부 의료기관의 자료를 이용하거나 개발에 사용된 자료와는 시기를 달리하여 새로 수집된 자료를 이용합니다. 인공지능 알고리즘을 개발하기 위해 수집한 자료 중 일부를 떼어 학습 및 미세조정에 쓰지 않고 따로 두었다가 완료된 인공지능 알고리즘의 성능을 평가하는 데 사용하는 경우가 많은데, 이것은 외부 검증이 아닌 내부 검증입니다. 한 의료기관에서 외부 검증을 했을 때, 정확도가 높다고 하더라도 다른 의료기관에서 검증하면 정확도가 낮을 수 있으므로 가능한 많은 의료기관에서 외부 검증을 하는 것이 바람직하며, 무엇보다도 어떤 인공지능 알고리즘을 사용하고자 하는 특정 의료 환경과 임상적 상황을 잘 반영하는 외부자료를 이용해 검증을 하는 것이 중요하겠습니다.
임상적 유용성에 대한 임상검증
인공지능 알고리즘의 임상적 유용성 검증에 대해서 알아보겠습니다. 임상적 유용성 검증이라는 것은 인공지능 알고리즘이 실제로 환자 진료에 어떤 도움을 주는지를 알아보는 것을 말합니다. 알고리즘의 정확도가 높으면 임상적 유용성이 있을 가능성이 높겠지만 반드시 그런 것은 아닙니다. 반대로 알고리즘의 정확도가 아주 높지 않더라도 인공지능 알고리즘을 어떻게 사용하는가에 따라 임상적인 유용성이 있을 수도 있습니다. 인공지능 알고리즘의 임상적인 유용성 검증과 관련하여 뉴욕 마운트 사이나이 병원에서 수행된 한 연구의 예를 말씀드리겠습니다. 연구자들이 이 연구에서 평가한 인공지능 알고리즘은 두부 전산화 단층 촬영 영상을 가지고 뇌의 큰 혈관에 혈전증으로 인한 폐쇄가 있는지를 분석합니다. 연구자들은 뇌졸중이 의심되어 응급으로 두부 전산화 단층 촬영 검사를 받는 환자들이 있으면 검사와 동시에 이 인공지능이 영상을 분석할 수 있도록 설치를 하였고, 만일 뇌의 큰 혈관의 폐쇄가 의심되는 경우에는 인공지능이 자동으로 혈전용해술팀에게 즉시 응급 호출을 보내도록 하였습니다. 이와 달리, 통상의 진료 흐름은 검사 후 영상의학과 의사가 영상을 판독하고 판독 결과를 치료를 담당하는 의료진에 전달한 후, 혈전용해술이 필요하다 결정되면 혈전용해술 팀을 소집하는 단계를 거치게 되는데, 진료 업무가 많은 병원의 경우 상당한 시간이 소요될 수 있습니다. 따라서 인공지능을 사용함으로써, 혈전용해술 팀을 소집하는 데에 걸리는 시간을 단축시킬 수 있습니다. 뇌의 대혈관 폐쇄로 인한 뇌졸중은 치료를 위한 골든타임이 짧아 치료까지 시간을 단축시키는 것이 치료 결과의 큰 영향을 미칩니다. 실제로 인공지능을 사용했을 경우, 환자가 응급실에 도착하는 때부터 혈전용해술 팀에 연락하는 데까지 소요되는 시간이 중윗값을 기준으로 40분에서 25분으로 짧아졌고, 더 일정해졌으며 환자가 응급실에 도착하는 때부터 혈전용해술을 시작하기까지의 시간도 중위값 기준으로 25분이 줄었습니다. 또, 눈여겨볼 부분은 이 인공지능이 아주 정확하지는 않아 불필요한 호출을 하는 경우도 발생한다는 점입니다. 하지만 신속한 치료에 따른 환자 치료 효과의 향상으로 인한 이득이 불필요한 호출로 인한 손해보다 커서 임상적인 유용성이 입증되었습니다. 만일 알고리즘의 정확도만 가지고 평가를 하였다면 임상적 유용성을 판단하기 어려웠을 것입니다. 이러한 결과를 바탕으로 2020년 9월, 미국의 Centers for Medicare and Medicaid Services가 이 인공지능 알고리즘의 사용에 대해 가산료 형태로 의료보험을 적용하기로 결정하였는데, 인공지능 알고리즘의 의료보험이 인정되는 최초의 사례가 되었습니다. 이와 같이 인공지능 알고리즘의 임상적 유용성 검증은 진단 정확도 검증과는 다른 면이 있고, 인공지능 알고리즘의 정확도뿐 아니라 인공지능 알고리즘을 진료환경과 흐름 내에 어떻게 배치할 때, 의료인과 인공지능 간에 효과적인 협업을 이루어낼 수 있는지에 대한 고려도 매우 중요합니다.