본문 바로가기

[건강]AI(인공지능)이 의사보다 의학적 질문에 잘 답할 수 있을까

100호비 2024. 5. 15.
728x90

작년에는 인공지능(AI)에 관한 연구를 설명하는 헤드라인이 눈길을 끌었습니다:

  • 공감과 조언에 있어 실제 의사보다 나은 것으로 평가된 ChatGPT 이제 인공지능이 당신을 만납니다:
  • ChatGPT는 실제 의사보다 더 높은 품질의 답변을 제공하고 더 공감한다는 연구 결과가 나왔습니다.
  • 인공지능이 의사보다 더 나은가요? ChatGPT는 공감 능력과 조언의 질에서 의사를 능가합니다.

언뜻 보기에 AI를 사용하는 챗봇이 환자의 질문에 대해 좋은 답변을 제공할 수 있다는 생각은 놀라운 일이 아닙니다. 실제로 ChatGPT는 와튼 MBA 최종 시험에 합격하고, 몇 시간 만에 책을 집필하고, 독창적인 음악을 작곡했다고 자랑하고 있습니다. 하지만 의사보다 더 많은 공감을 보여준다고요? 아야. 품질과 공감 능력에 대한 최종 우열을 가리기 전에 다시 한 번 살펴봅시다.

 

의료 분야에서 AI는 어떤 일을 하고 있을까요?

이미 의사의 진료 기록 작성, 진단 제안, 엑스레이 및 MRI 스캔 판독 지원, 심박수나 산소 수치와 같은 실시간 건강 데이터 모니터링 등 의료 분야에서 AI의 활용 범위가 빠르게 늘어나고 있습니다. 하지만 AI가 생성한 답변이 실제 의사보다 더 공감할 수 있다는 생각에 놀라움과 슬픔을 동시에 느꼈습니다. 어떻게 가장 진보된 기계조차도 이 중요하고 특히 인간적인 미덕을 발휘하는 데 있어 의사보다 더 나은 성능을 발휘할 수 있을까요?

 

AI가 환자의 질문에 좋은 답변을 제공할 수 있을까요?

흥미로운 질문입니다. 복용 중인 약에 대해 궁금한 점이 있어 병원에 전화했다고 상상해 보세요. 나중에 의료팀의 임상의가 다시 전화하여 이에 대해 논의합니다. 이제 다른 시나리오를 상상해 보세요. 이메일이나 문자로 질문을 하고 몇 분 안에 AI를 사용하여 컴퓨터가 생성한 답변을 받는다고 가정해 보세요. 이 두 가지 상황의 의료 답변은 품질 측면에서 어떻게 비교될까요? 그리고 공감도 측면에서는 어떻게 비교할 수 있을까요? 이러한 질문에 답하기 위해 연구자들은 온라인 소셜 미디어 사이트의 익명의 사용자로부터 195개의 질문과 답변을 수집하여 답변을 자원한 의사들에게 질문했습니다.

 

이 질문은 나중에 ChatGPT에 제출되어 챗봇의 답변을 수집했습니다. 그런 다음 의사 또는 간호사 3명으로 구성된 패널이 두 답변 세트의 품질과 공감도를 평가했습니다. 패널은 5점 척도로 "어떤 답변이 더 좋았나요?"라는 질문을 받았습니다. 품질에 대한 평가 옵션은 매우 나쁨, 나쁨, 보통, 좋음, 매우 좋음이었습니다. 공감도에 대한 평가 옵션은 공감하지 않음, 약간 공감함, 보통 공감함, 공감함, 매우 공감함 등이었습니다.

 

연구 결과는 어땠나요?

결과는 박빙이었습니다. 거의 80%의 답변에서 ChatGPT가 의사보다 더 나은 것으로 간주되었습니다.

  • 답변의 질이 좋거나 매우 좋았습니다: 의사는 22%의 응답에서만 이 등급을 받은 반면, ChatGPT는 78%의 응답에서 이 등급을 받았습니다.
  • 공감하거나 매우 공감하는 답변: ChatGPT는 45%, 의사는 4.6%의 점수를 받았습니다.

주목할 만한 점은 답변의 길이가 ChatGPT(평균 211단어)보다 의사(평균 52단어)가 훨씬 짧았다는 점입니다. 앞서 말했듯이 거의 비슷하지도 않습니다. 그렇다면 숨이 턱턱 막힐 정도로 긴 헤드라인이 모두 적절했을까요?

 

그렇지 않습니다: 이 AI 연구의 중요한 한계

이 연구는 두 가지 핵심 질문에 답하기 위해 설계되지 않았습니다:

  • AI 응답이 정확한 의료 정보를 제공하고 혼란이나 피해를 방지하면서 환자의 건강을 개선할 수 있는가?
  • 환자가 의사에게 질문하면 봇이 답변할 수 있다는 생각을 받아들일 것인가?

 

그리고 몇 가지 심각한 한계가 있었습니다:

  • 답변 평가 및 비교: 평가자들은 품질과 공감에 대해 검증되지 않은 주관적인 기준을 적용했습니다. 중요한 것은 답변의 실제 정확성을 평가하지 않았다는 점입니다. 또한 ChatGPT에서 지적되어 온 문제인 답변의 조작 여부도 평가하지 않았습니다.
  • 답변 길이의 차이: 더 자세한 답변은 인내심이나 관심을 반영하는 것으로 보일 수 있습니다. 따라서 공감에 대한 높은 평가는 진정한 공감보다는 단어 수와 더 관련이 있을 수 있습니다.
  • 불완전한 블라인드: 편견을 최소화하기 위해 평가자는 답변이 의사로부터 온 것인지 ChatGPT로부터 온 것인지 알 수 없도록 했습니다. 이를 "블라인드"라고 하는 일반적인 연구 기법입니다. 하지만 AI가 생성한 대화가 항상 사람과 똑같이 들리는 것은 아니며, AI의 답변은 훨씬 더 길었습니다. 따라서 적어도 일부 답변에 대해서는 평가자가 블라인드를 하지 않았을 가능성이 높습니다.

 

결론

의사가 AI가 생성한 답변을 통해 공감의 표현에 대해 무언가를 배울 수 있을까요? 가능성은 있습니다. 의사가 검토하고 수정할 수 있는 답변을 생성하는 협업 도구로서 AI가 잘 작동할 수 있을까요? 실제로 일부 의료 시스템에서는 이미 이러한 방식으로 AI를 사용하고 있습니다. 하지만 정확성에 대한 확실한 증거와 의료 전문가의 실제 감독 없이 환자의 질문에 대한 AI 답변에 의존하는 것은 시기상조인 것 같습니다. 이 연구도 그런 것을 제공하고자 설계된 것이 아닙니다.

 

그런데 ChatGPT도 이에 동의합니다: 의학적 질문에 의사보다 더 잘 대답할 수 있는지 물어보았습니다. 대답은 '아니오'였습니다. AI 지니가 환자의 질문에 자유롭게 대답할 수 있는 시기가 언제인지 알기 위해서는 더 많은 연구가 필요합니다. 아직 그 단계에 이르지는 못했지만 점점 가까워지고 있습니다. 연구에 대한 자세한 정보를 원하시나요? 이쑤시개를 삼킨 후 발생할 수 있는 결과에 대한 우려에 대한 답변 등 의사와 챗봇이 작성한 답변을 읽어보세요.

728x90

댓글