Autor(es): Shreya Johri, Jaehwan Jeong, Benjamin A. Tran MD, Daniel I. Schlessinger MD, Shannon Wongvibulsin MD PhD, Zhuo Ran Cai MD, Roxana Daneshjou MD PhD, Pranav Rajpurkar PhD
Año: 2023
Referencia bibliográfica:
Johri, S., Jeong, J., Tran, B. A., Schlessinger, D. I., Wongvibulsin, S., Cai, Z. R., Daneshjou, R., & Rajpurkar, P. (2023). Testing the Limits of Language Models: A Conversational Framework for Medical AI Assessment. medRxiv. https://doi.org/10.1101/2023.09.12.23295399
Categoría asignada: Lenguaje y comunicación
Resumen:
El artículo Testing the Limits of Language Models: A Conversational Framework for Medical AI Assessment presenta un enfoque innovador para evaluar el rendimiento de modelos de lenguaje generativo (LLMs) como GPT-3.5 y GPT-4 en contextos clínicos, utilizando un marco de evaluación conversacional. El objetivo principal del estudio es medir la precisión de estos modelos en diagnósticos médicos, especialmente en el campo de las enfermedades dermatológicas, mediante un entorno de diálogo entre un “doctor-AI” y un “paciente-AI”. Los autores argumentan que las evaluaciones tradicionales, basadas en preguntas de examen estáticas, no capturan las complejidades de los diálogos clínicos reales y, por lo tanto, proponen un marco más interactivo.
La metodología central del estudio es el Conversational Reasoning Assessment Framework for Testing in Medicine (CRAFT-MD), un marco multiagente en el que un doctor-AI interactúa con un paciente-AI para obtener información médica, formular un diagnóstico y ser evaluado por un grader-AI y expertos médicos. Los autores diseñaron este marco para reflejar la realidad clínica de la toma de historia médica, donde el intercambio de información en múltiples turnos de conversación es esencial para un diagnóstico preciso. El estudio se enfocó en 140 casos clínicos de enfermedades dermatológicas, que fueron transformados de viñetas estáticas a casos interactivos.
Uno de los principales hallazgos es que la precisión en los diagnósticos disminuyó significativamente cuando se utilizaron interacciones conversacionales en lugar de las viñetas tradicionales. Para GPT-4, la precisión cayó de un 91.9 % en preguntas de opción múltiple basadas en viñetas a un 85.4 % en el formato conversacional, mientras que GPT-3.5 mostró una caída más pronunciada, del 83.3 % al 72.4 %. Estos resultados sugieren que, aunque los LLMs muestran un alto rendimiento en pruebas estáticas, tienen dificultades para integrar detalles clínicos dispersos a lo largo de una conversación, lo que afecta su capacidad de razonamiento clínico en un contexto dinámico.
El estudio también reveló que el formato de conversación multi-turno no mejoró la precisión de manera significativa. Los autores esperaban que este tipo de interacciones permitiera a los modelos obtener información más detallada del paciente, pero los resultados mostraron que tanto GPT-4 como GPT-3.5 no lograron aumentar su precisión en comparación con interacciones de un solo turno. Esto resalta las limitaciones de los modelos actuales para procesar y utilizar información a lo largo de conversaciones más prolongadas.
Para mitigar estas deficiencias, los autores introdujeron la técnica de Conversational Summarization, que consiste en condensar los detalles de las interacciones multi-turno en un solo resumen. Esta técnica mejoró notablemente el rendimiento de GPT-3.5, aumentando su precisión diagnóstica del 72.4 % al 81.0 %, aunque no tuvo un impacto significativo en GPT-4. Este hallazgo sugiere que los LLMs más avanzados, como GPT-4, tienen una mayor capacidad para manejar conversaciones complejas sin la necesidad de resúmenes, mientras que modelos más antiguos como GPT-3.5 se benefician de un enfoque más estructurado.
Además de las evaluaciones cuantitativas, los expertos médicos identificaron varias deficiencias cualitativas en los diálogos de los LLMs. En el 26.6 % de las interacciones con GPT-4 y el 30.0 % con GPT-3.5, los modelos no lograron recopilar toda la información médica relevante, lo que afectó su capacidad para generar diagnósticos precisos. También se observó que los modelos a veces utilizaban terminología médica compleja, lo que iba en contra de las instrucciones de usar un lenguaje accesible para pacientes sin conocimientos médicos.
El artículo concluye que, aunque los modelos de lenguaje generativo muestran un gran potencial para mejorar la toma de decisiones clínicas, aún enfrentan importantes desafíos antes de poder integrarse en entornos médicos reales. Las limitaciones en la capacidad de razonamiento conversacional y la falta de precisión en el diagnóstico basado en interacciones dinámicas indican que se necesita un desarrollo adicional para mejorar la comprensión del contexto y la integración de detalles clínicos. Los autores sugieren que futuros avances en la evaluación de LLMs deberían centrarse en escenarios más complejos y abiertos, alejándose de las preguntas estáticas de opción múltiple hacia la toma de decisiones clínicas en tiempo real.