View Categories

Evaluation and Mitigation of the Limitations of Large Language Models in Clinical Decision-Making

4 min read

Autor(es): Paul Hager, Friederike Jungmann, Robbie Holland, Kunal Bhagat, Inga Hubrecht, Manuel Knauer, Jakob Vielhauer, Marcus Makowski, Rickmer Braren, Georgios Kaissis, Daniel Rueckert

Año: 2024

Referencia bibliográfica:
Hager, P., Jungmann, F., Holland, R., Bhagat, K., Hubrecht, I., Knauer, M., Vielhauer, J., Makowski, M., Braren, R., Kaissis, G., & Rueckert, D. (2024). Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nature Medicine, 30, 1-15. https://doi.org/10.1038/s41591-024-03097-1

Categoría asignada: Asistencia sanitaria pública

Resumen:

El artículo Evaluation and Mitigation of the Limitations of Large Language Models in Clinical Decision-Making analiza el rendimiento y las limitaciones de los modelos de lenguaje grande (LLM) en el contexto de la toma de decisiones clínicas. Utilizando un conjunto de datos de casos clínicos reales (MIMIC-IV) que incluye 2,400 pacientes con patologías abdominales comunes, los autores investigan cómo los LLM, como Llama 2 Chat y Clinical Camel, se comparan con médicos experimentados en la precisión diagnóstica y el cumplimiento de las guías de tratamiento.

El estudio comienza destacando el potencial de los LLM para revolucionar la atención médica, desde la generación de informes hasta el apoyo diagnóstico. Sin embargo, señala que estas tecnologías presentan deficiencias significativas cuando se enfrentan a escenarios clínicos reales, como la toma de decisiones autónoma en pacientes con múltiples síntomas. A diferencia de los exámenes de licencias médicas o los desafíos clínicos hipotéticos en los que los LLM suelen sobresalir, los entornos clínicos reales requieren una capacidad para recopilar información de manera iterativa, seguir guías diagnósticas y manejar datos complejos.

En las pruebas realizadas con el conjunto de datos MIMIC-CDM-FI, los LLM no alcanzaron la precisión diagnóstica de los médicos humanos. En un subconjunto de 80 pacientes evaluados, los LLM obtuvieron una precisión promedio significativamente menor que los médicos (P < 0.001), especialmente en el diagnóstico de enfermedades como colecistitis y diverticulitis. Por ejemplo, mientras que los médicos alcanzaron una precisión cercana al 90% en colecistitis, los modelos apenas superaron el 50%.

Los LLM también fallaron en adherirse a las guías clínicas para el diagnóstico y tratamiento. Aunque algunos modelos solicitaron exámenes físicos, en muchos casos no solicitaron las pruebas de laboratorio o de imágenes necesarias, lo que resultó en diagnósticos incorrectos. Además, los modelos no interpretaron correctamente los resultados de laboratorio, lo que representa un riesgo considerable para la seguridad del paciente. Por ejemplo, solo el 50% de los resultados de pruebas elevadas fueron correctamente identificados como anormales por Llama 2 Chat.

Otro hallazgo importante fue que los LLM son sensibles a la cantidad y el orden de la información que se les proporciona. Los modelos funcionaron mejor cuando se les proporcionó una sola prueba de diagnóstico, como un informe de radiología, en lugar de múltiples datos. Esto indica una incapacidad para manejar grandes cantidades de información y extraer las señales más relevantes para el diagnóstico. Además, cambios menores en las instrucciones, como la frase “diagnóstico principal” en lugar de “diagnóstico final”, afectaron drásticamente la precisión del modelo, lo que sugiere que estos sistemas aún no están listos para integrarse en flujos de trabajo clínicos sin una supervisión exhaustiva.

Los autores también sugieren algunas soluciones para mitigar estas limitaciones. Implementaron un protocolo de resumen automático para manejar la cantidad de información procesada por los LLM, lo que mejoró modestamente el rendimiento. Sin embargo, este enfoque no resuelve completamente los problemas inherentes a la incapacidad de los modelos para interpretar correctamente los resultados de laboratorio o seguir las guías clínicas. A largo plazo, proponen que los modelos futuros deben ser afinados mediante técnicas de entrenamiento especializado y optimización de instrucciones, lo que podría mejorar su capacidad para seguir indicaciones y tomar decisiones más informadas.

En conclusión, aunque los LLM tienen un enorme potencial para servir como herramientas de apoyo en la toma de decisiones clínicas, actualmente no están preparados para asumir un papel autónomo en este contexto debido a sus deficiencias en la precisión diagnóstica, la interpretación de datos y la adherencia a las guías de tratamiento. Los autores abogan por un enfoque colaborativo entre médicos y LLM, donde estos últimos sirvan como una segunda opinión imparcial en lugar de actuar de manera autónoma. Además, hacen un llamado a continuar desarrollando y evaluando estos modelos en escenarios clínicos más amplios y diversos para asegurar su eficacia y seguridad en el futuro.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MENU