View Categories

Almanac — Retrieval-Augmented Language Models for Clinical Medicine

4 min read

Autor(es): Cyril Zakka, Rohan Shad, Akash Chaurasia, Alex R. Dalal, Jennifer L. Kim, Michael Moor, Robyn Fong, Curran Phillips, Kevin Alexander, Euan Ashley, Jack Boyd, Kathleen Boyd, Karen Hirsch, Curt Langlotz, Rita Lee, Joanna Melia, Joanna Nelson, Karim Sallam, Stacey Tullis, Melissa Ann Vogelsong, John Patrick Cunningham, William Hiesinger.

Año: 2024

Referencia bibliográfica:
Zakka, C., Shad, R., Chaurasia, A., Dalal, A. R., Kim, J. L., Moor, M., Fong, R., Phillips, C., Alexander, K., Ashley, E., Boyd, J., Boyd, K., Hirsch, K., Langlotz, C., Lee, R., Melia, J., Nelson, J., Sallam, K., Tullis, S., Vogelsong, M. A., Cunningham, J. P., & Hiesinger, W. (2024). Almanac — Retrieval-Augmented Language Models for Clinical Medicine. NEJM AI, 1(2). https://doi.org/10.1056/AIoa2300068

Categoría asignada: Innovación y emprendimiento

Resumen:

El artículo Almanac — Retrieval-Augmented Language Models for Clinical Medicine presenta el desarrollo y evaluación de un modelo de lenguaje grande (LLM) denominado Almanac, diseñado para apoyar la toma de decisiones clínicas mediante la integración de herramientas de búsqueda en tiempo real y acceso a bases de datos especializadas. Los autores buscan abordar los problemas que surgen cuando los LLM generan información incorrecta o no basada en evidencia médica (alucinaciones), lo que ha limitado su adopción en entornos clínicos.

El sistema Almanac se distingue de los LLM tradicionales, como ChatGPT-4 y Bard, en que incorpora un componente de recuperación de información en tiempo real, lo que permite al modelo acceder a fuentes médicas confiables, como PubMed, UpToDate y BMJ Best Practices, para responder a preguntas clínicas abiertas. Este enfoque asegura que las respuestas generadas estén respaldadas por evidencia científica actualizada, mejorando así la precisión y seguridad del modelo en la toma de decisiones médicas.

El estudio fue diseñado para evaluar cuatro métricas clave en la toma de decisiones clínicas: factualidad, integridad, preferencia de los usuarios y seguridad adversarial. Se compararon las respuestas de Almanac con otros LLMs populares, utilizando un conjunto de 314 preguntas clínicas distribuidas en nueve especialidades médicas, incluidas cardiología, cirugía torácica, neurología y enfermedades infecciosas. Un panel de médicos y profesionales de la salud revisó y evaluó las respuestas generadas.

Los resultados mostraron que Almanac superó a los LLM tradicionales en todos los aspectos evaluados. En términos de factualidad, las respuestas de Almanac fueron correctas en el 91% de los casos, mientras que ChatGPT-4 y Bard obtuvieron puntuaciones inferiores, principalmente debido a referencias no confiables o inexistentes. Además, Almanac destacó en integridad, al abordar todos los aspectos relevantes de las preguntas clínicas, con un 85% de respuestas completas, comparado con un 72% de ChatGPT-4 y un 64% de Bard.

Una característica distintiva de Almanac es su enfoque en la seguridad adversarial. A menudo, los LLM pueden ser vulnerables a manipulaciones malintencionadas, lo que puede llevar a resultados peligrosos en la atención médica. En pruebas de seguridad, Almanac mostró una capacidad superior para resistir estos ataques al negarse a responder cuando la información recuperada no era confiable o cuando se intentaba manipular el modelo mediante comandos ocultos. En este aspecto, superó significativamente a ChatGPT-4, que mostró una mayor susceptibilidad a generar respuestas incorrectas bajo este tipo de condiciones.

Además de mejorar la precisión y la seguridad, Almanac también fue preferido por los usuarios clínicos debido a su capacidad para proporcionar respuestas bien fundamentadas y comprensibles. Los médicos en el estudio destacaron que el modelo ofrecía explicaciones claras, citas precisas y acceso rápido a las fuentes, lo que facilita la verificación independiente de las recomendaciones médicas.

Sin embargo, los autores señalan varias limitaciones. Aunque Almanac demostró un rendimiento robusto en escenarios clínicos simulados, su aplicación en el mundo real aún debe ser validada en estudios prospectivos más amplios. También identificaron desafíos en la evaluación continua de los modelos, ya que los sistemas de recuperación de información dependen de la actualización constante de las bases de datos y de la optimización de algoritmos de búsqueda. Además, la dependencia de la intervención humana para evaluar las respuestas limita la escalabilidad de este enfoque.

En conclusión, Almanac representa un avance importante en la integración de modelos de lenguaje grande en la atención médica, al combinar la capacidad de generación de texto con la recuperación de información basada en evidencia. Este enfoque puede ayudar a mejorar la precisión y seguridad en la toma de decisiones clínicas, siempre que se implemente con las salvaguardias adecuadas. Los autores sugieren que este tipo de modelos tienen un enorme potencial para transformar la atención médica, pero se requiere más investigación para garantizar su efectividad y fiabilidad en entornos clínicos reales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MENU