A Systematic Review of ChatGPT and Other Conversational Large Language Models in Healthcare

Autor(es): Leyao Wang, Zhiyu Wan, Congning Ni, Qingyuan Song, Yang Li, Ellen Wright Clayton, Bradley A. Malin, Zhijun Yin

Año: 2024

Referencia bibliográfica:
Wang, L., Wan, Z., Ni, C., Song, Q., Li, Y., Clayton, E. W., Malin, B. A., & Yin, Z. (2024). A Systematic Review of ChatGPT and Other Conversational Large Language Models in Healthcare. MedRxiv. https://doi.org/10.1101/2024.04.26.24306390

Categoría asignada: Asistencia sanitaria pública

Resumen:

El artículo A Systematic Review of ChatGPT and Other Conversational Large Language Models in Healthcare, escrito por Leyao Wang y colegas, examina el uso de modelos de lenguaje a gran escala (LLM) en el ámbito de la salud, destacando tanto sus aplicaciones actuales como los desafíos técnicos y éticos que conllevan. La revisión sistemática recopila y analiza 65 estudios revisados por pares que evalúan la implementación de modelos conversacionales como ChatGPT, LLaMA y otros, en diversos escenarios médicos.

El artículo se enfoca en cuatro áreas principales donde los LLMs han mostrado mayor utilidad en el ámbito de la salud: resumen de información médica, consulta de conocimientos médicos, predicción y gestión administrativa. Los modelos LLM como ChatGPT han sido particularmente efectivos en la generación de resúmenes clínicos, la creación de notas médicas y la redacción de informes basados en directrices clínicas. Además, en el ámbito de la consulta de conocimientos médicos, estos modelos han mostrado una gran precisión al responder preguntas comunes sobre temas de salud y superar exámenes médicos como el USMLE (Examen de Licencia Médica de EE.UU.).

En cuanto a la predicción, ChatGPT y otros modelos han demostrado su capacidad para generar sugerencias diagnósticas y recomendaciones de tratamiento. En uno de los estudios evaluados, ChatGPT mostró un nivel de precisión del 93 % al listar los 10 diagnósticos más probables en un conjunto de casos clínicos simulados, aunque los médicos humanos lograron una precisión ligeramente superior (98 %). Además, los LLM han sido utilizados para prever interacciones entre medicamentos, con resultados satisfactorios en la identificación de posibles combinaciones peligrosas.

En términos de gestión administrativa, los LLM han optimizado tareas como la recopilación de datos de salud y la programación de citas, aliviando la carga de trabajo del personal médico. Por ejemplo, un chatbot basado en el modelo LLaMA fue utilizado en Corea del Sur para monitorear la salud de personas aisladas socialmente, ayudando a los trabajadores sociales a generar informes de salud y, al mismo tiempo, reduciendo la soledad en estos pacientes.

Sin embargo, el estudio también resalta importantes preocupaciones éticas y técnicas que podrían obstaculizar la implementación generalizada de estos modelos en la práctica clínica. La primera y más significativa preocupación es la fiabilidad de las respuestas generadas por los LLM. Aproximadamente el 85 % de los estudios revisados expresaron inquietudes sobre la precisión de los modelos, especialmente en tareas complejas como el diagnóstico médico. Se observó que los LLM pueden generar «alucinaciones», es decir, información incorrecta presentada de manera convincente, lo que puede inducir a error a los usuarios y afectar negativamente la toma de decisiones médicas.

Otra preocupación importante es el sesgo en los resultados de los modelos de lenguaje. Los datos de entrenamiento sesgados pueden perpetuar disparidades en el acceso a la atención médica, afectando a grupos ya vulnerables. Algunos estudios revelaron que ChatGPT tiende a generar respuestas con sesgos de género, raza y religión, lo que sugiere la necesidad de mejorar los conjuntos de datos utilizados para entrenar estos modelos. Además, existe una barrera económica, ya que el acceso a los modelos más avanzados, como GPT-4, está sujeto a tarifas de suscripción, lo que puede limitar su adopción en entornos de bajos recursos.

El artículo también aborda el tema de la privacidad, señalando que muchos sistemas de salud se muestran reacios a implementar estos modelos debido a las preocupaciones sobre la protección de datos. Aunque no se han reportado violaciones graves, los LLM podrían, inadvertidamente, exponer información sensible al entrenarse con datos clínicos. Por esta razón, algunos centros médicos han prohibido el uso de modelos como ChatGPT en sus instalaciones.

Finalmente, los autores sugieren que para superar estos desafíos, es necesario realizar más investigaciones orientadas a mejorar la precisión y la transparencia de los LLM en salud. Además, proponen que los desarrolladores trabajen en colaboración con expertos médicos y responsables de políticas para establecer regulaciones adecuadas que mitiguen los riesgos éticos, garanticen la seguridad de los datos y promuevan la equidad en la atención médica basada en IA.

En conclusión, el artículo proporciona una visión integral del estado actual de los modelos conversacionales en la atención médica y subraya las áreas donde se necesitan avances para garantizar su integración segura y efectiva en los sistemas de salud.

Información Veraz

Empatía y Motivación

Lenguaje y Comunicación

Ética y regulación

Manejo de datos

Coste-Efectividad

Innovación y Emprendimiento

Asistencia sanitaria pública

Asistencia sanitaria privada

A Systematic Review of ChatGPT and Other Conversational Large Language Models in Healthcare

What are your Feelings

Deja una respuesta Cancelar la respuesta

What are your Feelings

Comparte este artículo:

¿Cómo podemos ayudar?

Deja una respuesta Cancelar la respuesta