Author(s): Thomas Savage, Ashwin Nayak, Robert Gallo, Ekanath Rangan, Jonathan H. Chen
Year: 2024
Bibliographic Reference (APA format):
Savage, T., Nayak, A., Gallo, R., Rangan, E., & Chen, J. H. (2024). Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. npj Digital Medicine, 7(20). https://doi.org/10.1038/s41746-024-01010-1
Assigned Category: Lenguaje y comunicación
Resumen:
El artículo explora cómo los modelos de lenguaje a gran escala (LLMs) como GPT-4 pueden utilizar técnicas de razonamiento diagnóstico para imitar los procesos cognitivos clínicos sin perder precisión en el diagnóstico. Uno de los desafíos principales en el uso de LLMs en medicina es la percepción de que emplean métodos ininterpretables para la toma de decisiones clínicas, distintos a los procesos mentales que siguen los profesionales de la salud. Este estudio busca abordar esta limitación utilizando diferentes tipos de prompts (instrucciones) diseñados específicamente para el razonamiento clínico, y se evalúa su eficacia en tareas de diagnóstico médico.
Los autores emplean técnicas avanzadas de ingeniería de prompts como el razonamiento en cadena (Chain-of-Thought, CoT), que descompone las tareas en pasos más pequeños, un proceso común en el razonamiento clínico. Se comparan varios tipos de prompts, incluidos razonamientos diferenciales, analíticos, intuitivos y bayesianos, aplicándolos a conjuntos de datos clínicos como el MedQA USMLE (Examen de Licencia Médica de EE. UU.) y los casos clínicos de The New England Journal of Medicine (NEJM).
Los resultados demuestran que GPT-3.5 y GPT-4 responden de manera diferente a estos enfoques. GPT-3.5 mostró una precisión del 46% con el CoT tradicional, y su desempeño mejoró levemente con el razonamiento intuitivo. Sin embargo, los enfoques de diagnóstico diferencial y razonamiento analítico redujeron la precisión de GPT-3.5. Por otro lado, GPT-4 alcanzó una precisión notablemente superior (76%-78%), con menor variabilidad entre los tipos de prompts, lo que sugiere una mejora sustancial en su capacidad para imitar los procesos de razonamiento clínico.
En los casos desafiantes de NEJM, GPT-4 alcanzó una precisión del 38%, aunque no se observaron mejoras significativas con los prompts de razonamiento diferencial. Estos resultados sugieren que, si bien GPT-4 puede imitar los procesos de razonamiento clínico, no mejora necesariamente su precisión diagnóstica como lo haría un médico humano con técnicas de razonamiento clínico.
La investigación resalta la importancia de la interpretabilidad en los LLMs en el ámbito médico. Un modelo que pueda ofrecer una justificación interpretativa de sus diagnósticos podría mitigar las limitaciones de la “caja negra” de los LLMs, permitiendo a los médicos evaluar la lógica y precisión factual de las respuestas generadas por la IA. Los autores reconocen que aunque la justificación no garantiza la corrección del diagnóstico, sí representa un avance hacia la integración segura y efectiva de los LLMs en la atención médica.
Finalmente, el estudio sugiere la necesidad de más investigaciones para desarrollar prompts que se alineen mejor con los procesos clínicos humanos y que puedan integrarse de manera efectiva en la práctica médica diaria. La evaluación cuidadosa de las respuestas de los LLM y su capacidad para ofrecer razonamientos interpretables representa un paso importante para superar las limitaciones actuales de la IA en medicina.