Author(s): Sebastian Ziegelmayer, Alexander W. Marka, Nicolas Lenhart, Nadja Nehls, Stefan Reischl, Felix Harder, Andreas Sauter, Marcus Makowski, Markus Graf, Joshua Gawlitza
Year: 2023
Bibliographic Reference (APA format):
Ziegelmayer, S., Marka, A. W., Lenhart, N., Nehls, N., Reischl, S., Harder, F., Sauter, A., Makowski, M., Graf, M., & Gawlitza, J. (2023). Evaluation of GPT-4’s Chest X-Ray Impression Generation: A Reader Study on Performance and Perception. Journal of Medical Internet Research, 25, e50865. https://doi.org/10.2196/50865
Assigned Category: Asistencia sanitaria pública (Public healthcare assistance)
Resumen:
Este estudio evalúa la capacidad del modelo GPT-4 para generar impresiones radiológicas de rayos X de tórax, comparando su rendimiento con las evaluaciones humanas. Los investigadores usaron un conjunto de datos públicos de 25 casos y generaron impresiones a partir de texto, imágenes y una combinación de ambos. Cuatro radiólogos evaluaron las impresiones generadas por GPT-4 según coherencia, consistencia factual, exhaustividad y peligrosidad médica, utilizando una escala Likert de cinco puntos.
Los resultados indican que las impresiones generadas por texto fueron las más cercanas a las realizadas por humanos, obteniendo puntajes altos en coherencia y precisión médica. No obstante, las impresiones generadas solo a partir de imágenes mostraron una menor concordancia con las evaluaciones humanas, lo que sugiere que GPT-4 depende fuertemente de la información textual para proporcionar resultados precisos en un contexto médico.
Un hallazgo clave del estudio es que las evaluaciones humanas tienden a estar influenciadas por sesgos, ya que los radiólogos clasificaron consistentemente las impresiones que creían escritas por humanos como de mayor calidad, a pesar de que algunas de estas eran generadas por GPT-4. Esto subraya la necesidad de una evaluación ciega y sin prejuicios para medir la verdadera capacidad de los sistemas de IA.
Finalmente, el artículo destaca la necesidad de mejorar las métricas automáticas para evaluar las impresiones generadas por IA, asegurando que capturen aspectos clínicos clave. El estudio concluye que la IA, particularmente GPT-4, puede ser útil en la generación de informes radiológicos, pero aún enfrenta desafíos, especialmente en escenarios donde la información visual es predominante.