Autor(es): Yijie Wang, Yining Chen, Jifang Sheng
Año: 2024
Referencia bibliográfica:
Wang, Y., Chen, Y., & Sheng, J. (2024). Assessing ChatGPT as a Medical Consulting Assistant for Chronic Hepatitis B: A Cross-Language Study of English and Chinese. JMIR Preprints. https://doi.org/10.2196/preprints.56426
Categoría asignada: Lenguaje y comunicación
Resumen:
El estudio Assessing ChatGPT as a Medical Consulting Assistant for Chronic Hepatitis B: A Cross-Language Study of English and Chinese evalúa el desempeño de ChatGPT-3.5 y ChatGPT-4.0 como asistentes de consulta médica en la gestión de la hepatitis B crónica (CHB), enfocándose en la precisión de sus respuestas en inglés y chino. La hepatitis B crónica representa una carga significativa en términos económicos y sociales, especialmente en China, donde se concentra una gran proporción de los casos globales de CHB. Este estudio investiga si estos modelos de lenguaje pueden ofrecer recomendaciones precisas y consistentes en diferentes contextos lingüísticos.
Los autores desarrollaron un conjunto de 96 preguntas relacionadas con la CHB, que incluyeron consultas sobre diagnóstico, tratamiento y manejo de la enfermedad. Estas preguntas fueron recopiladas de guías clínicas y foros en línea, y luego fueron traducidas al inglés y al chino. Las respuestas generadas por ChatGPT-3.5 y ChatGPT-4.0 fueron evaluadas por médicos especialistas para medir su precisión, la coherencia de respuestas repetidas y la capacidad de ofrecer orientación emocional.
Los resultados revelaron que ChatGPT-4.0 mostró una mejora significativa en comparación con ChatGPT-3.5, especialmente en inglés, con un 74.48 % de respuestas calificadas como completas frente al 61.62 % de ChatGPT-3.5. Además, la precisión de ChatGPT-4.0 en preguntas de verdadero o falso relacionadas con guías de tratamiento alcanzó un 93.33 %, superando notablemente el 65.00 % de ChatGPT-3.5. Sin embargo, ambos modelos mostraron deficiencias en la gestión emocional, con solo el 9.74 % de las respuestas de ChatGPT-4.0 ofreciendo orientación emocional adecuada.
Uno de los puntos más relevantes del estudio fue el impacto del idioma en el rendimiento de ChatGPT. Las respuestas en inglés fueron significativamente más precisas y coherentes que las respuestas en chino, lo que los autores atribuyen a la mayor cantidad de datos en inglés utilizados en el entrenamiento del modelo. En particular, se identificaron más errores en el uso de términos técnicos en las respuestas en chino, lo que pone de manifiesto la necesidad de una capacitación lingüística más específica para mejorar el rendimiento de los modelos en idiomas no dominantes en el entrenamiento original.
En cuanto a la consistencia de las respuestas, ChatGPT-3.5 mostró una tasa de coherencia del 54.05 % entre respuestas repetidas, mientras que ChatGPT-4.0 alcanzó una tasa ligeramente inferior del 44.14 %. A pesar de esta inconsistencia, los resultados indican que la precisión informativa de ChatGPT-4.0 sigue siendo superior, lo que sugiere que el modelo tiende a generar respuestas correctas, aunque con variaciones en la formulación del contenido.
Los autores también evaluaron la tendencia de ambos modelos a incluir advertencias y declaraciones de responsabilidad en sus respuestas. Tanto ChatGPT-3.5 como ChatGPT-4.0 incluyeron estas advertencias en aproximadamente el 11 % de las respuestas, recordando a los usuarios que consulten a un médico o que el modelo no es un profesional de la salud. Si bien esto puede ser útil para evitar malentendidos, los autores sugieren que el uso excesivo de estas declaraciones podría minar la confianza de los pacientes en el sistema.
En conclusión, el estudio destaca que ChatGPT tiene un gran potencial para actuar como asistente en la consulta médica, particularmente en la gestión de enfermedades crónicas como la hepatitis B. No obstante, el rendimiento del modelo varía significativamente según el idioma, lo que subraya la importancia de entrenar los modelos con datos específicos de cada idioma para mejorar su precisión. Además, el estudio sugiere que se deben realizar mejoras en la capacidad de los modelos para ofrecer orientación emocional, especialmente en el manejo de enfermedades crónicas, donde el apoyo psicológico es crucial para el cumplimiento del tratamiento.