Autor(es): Alexander Wuttke, Matthias Aßenmacher, Christopher Klamm, Max M. Lang, Quirin Würschinger, Frauke Kreuter
Año: 2024
Referencia bibliográfica:
Wuttke, A., Aßenmacher, M., Klamm, C., Lang, M. M., Würschinger, Q., & Kreuter, F. (2024). AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers. Proceedings of the 2024 ACM Conference on Human Factors in Computing Systems, ACM, 1-12. https://doi.org/10.1145/3501234
Categoría asignada: Lenguaje y comunicación
Resumen:
El artículo AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers, escrito por Alexander Wuttke y su equipo, explora cómo los modelos de lenguaje a gran escala (LLM), como GPT-4, pueden utilizarse para llevar a cabo entrevistas conversacionales de forma escalable. El estudio tiene como objetivo mejorar la obtención de datos cualitativos, permitiendo a los LLMs reemplazar a los entrevistadores humanos en ciertos contextos, manteniendo la profundidad de las respuestas que se logra en entrevistas personales.
Tradicionalmente, la recolección de datos mediante encuestas estructuradas permite la recopilación masiva de información, pero limita la expresividad y riqueza de las respuestas, ya que los participantes se ven obligados a elegir entre opciones predeterminadas. Por otro lado, las entrevistas cualitativas proporcionan una visión más detallada y flexible, pero son costosas y limitadas en cuanto al número de participantes. Los autores abordan esta disyuntiva al proponer el uso de modelos LLM para entrevistar a gran escala, permitiendo la exploración en profundidad de opiniones, al tiempo que mantienen la capacidad de análisis de grandes volúmenes de datos.
Para evaluar esta propuesta, el estudio compara entrevistas realizadas por IA con entrevistas humanas, empleando el mismo cuestionario sobre temas políticos y democráticos. Los participantes del estudio fueron estudiantes universitarios asignados aleatoriamente a ser entrevistados por IA o por un entrevistador humano. Se midieron tanto aspectos cuantitativos como cualitativos de las entrevistas, evaluando la adherencia a las directrices, la calidad de las respuestas y el nivel de participación de los entrevistados.
Los resultados mostraron que las entrevistas conducidas por IA lograron un desempeño comparable al de las realizadas por humanos en términos de calidad de las respuestas. De manera notable, las respuestas dadas a los entrevistadores de IA fueron, en promedio, un 60 % más largas que las obtenidas en entrevistas humanas. Sin embargo, se observó que los entrevistadores humanos superaban a la IA en el uso de técnicas como la “escucha activa”, una estrategia clave en la que el entrevistador repite o parafrasea las respuestas para asegurar su comprensión. En cambio, la IA tuvo dificultades para realizar preguntas de seguimiento cuando las respuestas eran sorprendentes o ambiguas, a pesar de haberlo hecho correctamente en pruebas previas.
El estudio también identificó ciertos problemas técnicos en las entrevistas conducidas por IA, particularmente con la transcripción de respuestas orales y el reconocimiento de voz. Aunque el sistema permitía tanto la entrada de voz como de texto, las respuestas escritas tendían a ser más concisas pero mejor elaboradas, mientras que las respuestas orales, aunque más largas, a menudo carecían de profundidad.
Un aspecto importante que destacan los autores es la capacidad de los LLM para realizar entrevistas conversacionales de forma escalable, lo que reduciría los costos asociados con las entrevistas cualitativas tradicionales. Aun así, se requiere una implementación cuidadosa de los modelos de IA para garantizar que estos sigan las guías éticas y metodológicas adecuadas, evitando comportamientos que puedan influir en las respuestas de los participantes o comprometer la calidad de los datos.
El artículo concluye que, aunque los entrevistadores de IA pueden no ser perfectos, representan una opción viable para escalar las entrevistas en profundidad. Los autores recomiendan realizar mejoras en las instrucciones proporcionadas a los LLM, así como en la interfaz de usuario, para facilitar la interacción y reducir los problemas técnicos observados. También sugieren que futuras investigaciones exploren la combinación de enfoques automatizados y humanos, lo que podría optimizar el proceso de recolección de datos sin sacrificar la calidad.
Este estudio subraya el potencial de los modelos de lenguaje a gran escala para transformar la manera en que se realizan las entrevistas en contextos de investigación social, ofreciendo un equilibrio entre la profundidad y la escala que antes era difícil de lograr con métodos tradicionales.