ChatGPT sirve como psicólogo? Cuidado: no funciona como crees

Por Kheline Soltani

¿Tu también hablas con tu ChatGPT como si fuera el médico o el psicólogo? Un nuevo estudio sugiere que los grandes modelos de lenguaje, como pueden ser ChatGPT o Gemini, pueden llegar a identificar diagnósticos psiquiátricos y decirte que tienes trastorno bipolar o esquizofrenia. El problema es que fallan y suelen sobrediagnosticar.

El avance rápido de la inteligencia artificial ha despertado el interés por su uso en la sanidad. Algunos modelos como ChatGPT han demostrado poder manejar textos complejos y eso abre la puerta a usarlo de apoyo en la salud mental.

Muchos pacientes usan estas herramientas para autodiagnosticarse, pero son herramientas que han sido entrenadas con datos de Internet y no una formación médica. Los resultados que obtienen las personas son probabilidades, no hay una comprensión médica real. Esto crea una preocupación y un riesgo porque pueden dar consejos inexactos o dañinos.

Unos investigadores de la Universidad de California en San Francisco, integraron árboles de decisión para mejorar la precisión de los modelos de IA y reducir la tasa de falsos positivos. En el estudio, los investigadores quisieron comprobar si la IA puede razonar de forma adecuada sobre casos de salud mental y si la incorporación de medidas creadas por expertos puede ayudar en su precisión y seguridad.

¿CHATGPT SIRVE COMO PSICÓLOGO? LAS VIÑETAS CLÍNICAS Y LOS ÁRBOLES DE DECISIÓN

Una viñeta clínica es una descripción breve de los síntomas médicos o psicológicos de una persona que se utiliza en la práctica para hacer un primer diagnóstico. Pero en realidad, también es lo que le cuentas a ChatGPT. Los médicos, con esta información, siguen un árbol de decisión, una serie de preguntas dirigidas a descartar posibles trastornos y afinar un posible diagnóstico.

Los investigadores querían evaluar los modelos de IA usando el diagnóstico mediante viñetas clínicas. También querían comprobar si el rendimiento mejoraba al obligarlos a seguir árboles de decisión diseñados por expertos en psiquiatría.

Los expertos usaron 93 viñetas clínicas del DSM-5-TR, un enorme manual que reúne las descripciones de todos los trastornos psiquiátricos como la depresión, el trastorno bipolar o la esquizofrenia. Además, los dividieron en dos etapas, una de entrenamiento y otra de prueba. Evaluaron GPT-3.5, GPT-4 Y GPT-4o.

En el estudio se diseñaron dos enfoques experimentales, el de base y el de árbol de decisión. El enfoque base donde la inteligencia artificial recibió la historia clínica y se le pidió que predijera los diagnósticos más probables. Es un método que imita la interacción de una persona con un chatbot, donde describe los síntomas que tiene y solicita su opinión.

El segundo método, el del árbol de la decisión, consiste en adaptar la lógica del Manual de Diagnóstico Diferencial DSM-5-TR, una guía profesional que utiliza la lógica de ramificación para descartar o incluir afecciones. Los investigadores no preguntaron directamente al chatbot, le indicaron que respondiera a una serie de preguntas de sí o no basándose en la viñeta del caso. Es un enfoque que obligaba a la IA a razonar de forma similar a un médico.

UN SOBREDIAGNÓSTICO QUE PONE EN ALERTA A LOS PACIENTES

Los resultados de la investigación mostraron diferencias entre ambos métodos. En el enfoque base los modelos mostraron una alta sensibilidad acertando el diagnóstico principal 77% de los casos. Aun así, hubo falsos positivos en un 40% de los casos, lo que indicaba que asignaban con frecuencia diagnósticos que no estaban presentes.

Los modelos base mostraron más de un diagnóstico incorrecto por cada diagnóstico correcto, lo que evidencia una tendencia al sobrediagnóstico. Eso provocaría un riesgo de hacer pensar a los pacientes que tienen síntomas o trastornos que no existen.

El enfoque del árbol de decisión mejoró en la precisión. El valor predictivo positivo aumentó un 65% y se redujo el sobrediagnóstico. Esta mejora hizo que se redujera los falsos positivos que bajó un 71% a causa de las reglas estrictas que hacían que pasara por alto algún diagnóstico.

Según los expertos es importante darle indicaciones específicas a la inteligencia artificial. Durante el entrenamiento cometían errores al interpretar terminologías médicas y la estructura de los árboles de decisión. Por eso, los investigadores reformularon las preguntas para asegurarse de que se aplicasen bien los criterios clínicos.

UN CHATBOT NO ESTÁ PREPARADO PARA DAR APOYO EN LA SALUD MENTAL

Los resultados que mostraron los modelos de inteligencia artificial presentaron una capacidad para el razonamiento psiquiátrico. GPT-4 y GPT-4o superaron a GPT-3.5, eso sugiere que su capacidad para las tareas médicas pueden aumentar con su evolución.

Según los expertos, el diagnóstico mediante viñetas es una tarea más simple que el diagnóstico real. Los árboles de decisión reducen el sobrediagnóstico, pero estos modelos no están preparados para apoyar de forma directa la salud mental. El problema del sobrediagnóstico es sobre todo para los pacientes que utilizan chatbot para autodiagnosticarse.

El estudio propone que los chatbots son sistemas que pueden detectar trastornos que no existen, la IA funciona mejor cuando se apoya en conocimientos médicos expertos y directrices validadas.

En futuras investigaciones los expertos sugieren seguir evaluando estos sistemas con datos reales de pacientes. Así se podría comprobar si los resultados se mantienen en la práctica clínica.