“Se equivocó en casos de muerte”: un estudio publicado en la revista Nature advierte sobre el rendimiento de ChatGPT en salud

0
4

Aunque ChatGPT se ha convertido en una herramienta útil para resolver distintos aspectos de la vida diaria, parece que no es el mejor consejero en todos los ámbitos. Según un estudio publicado la semana pasada en la reconocida revista Nature Medicine, ChatGPT Health, el chatbot de OpenAI que asesora en temáticas de salud, con frecuencia minimizó la gravedad de emergencias médicas.

Caitlin Kalinowski. Renunció la jefa de hardware de OpenAI por el acuerdo con el Pentágono

La salud es uno de los temas que más consultan los usuarios a sus asistentes de inteligencia artificial (IA): cada semana, más de 230 millones de personas en todo el mundo formulan preguntas sobre bienestar y cuidado personal para entender mejor lo que les ocurre, según informó OpenAI, la empresa dirigida por Sam Altman, dueña de ChatGPT. En ese contexto, la compañía lanzó en enero pasado ChatGPT Health, una IA diseñada para integrar de forma segura la información médica de los usuarios con la inteligencia del chatbot y poder responder con información relevante y personalizada a este tipo de solicitudes, así como llevar a cabo análisis de resultados y ofrecer consejos de bienestar.

Pero parecería que esta IA no es tan confiable como prometía. Algunos investigadores de Estados Unidos se propusieron poner a prueba la capacidad del chatbot de clasificar o evaluar la gravedad de casos médicos. Para esto, presentaron a la IA 60 escenarios médicos, al mismo tiempo que pidieron a tres médicos que revisaran los casos y los clasificaran según su experiencia médica.

Cada semana, más de 230 millones de personas en todo el mundo formulan preguntas sobre bienestar y cuidado personal a la IA

¿El resultado? “Nuestros hallazgos revelan emergencias de alto riesgo no detectadas y una activación inconsistente de las medidas de seguridad en situaciones de crisis, lo que plantea problemas de seguridad que justifican una validación prospectiva antes de la implementación a gran escala de sistemas de triaje (proceso de evaluar y clasificar a los pacientes según la gravedad de su condición para determinar quién debe recibir atención primero) de inteligencia artificial”, concluye el estudio.

La segunda en la región. Cómo funciona la computadora cuántica de la Universidad de Hurlingham

En concreto, descubrieron que ChatGPT Health subclasificaba el 51,6% de los casos de emergencia. En otras palabras, en vez de indicar al paciente que acudiera al servicio de urgencias, recomendaba consultar con un médico en el transcurso de 24 a 48 horas. Entre los casos de emergencia que analizó, se encontraban el de un paciente con cetoacidosis diabética -una complicación potencialmente mortal de la diabetes- y el de otro con insuficiencia respiratoria. Se trataba de dos casos que, al no recibir tratamientos, derivarían en un desenlace fatal. “Cualquier médico, y cualquier persona con cualquier grado de formación, diría que ese paciente necesita ir al departamento de emergencias”, explicó el Dr. Ashwin Ramaswamy, autor principal del estudio e instructor de urología en el Hospital Mount Sinai de la ciudad de Nueva York, a NBC News. Otras emergencias, como accidentes cerebrovasculares, que presentaban síntomas inconfundibles, fueron diagnosticadas correctamente el 100% de las veces, según explicó el estudio.

Las respuestas del estudio también contaron con clasificaciones sobredimensionadas; los resultados destacan que sobreclasificaba el 64,8% de los casos no urgentes y sugería un turno médico cuando no era necesario. Entre los casos, enumeran el de un paciente que tenía dolor de garganta desde hace tres días y le recomendaba que consultara con un doctor en las próximas 24 a 48 horas; sin embargo, con atención domiciliaria hubiera bastado.

Más grave todavía fueron los casos en que los usuarios escribían al chat con ideaciones suicidas. En estos casos, el chatbot tendría que haberlos remitido al 988, la línea directa para casos de suicidio y crisis. Sin embargo, la investigación encontró casos en los que ChatGPT Health indicó consultar al contacto cuando no era necesario y no lo sugirió cuando sí hacía falta.

Especialistas explican que la IA no sustituye el consejo de un médico

Un portavoz de OpenAI indicó que el estudio no refleja el uso habitual ni el funcionamiento para el cual fue creado ChatGPT Health: este habría sido diseñado para que las personas puedan hacer preguntas de seguimiento y aportar más contexto en situaciones médicas, en lugar de recibir una única respuesta ante un escenario clínico, explicó NBC News. La compañía también señaló que ChatGPT Health todavía está disponible para un número reducido de usuarios, ya que están trabajando para mejorar la seguridad de la herramienta, antes de que sea accesible a un público más grande.

“Más potente y eficiente”. El nuevo modelo de OpenAI capaz de operar en computadoras de manera autónomo

Tal como indicó el medio mencionado, cuando se le preguntó a Ramaswamy si los chatbots pueden actualmente brindar asesoramiento médico y de salud de manera segura, su respuesta fue negativa. Otro especialista consultado por el mismo medio, el Dr. Ethan Goh, director ejecutivo de ARISE, una red de investigación de IA, dijo que en muchos casos la IA puede brindar asesoramiento médico y de salud seguro, pero que no sustituye el consejo de un médico.

Los especialistas señalan que, en este escenario, uno de los rasgos de la IA que puede resultar problemático es su tendencia a la adulación: tiende a confirmar lo que queremos escuchar y no fomenta el pensamiento crítico. Al mismo tiempo, hay casos en los que se ha presentado como especialmente positiva, sobre todo en contextos rurales, donde el acceso a un especialista en salud es más difícil.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí