La prueba de geoffrey fowler
Con esto en mente, el reportero Geoffrey Fowler otorgó a ChatGPT Health acceso a 29 millones de pasos y 6 millones de mediciones de ritmo cardíaco desde su aplicación Apple Health, solicitando al bot que evaluara su salud cardíaca. Para su sorpresa, ChatGPT le otorgó una calificación de F.
Alarmado por este resultado, Fowler consultó a su médico, quien desestimó por completo la evaluación de la IA. Su médico afirmó que Fowler tenía un riesgo tan bajo de problemas cardíacos que su seguro ni siquiera cubriría pruebas adicionales para refutar los hallazgos del chatbot.
Opiniones de expertos
El cardiólogo Eric Topol del Scripps Research Institute tampoco quedó impresionado con la evaluación del modelo de lenguaje. Describió el análisis de ChatGPT como «sin fundamento» y aconsejó a las personas ignorar su consejo médico, ya que claramente no está listo para su implementación en el ámbito healthtech.
Quizás el hallazgo más preocupante fue la inconsistencia de ChatGPT. Cuando Fowler planteó la misma pregunta varias veces, su calificación osciló dramáticamente entre una F y una B. Además, ChatGPT continuó olvidando información básica sobre él, incluyendo su género y edad, a pesar de tener acceso completo a sus registros.
Comparación con otros llm
El chatbot Claude de Anthropic tuvo un desempeño ligeramente mejor, aunque no mucho. Este modelo de lenguaje le otorgó a Fowler una calificación de C en cuanto a su salud cardíaca, pero también falló al considerar adecuadamente las limitaciones de los datos del Apple Watch.
Ambas empresas afirman que sus herramientas de salud no están destinadas a reemplazar a los médicos o proporcionar diagnósticos. Topol argumentó acertadamente que si estos bots no pueden evaluar con precisión los datos de salud, entonces no deberían estar ofreciendo calificaciones en absoluto.
Regulación y futuro de la ia en salud
Sin embargo, nada parece detenerlos. A principios de este mes, la Administración de Alimentos y Medicamentos de EE. UU. (FDA, por sus siglas en inglés) declaró que su trabajo es «quitarse del camino como regulador» para promover la innovación. Un comisionado de la agencia trazó una línea roja en las afirmaciones médicas o clínicas realizadas por la IA sin revisión de la FDA, pero ChatGPT y Claude argumentan que solo están proporcionando información.
Topol advirtió: «Las personas que utilicen este sistema podrían asustarse mucho por su salud. También podría ocurrir lo contrario y dar a las personas no saludables una falsa sensación de que todo lo que están haciendo está bien».
Pruebas beta y mejoras futuras
La integración de ChatGPT con Apple Health actualmente está limitada a un grupo de usuarios beta. En respuesta al informe, OpenAI declaró que está trabajando para mejorar la consistencia de las respuestas del chatbot. «Lanzar ChatGPT Health con acceso a una lista de espera nos permite aprender y mejorar la experiencia antes de hacerla ampliamente disponible», dijo Ashley Alexander, vicepresidente de OpenAI, en un comunicado al respecto.
Discuta este artículo en nuestros foros.