Tecnologia

Por qué un científico de datos advierte que no debe confiar siempre en los descubrimientos científicos de la IA

febrero 21, 2019
Patricia

author:

Por qué un científico de datos advierte que no debe confiar siempre en los descubrimientos científicos de la IA

Vivimos en una época dorada de datos científicos, con mayores reservas de información genética, imágenes médicas y observaciones astronómicas que nunca. La inteligencia artificial puede examinar estos problemas para descubrir nuevos descubrimientos científicos potenciales mucho más rápido de lo que la gente podría hacerlo. Pero no debemos confiar ciegamente en los conocimientos científicos de la IA, argumenta la científica de datos Genevera Allen, hasta que estos programas informáticos puedan medir mejor la certeza que tienen en sus propios resultados.

A los sistemas de IA que utilizan el aprendizaje automático -programas que aprenden qué hacer estudiando los datos en lugar de seguir instrucciones explícitas- se les pueden confiar algunas decisiones, dice Allen, de la Universidad de Rice en Houston. Es decir, la IA es confiable para tomar decisiones en áreas donde los seres humanos pueden controlar fácilmente su trabajo, como contar cráteres en la luna o predecir réplicas de terremotos (SN: 12/22/18, p. 25).

Sin embargo, es muy difícil verificar más algoritmos exploratorios que hurgan en grandes conjuntos de datos para identificar patrones o relaciones previamente desconocidos entre varias características», dijo Allen el 15 de febrero en una conferencia de prensa en la reunión anual de la Asociación Estadounidense para el Avance de la Ciencia (American Association for the Advancement of Science). Dejar de juzgar a estos sistemas autónomos y de sondeo de datos puede llevar a conclusiones erróneas, advirtió.

Tomemos como ejemplo la medicina de precisión, en la que los investigadores a menudo tratan de encontrar grupos de pacientes que son genéticamente similares para ayudar a adaptar los tratamientos. Los programas de IA que tamizan los datos genéticos han identificado con éxito grupos de pacientes para algunas enfermedades, como el cáncer de mama. Pero no ha funcionado tan bien para muchas otras afecciones, como el cáncer colorrectal. Los algoritmos que examinan diferentes conjuntos de datos han agrupado clasificaciones de pacientes diferentes y contradictorias. Eso deja a los científicos a preguntarse en cuál, si es que hay alguna, AI en quien confiar.
Estas contradicciones surgen porque los algoritmos de minería de datos están diseñados para seguir las instrucciones exactas de un programador sin margen para la indecisión, explicó Allen. «Si le dices a un algoritmo de clusterización, `Buscar grupos en mi conjunto de datos’, vuelve y dice `Encontré algunos grupos». «Dígale que encuentre tres grupos, y que encuentre tres. Pide cuatro, y te dará cuatro.

Lo que la IA debería hacer, dijo Allen, es reportar algo como: «Realmente creo que estos grupos de pacientes están agrupados de manera muy, muy parecida…. pero de estos otros aquí, estoy menos seguro».

Los científicos no son ajenos a la incertidumbre. Pero las técnicas tradicionales de medición de la incertidumbre están diseñadas para casos en los que un científico ha analizado datos que fueron específicamente recolectados para evaluar una hipótesis predeterminada. Así no es como los programas de IA de minería de datos generalmente funcionan. Estos sistemas no tienen hipótesis guía, y se entremezclan a través de conjuntos de datos masivos que generalmente se recolectan sin un único propósito. Sin embargo, investigadores como Allen están diseñando protocolos para ayudar a la IA de próxima generación a estimar la precisión y reproducibilidad de sus descubrimientos.

Una de estas técnicas se basa en la idea de que si un programa de IA ha hecho un descubrimiento real -como identificar un conjunto de grupos de pacientes clínicamente significativos- entonces ese hallazgo debería mantenerse en otros conjuntos de datos. Por lo general, es demasiado caro para los científicos recolectar conjuntos de datos nuevos y enormes para probar lo que una IA ha encontrado. Pero, dijo Allen, «podemos tomar los datos actuales que tenemos, y podemos perturbar los datos y aleatorizarlos de manera que imiten[la recolección] de futuros conjuntos de datos». Si la IA encuentra los mismos tipos de clasificaciones de pacientes una y otra vez, por ejemplo, «probablemente tienes un descubrimiento bastante bueno en tus manos», dijo.

Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *