Anales de la RANM

70 A N A L E S R A N M R E V I S T A F U N D A D A E N 1 8 7 9 INTELIGENCIA ARTIFICIAL Y MEDICINA Maojo V, et al. An RANM. 2026;143(01): 67 - 75 para abordar aplicaciones médicas, en particular en oncología. Tras un considerable impacto mediático el sistema no alcanzó los resultados esperados. En las numerosas presentaciones públicas realizadas por profesionales de IBM se presentó una evaluación limitada a pocos casos en hospitales concretos -y los autores comentaron este hecho a los creadores en una de estas presen- taciones-. Esto suponía un inconveniente signif- icativo, similar al experimentado con muchas de las primeras aplicaciones de IA en medicina. Éstas tendían a tener un rendimiento inferior en hospitales y universidades fuera de sus entornos de desarrollo primario, debido a las diferentes características del conocimiento y los datos disponibles en cada centro (diversidad de datos, sesgos inherentes, procedimientos y protocolos utilizados por los médicos, diferentes tecnologías, etc.). Un ejemplo es PERFEX, sistema experto para analizar imágenes SPECT cardíacas desarrollado en la década de 1990 en la Universidad de Emory y Georgia Tech, y comercializado con éxito por General Electric, que requirió dos años de diseño e implementación y unos cinco años de evaluación multicéntrica antes de su aprobación para uso clínico (26). Estas evaluaciones multicéntricas han demostrado ser esenciales para garantizar la validez de los proyectos de IA en medicina. En los últimos años, miles de sistemas de IA han sido completados para uso clínico, pero muchos aún necesitan someterse a evaluaciones sistemáticas en la práctica clínica habitual y en centros distintos a los que los desarrollaron, lo que incluye el cumplimiento de los requisitos exigidos por agencias públicas. Podría ser necesario esperar varios años para determinar su verdadero impacto en la práctica clínica. LA IA COMO EL ORÁCULO DE DELFOS, UN SUSTITUTO PARA LOS MÉDICOS Uno de los primeros y más conocidos sistemas de IA en medicina fue INTERNIST-I, un sistema experto cuyo objetivo era gestionar el conocimiento de numerosas enfermedades, similar al amplio ámbito de práctica de un médico internista. Sus creadores afirmaron que el estilo de consulta diagnóstica del programa INTERNIST-I se asemejaba a un "oráculo griego" (27), pero finalmente terminó transformándose en un sistema de referencia llamado Referencia Médica Rápida (QMR), en lugar de un verdadero oráculo médico. En los últimos años, han surgido sistemas de IA generativa, capaces de responder a numerosas cuestiones médicas (diagnósticos, tratamientos, prevención, etc). El concepto de oráculo no era útil en los sistemas pioneros de la IA, y nos encontramos ante una posible similitud hoy con los sistemas de IA generativa. Algunos sistemas actuales de IA, cuyos autores afirman ser capaces de predecir resultados para cientos de enferme- dades -en uno de ellos, llamado DELFOS 2-M (28), no parece casualidad el nombre elegido por sus creadores-, aún deben demostrar dichos resultados con evaluaciones sistemáticas. Los defensores de los sistemas generativos de IA sostienen que, con su análisis de grandes cantidades de datos, contienen en su interior el tipo de razonamiento y enfoques lógicos utilizados por expertos humanos; pero estos procesos humanos incluyen procesos como la intuición, el sentido común, las emociones, la empatía, las consid- eraciones éticas, las generalizaciones a nuevos casos, la comprensión de problemas psicosociales pasados y del entorno, etc., aún muy diferentes a la IA. EXPLICABILIDAD E INTERPRETABILIDAD Un componente clave de la IA, aún en desarrollo y sin resolver, es la llamada IA explicable, cuyo objetivo es comprender y describir claramente cómo y por qué un sistema de IA toma una decisión o predicción específica. Un problema fundamental en la IA médica en los últimos años es cómo lograr que un sistema de IA explique las razones detrás de una decisión o resultado; por ejemplo un diagnóstico o una recomendación terapéutica específica, y cómo garantizar que las conclusiones del sistema sean fácilmente interpretables por el usuario. Los autores han publicado recientemente una revisión sobre IA explicable en medicina (29). Algunas —o muchas— personas que trabajan en IA, sin muchos años de experiencia en el campo, piensan que la explicabilidad de los sistemas de IA es un tema reciente, olvidando que se ha estudiado durante más de cincuenta años. El concepto de "caja negra" —un sistema que no permite explicar los detalles de sus procesos internos— es común en los sistemas basados en redes neuronales, pero la explicabilidad era ya esencial en el diseño de los sistemas basados en el conocimiento. De hecho, dos de los primeros sistemas expertos médicos, MYCIN (30) y CASNET (31,32), incluían explicaciones de sus resultados. MYCIN contaba con un módulo de explicación que mostraba al usuario la lista de reglas activadas y utilizadas para alcanzar el resultado final del sistema. CASNET, creado por uno de los autores, proporcionaba al usuario una explicación del fundamento causal o asociativo de sus conclusiones. El siguiente gráfico muestra los diferentes tipos de explicabilidad/interpretabilidad. Podemos observar que los sistemas basados en reglas tradicionales SI…ENTONCES… (típicas de los sistemas expertos) presentan una menor exactitud, aunque con mayor capacidad explica- tiva e interpretativa, mientras que en los sistemas de aprendizaje profundo ocurre lo contrario.