Volver al Blog

Radiomics vs Deep Learning: Predicción de Respuesta al Tratamiento del Cáncer de Mama

23 de diciembre de 20259 min de lecturapor Francisco París
IA MédicaComputer VisionRadiomicsCáncerDeep LearningMRI

¿Puede un modelo de machine learning predecir si una paciente con cáncer de mama responderá bien a la quimioterapia antes de completar el tratamiento? Un equipo de investigadores logró un AUC de 0.88 (85% de precisión) para predecir respuesta patológica completa, usando imágenes de resonancia magnética tomadas durante el tratamiento.

Pero lo más interesante no son solo las cifras: compararon radiomics tradicional contra tres métodos de deep learning (MedicalNet, Segformer3D, SAM-Med3D), y los resultados desafían la tendencia actual hacia modelos cada vez más complejos.

He cargado el paper completo (arXiv:2512.17759) en mi experimento de AI Papers Hub para que puedas profundizar en los detalles técnicos.

¿Qué es la Quimioterapia Neoadyuvante?

Antes de entrar en la IA, un poco de contexto clínico:

La quimioterapia neoadyuvante es un tratamiento que se administra antes de la cirugía para reducir el tamaño del tumor. El objetivo es:

  • Hacer que tumores inoperables se vuelvan operables
  • Convertir cirugías radicales (mastectomías) en cirugías conservadoras
  • Eliminar micrometástasis tempranas

El problema actual es que los oncólogos no pueden predecir con certeza si una paciente responderá bien hasta completar el tratamiento (varios meses). Si pudiéramos predecir la respuesta durante el tratamiento, podríamos:

  • Ajustar el protocolo para pacientes que no están respondiendo
  • Evitar toxicidad innecesaria en pacientes que ya respondieron
  • Optimizar decisiones quirúrgicas

Ahí es donde entra este estudio.

¿Qué Predice el Modelo?

El estudio desarrolla modelos para predecir dos outcomes clínicos:

1. Respuesta Patológica Completa (pCR)

  • Definición: Eliminación total del tumor (no quedan células cancerosas viables)
  • Resultado: AUC 0.88, precisión 85%
  • Importancia: Las pacientes con pCR tienen mejor pronóstico a largo plazo

2. Supervivencia Libre de Recurrencia a 5 Años (RFS)

  • Definición: No hay recurrencia del cáncer en 5 años post-tratamiento
  • Resultado: AUC 0.78, precisión 72%
  • Importancia: Métrica clave de éxito del tratamiento

Dato clave: Estas predicciones se hacen durante el tratamiento, usando imágenes de MRI de 3 puntos temporales (baseline, mitad del tratamiento, final del tratamiento).

¿Cómo Funciona? El Pipeline Completo

El estudio implementa un pipeline de 4 etapas:

1. Segmentación del Tumor

Cada imagen de MRI pasa por un modelo de segmentación que identifica:

  • La región del tumor principal
  • Bordes del tumor
  • Cambios en el volumen tumoral entre sesiones

Herramienta: nnU-Net (estado del arte en segmentación médica)

2. Registro de Imágenes (Image Registration)

Este es uno de los aportes clave del paper. Como las imágenes se toman en diferentes momentos del tratamiento, las pacientes están en posiciones ligeramente diferentes. El registro alinea las imágenes para que:

  • El mismo voxel represente la misma ubicación anatómica
  • Se puedan extraer características longitudinales consistentes
  • Se midan cambios en el tumor de forma precisa

Resultado: El registro mejoró significativamente el rendimiento en todos los métodos probados.

3. Extracción de Características

Aquí es donde se comparan 4 enfoques:

A) Radiomics (Método Tradicional)

Extrae 1,316 características manualmente diseñadas:

  • Forma: Volumen, esfericidad, elongación
  • Intensidad: Media, desviación estándar, kurtosis
  • Textura: Matrices de co-ocurrencia (GLCM), gray level run length
  • Wavelets: Filtros en diferentes frecuencias

Ventaja: Interpretabilidad total. Cada característica tiene significado clínico conocido.

B) MedicalNet (Deep Learning Preentrenado)

  • Red 3D preentrenada en ~50,000 videos médicos
  • Extrae 512 características de la última capa
  • Representa patrones visuales aprendidos automáticamente

C) Segformer3D (Transformer para Visión)

  • Arquitectura transformer adaptada a imágenes médicas 3D
  • Captura dependencias espaciales a largo rango
  • Extrae 768 características

D) SAM-Med3D (Segment Anything Medical)

  • Adaptación de SAM (Meta) para imágenes médicas 3D
  • Modelo foundation preentrenado en datasets masivos
  • Extrae 1,024 características

4. Modelado Predictivo

Probaron 4 clasificadores con cada extractor de características:

  • Regresión Logística (baseline lineal)
  • Random Forest (ensemble de árboles)
  • XGBoost (gradient boosting)
  • SVM (support vector machine)

Configuración: 80% entrenamiento, 20% test, validación cruzada de 5 folds.

Resultados: Radiomics Supera a Deep Learning

Los resultados desafiaron las expectativas:

Predicción de Respuesta Completa (pCR)

MétodoExtractorAUCPrecisión
GanadorRadiomics + Logistic Regression0.880.85
2do lugarRadiomics + XGBoost0.860.83
3roMedicalNet + XGBoost0.840.81
Segformer3D + XGBoost0.820.79
SAM-Med3D + Random Forest0.810.78

Predicción de Supervivencia a 5 Años (RFS)

MétodoExtractorAUCPrecisión
GanadorRadiomics + Logistic Regression0.780.72
2do lugarRadiomics + Random Forest0.750.70
3roMedicalNet + SVM0.730.68

Conclusión clave: El método más simple (radiomics + regresión logística) superó consistentemente a modelos de deep learning más complejos.

¿Por Qué Radiomics Ganó?

Los autores identifican tres razones principales:

1. Tamaño del Dataset

El estudio usó datos de 99 pacientes. Los modelos de deep learning necesitan datasets mucho más grandes para aprender representaciones efectivas:

  • MedicalNet preentrenado en 50,000 videos → Aún así, el fine-tuning con 99 pacientes no fue suficiente
  • SAM-Med3D entrenado en millones de imágenes → El transfer learning no capturó las sutilezas de este problema específico

Radiomics no necesita entrenamiento de representaciones porque las características están diseñadas manualmente por expertos en imagen médica.

2. Interpretabilidad Clínica

Los oncólogos pueden entender exactamente qué está midiendo el modelo:

  • "El modelo detecta que la reducción de volumen tumoral >40% es predictiva de pCR"
  • "La heterogeneidad de textura al inicio predice peor supervivencia"

Con deep learning:

  • Las características de la capa 512 de MedicalNet no tienen interpretación clínica
  • Los médicos no pueden validar si el modelo está usando señales correctas

3. Overfitting

Los extractores de deep learning generan 512-1,024 características para 99 pacientes. Con más características que muestras, los modelos tienden a memorizar en lugar de generalizar.

Radiomics usa selección de características (regularización L1) para reducir 1,316 → ~50 características más relevantes, evitando overfitting.

Implicaciones Clínicas

Para Oncólogos

Este modelo podría integrarse en el flujo de trabajo clínico:

  1. Baseline (Día 0): Primera MRI antes de quimioterapia
  2. Mitad del tratamiento: Segunda MRI + predicción preliminar
  3. Final del tratamiento: Tercera MRI + predicción final

Decisión clínica: Si el modelo predice baja probabilidad de pCR a mitad del tratamiento, el oncólogo puede:

  • Cambiar el régimen de quimioterapia
  • Considerar terapia dirigida adicional
  • Planificar cirugía más agresiva

Para Pacientes

  • Personalización: Tratamientos ajustados a la respuesta individual
  • Menos toxicidad: Evitar prolongar tratamientos que no están funcionando
  • Mejor pronóstico: Intervención temprana si la respuesta es subóptima

Para Investigadores en IA Médica

Este estudio es un recordatorio importante:

Modelos complejos no siempre son mejores. En dominios con datasets pequeños y alta experticia humana (como imagen médica), métodos tradicionales con buena ingeniería de características pueden superar a deep learning.

Conexión con Tendencias en IA Médica

Si has leído sobre foundation models en medicina (SAM-Med3D, MedicalNet), este estudio muestra sus limitaciones actuales:

Foundation Models en Visión Médica

Los modelos foundation prometen aprender representaciones universales de imágenes médicas que puedan transferirse a cualquier tarea. La teoría es:

  • Preentrenar en millones de imágenes (CT, MRI, rayos X)
  • Fine-tunear en tareas específicas con pocos datos
  • Superar métodos especializados

Realidad: En este estudio, SAM-Med3D (foundation model) quedó en último lugar.

¿Por Qué?

Los foundation models aprenden representaciones genéricas de anatomía, pero:

  • Predicción de respuesta a tratamiento requiere capturar cambios sutiles longitudinales
  • Los patrones de textura tumoral específicos de cáncer de mama son muy especializados
  • El preentrenamiento en datasets diversos puede diluir señales específicas de dominio

Lección: Foundation models son poderosos, pero no son automáticamente superiores en todos los dominios médicos.

Limitaciones y Consideraciones Críticas

Este es un estudio sólido, pero tiene limitaciones importantes que los autores reconocen:

1. Tamaño del Dataset

99 pacientes es pequeño para conclusiones generalizables:

  • Todos los datos provienen de un solo centro médico
  • Poblaciones diferentes (diversidad étnica, subtipos de cáncer) pueden comportarse diferente
  • No sabemos si los resultados se replican en otros hospitales

Validación necesaria: Estudio multicéntrico con ~500-1,000 pacientes.

2. Desbalance de Clases

Solo ~30% de pacientes lograron respuesta completa (pCR). Esto significa:

  • El modelo puede estar sesgado hacia predecir "no pCR"
  • Las métricas pueden inflar el rendimiento real
  • Evaluación con precision/recall por clase sería más informativa

3. Comparación Limitada de Deep Learning

Los modelos de deep learning fueron usados solo como extractores de características, no entrenados end-to-end:

  • No se probó entrenar una CNN 3D completa desde cero
  • No se exploraron arquitecturas específicas para datos longitudinales (LSTMs, Transformers temporales)
  • El fine-tuning fue limitado (pocos epochs debido al dataset pequeño)

Pregunta abierta: ¿Un modelo de deep learning diseñado específicamente para este problema podría superar a radiomics?

4. Falta de Análisis de Subgrupos

El paper no desglosa resultados por:

  • Subtipo de cáncer: HER2+, triple negativo, luminal A/B
  • Estadio tumoral: T1, T2, T3, T4
  • Edad de la paciente: Jóvenes vs. mayores

Estos factores afectan significativamente la respuesta al tratamiento.

5. Interpretabilidad No Explorada a Fondo

Aunque radiomics ganó en interpretabilidad, el paper no muestra:

  • ¿Qué características fueron las más importantes?
  • ¿Cómo se comparan con biomarcadores clínicos conocidos?
  • ¿Los médicos confían en las predicciones del modelo?

6. Validación Prospectiva Ausente

Este es un estudio retrospectivo (datos históricos). No sabemos:

  • Cómo se desempeña en datos nuevos recolectados prospectivamente
  • Si los médicos realmente usarían el modelo en práctica clínica
  • Impacto real en outcomes de pacientes

Estándar de oro: Trial clínico prospectivo con grupo control.

Direcciones Futuras

1. Integración Multimodal

Combinar imágenes de MRI con:

  • Datos clínicos: Edad, estadio, subtipo de cáncer
  • Biomarcadores: Ki-67, expresión de HER2/ER/PR
  • Imágenes de otras modalidades: PET, mamografía, ultrasonido

Hipótesis: La fusión de datos podría superar a cualquier modalidad individual.

2. Modelos de Secuencia Temporal

Las tres imágenes MRI forman una serie temporal. Arquitecturas diseñadas para secuencias podrían capturar:

  • Tasas de cambio: Velocidad de reducción tumoral
  • Patrones dinámicos: Respuesta temprana vs. tardía
  • Trayectorias: Respuesta sostenida vs. recaída

Arquitecturas candidatas:

  • LSTMs para series temporales de imágenes médicas
  • Transformers temporales con atención entre timepoints
  • Graph Neural Networks modelando relación espaciotemporal

3. Explicabilidad Avanzada

Técnicas de XAI (Explainable AI) para modelos de deep learning:

  • Grad-CAM: Mapas de calor mostrando regiones de la imagen que influyen en la predicción
  • SHAP values: Contribución de cada característica a la predicción
  • Atención visual: Qué partes del tumor mira el modelo

Esto podría hacer a deep learning más aceptable clínicamente.

4. Aprendizaje Federado

Entrenar modelos en múltiples hospitales sin compartir datos de pacientes:

  • Preserva privacidad (HIPAA/GDPR)
  • Aumenta diversidad del dataset
  • Mejora generalización

Tecnología: Federated learning con Flower, PySyft, TensorFlow Federated.

5. Predicción Temprana (Early Response)

¿Se puede predecir respuesta con solo las primeras 1-2 imágenes?

  • Detectar no-respuesta más rápido
  • Cambiar tratamiento antes (reducir toxicidad)
  • Usar IA para early stopping decisions

6. Guía de Biopsia Inteligente

Usar las predicciones del modelo para:

  • Identificar regiones tumorales resistentes al tratamiento
  • Guiar biopsias hacia áreas más informativas
  • Mejorar sampling para análisis molecular

Experimenta Tú Mismo: Chat con el Paper

¿Quieres profundizar en los detalles técnicos? He cargado el paper completo de este estudio (arXiv:2512.17759) en mi experimento de AI Papers Hub.

Puedes hacer preguntas específicas sobre:

  • Metodología: Detalles del pipeline de registro de imágenes
  • Arquitecturas: Configuración de hiperparámetros de los modelos
  • Resultados: Análisis de subgrupos, matrices de confusión

👉 Chatea con el paper aquí

Pregúntale cosas como:

  • "¿Qué características de radiomics fueron las más importantes para predecir pCR?"
  • "¿Cómo se implementó el registro de imágenes longitudinales?"
  • "¿Qué mejoras proponen los autores para estudios futuros?"

Conclusión: La Simplicidad Ganó Esta Ronda

Este estudio es un recordatorio valioso en la era del deep learning: la complejidad no garantiza mejor rendimiento.

Con un dataset de 99 pacientes, radiomics tradicional superó a tres métodos de deep learning state-of-the-art. La razón no es que radiomics sea intrínsecamente superior, sino que es más apropiado para este contexto:

  • Datasets pequeños → Características diseñadas manualmente > aprendizaje de representaciones
  • Alta experticia humana → Interpretabilidad es crucial
  • Dominio especializado → Transfer learning de modelos genéricos puede no capturar señales sutiles

Lección para investigadores en IA médica:

No asumas que deep learning es siempre la mejor opción. Evalúa métodos tradicionales con buena ingeniería de características. A veces, la solución más simple es la más efectiva.

Para las pacientes con cáncer de mama, este trabajo representa un paso hacia tratamientos más personalizados. Aunque aún requiere validación clínica, la posibilidad de predecir respuesta al tratamiento durante la quimioterapia podría transformar la toma de decisiones oncológicas.


Recursos:

Temas relacionados:


¿Te interesa la IA aplicada a medicina o tienes experiencia en imagen médica? Conecta conmigo en LinkedIn o a través de la página de contacto para intercambiar ideas sobre este fascinante campo.

Compartir: