RoboVIP: Generación de Videos Multi-Cámara con Prompting Visual para Robótica
Un nuevo enfoque basado en modelos de difusión utiliza imágenes de ejemplo (visual identity prompting) en lugar de solo texto para generar datos sintéticos de alta calidad que mejoran el entrenamiento de robots manipuladores.