Noticias
Apple Depth Pro, un modelo de IA que mejora cómo perciben las máquinas la profundidad en visión 3D
El equipo de investigación en IA de Apple ha desarrollado un nuevo modelo de Inteligencia Artificial que puede mejorar de manera notable cómo perciben las máquinas la profundidad en visión 3D. Se trata de Apple Depth Pro, un sistema capaz de generar mapas de profundidad 3D detallados a partir de imágenes bidimensionales. Y de hacerlo, además, en una pequeña fracción de segundo y sin depender de los datos de cámara necesarios hasta ahora para conseguirlo.
Esta tecnología, que se ha detallado en un trabajo de investigación titulado Depth Pro: Sharp Monocular Metric Depth in Less Than a Second (Depth Pro: profundidad métrica monocular precisa en menos de un segundo), es un gran avance en el campo de la estimación de profundidad monocular, un proceso que solo usa una imagen para determinar la profundidad. Este avance, por tanto, podría tener muchas y relevantes aplicaciones en sectores en los que la percepción espacial en tiempo real es crucial.
Los creadores del modelo, un equipo dirigido por Aleksei Bochkovskii y Vladlen Koltun, ha conseguido que Depth Pro evite los requisitos necesarios hasta ahora para percibir la profundidad de manera adecuada, que pasaban por tener varias imágenes, o diversos metadatos, para conseguir detectarla de manera precisa.
El modelo es capaz de producir mapas de profundidad de alta resolución en solo 0,3 segundos utilizando una GPU estándar. El modelo puede crear mapas de 2.25 megapíxeles con gran precisión, capturando detalles como el pelo o la vegetación, que otros métodos suelen pasar por alto.
Según los investigadores, esto es posible debido a diversas contribuciones técnicas, como «un transformador de visión multiescala eficiente para predicción densa«. Esta arquitectura permite que el modelo procese tanto el contexto general de una imagen, como sus detalles más pequeños, al mismo tiempo.
Pero lo que distingue a Apple Depth Pro del resto de sistemas es su capacidad para estimar tanto la profundidad absoluta como la relativa, lo que le dota de una capacidad conocida como profundidad métrica. Con esto, el modelo puede ofrece medidas en tiempo real, algo esencial para aplicaciones de realidad aumentada, entre otros campos, ya que sus objetos virtuales necesitan colocarse en puntos concretos de espacios físicos.
Por otra parte, Depth Pro no necesita tener un entrenamiento amplio con conjuntos de datos específicos de un dominio para realizar predicciones precisas, lo que da más versatilidad al modelo. Puede utilizarse con una gran variedad de imágenes sin necesidad de los datos de la cámara que las sacó. Gracias a esto, se puede aplicar en distintas situaciones, que van desde la mejora de experiencias de realidad aumentada a la mejora de la capacidad de detectar y sortear obstáculos de los vehículos autónomos.
Depth Pro aborda también uno de los problemas más complicados de la estimación de profundidad: los píxeles que aparecen como flotando en el aire por los fallos cometidos al mapear la profundidad. También ofrece buenos resultados en el seguimiento de límites y supera los resultados de otros modelos en la delineación precisa de objetos y de sus bordes.
Apple ha decidido que su modelo Depth Pro sea open source, y su código y diversos componentes y elementos están disponibles en GitHub. Su repositorio ofrece desde la arquitectura del modelo hasta puntos de comprobación ya entrenados, lo que facilita el trabajo a otros investigadores que quieran basarse en Depth Pro.
-
OpiniónHace 6 días
10 predicciones para los proveedores de servicios gestionados en 2025
-
NoticiasHace 6 días
AMD despedirá al 4% de su plantilla mientras se centra en IA y centros de datos
-
NoticiasHace 2 días
El Capitan es el nuevo superordenador más potente y rápido del mundo
-
NoticiasHace 6 días
La Comisión Europea multa a Meta con 798 millones por perjudicar a la competencia de Marketplace