Apple hat mit Depth Pro ein neues, spannendes KI-Modell für grafische Anwendungen entwickelt.
Es erstellt detaillierte 3D-Tiefenkarten aus einem einzigen 2D-Bild – und das in nur 0,3 Sekunden und mit einer Auflösung von 2,25 Megapixeln. Während in der Regel Metadaten oder mehrere Bilder für 3D-Darstellungen benötigt werden, nutzt Depth Pro dafür lediglich die visuellen Informationen eines Bildes.
Hochwertige Tiefendarstellung für AR-Anwendungen
Das Modell basiert auf einem sogenannten „multi-scale vision transformer“, der sowohl die Gesamtkomposition als auch alle wichtigen Details eines Bildes erfasst. Es erkennt damit sowohl relative als auch absolute Tiefen, was besonders nützlich für Augmented Reality (AR)-Anwendungen ist, bei denen virtuelle Objekte in reale Umgebungen integriert werden.
Bemerkenswert ist zudem die Verwendung von Zero-Shot Learning, eine Technologie, die es der KI ermöglicht, unbekannte Objekte ohne vorheriges Training zu erkennen. Dies reduziert den Bedarf an großen Datensätzen und macht das System des weiteren vielseitig und ressourcenschonend.
Open Source: Modell auf GitHub verfügbar
Die möglichen Anwendungen reichen von effizienter Fotobearbeitung bis hin zur Generierung von Echtzeit-3D-Bildern für autonome Fahrzeuge oder Roboter. Apple hat den Quellcode und die Dokumentation als Open Source auf GitHub veröffentlicht, um Entwicklern die Möglichkeit zu geben, diese Technologie weiterzuentwickeln. Eine wissenschaftliche Arbeit sowie eine Live-Demo sind ebenfalls verfügbar.
In diesem Artikel sind Partner-Links enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet Ihr Euch für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für Euch ändert sich am Preis nichts. Danke für Eure Unterstützung. Foto: Dall-E3/iTopnews