Apple hat ein neues Open-Source-KI-Modell namens „MGIE“ veröffentlicht.
Es kann Bilder auf der Grundlage von Anweisungen in natürlicher Sprache bearbeiten. Die Abkürzung MGIE steht dabei für „MLLM-Guided Image Editing“, es bietet also „geführte Bildbearbeitung“.
Allgemeine und detaillierte Edits möglich
Bei den Ergebnissen ist das Modell ist in der Lage, verschiedene Detailmodifikationen durchzuführen. Sowohl allgemeine Fotooptimierung wie auch lokale Bearbeitung sind möglich.
Das ganze Projekt auf Basis multimodaler Sprachmodelle (MLLMs) resultiert aus einer Kollaboration zwischen Apple und Forschern der University of California, Santa Barbara. Alle Informationen finden sich im Detail hier in diesem wissenschaftlichen Paper.
Kompletter Code auf GitHub
Alle Codebausteine findet Ihr hier auf Github. Es gibt noch keine vollumfängliche Demo der Funktionalität – aber hier auf der Plattform Spaces findet Ihr eine erste laufende Demo, mit der Ihr bei Interesse experimentieren könnt.