Apple arbeitet gerade in mehreren Bereichen an eigenen KI-Algorithmen.
Eines der Projekte hört auf den Namen Ferret-UI und wird als generatives KI-System zur Analyse des Status von App-Bildschirmen entwickelt. Ziel ist es, dass das Tool Seitenverhältnisse, Symbole und Schaltflächen von Apps erkennen und analysieren kann.
KI-Tool soll stärker als ChatGPT werden
Dafür wird allerdings ziemlich viel Rechenleistung benötigt, die auch über die von GPT-4, dem aktuell leistungsfähigsten und bekanntesten LLM (Large-Language-Model) am Markt hinausgeht. Apple will dafür eine Lösung gefunden haben.
Der Konzern setzt laut einem neuen wissenschaftlichen Paper auf ein Multimodal Large Language Model (MLLM) und erklärt dessen Training wie folgt:
Wir sammeln sorgfältig Trainingsbeispiele aus einem umfangreichen Spektrum elementarer UI-Aufgaben, wie z. B. Symbolerkennung, Textsuche und Widget-Auflistung. Diese Beispiele sind für die Befolgung von Anweisungen mit Regionsanmerkungen formatiert, um eine präzise Bezugnahme und Begründung zu ermöglichen. Um die Argumentationsfähigkeit des Modells zu verbessern, stellen wir außerdem einen Datensatz für fortgeschrittene Aufgaben zusammen, einschließlich detaillierter Beschreibung, Wahrnehmungs-/Interaktionsgesprächen und Funktionsinferenz.
Integration in Apple-Produkte noch unklar
Das Ergebnis sei, so das Paper weiter, besser als bei GPT-4V und anderen bestehenden UI-fokussierten MLLMs. Was der Artikel allerdings nicht verrät ist, wie das KI-Tool in konkrete Apple-Produkte, etwa iOS 18, integriert werden könnte. Daher kann auch noch nicht gesagt werden, wann User es „in echt“ ausprobieren können.