Eine neue Studie zur Leistungsfähigkeit von KI-Chatbots zeigt ihre aktuellen Probleme und Hürden auf.
Generative KI kann inzwischen wirklich viel, von der Übersetzung bis hin zum Redigieren von Texten. Doch in manchen Feldern sind die entsprechenden Chatbots auch noch nicht so fit, wie eine neue Studie zeigt.
Analyse längerer Texte sorgt für Schwierigkeiten
Google Gemini und ChatGPT wurden beide mit längeren Büchern gefüttert. Nachdem die beiden KI-Modelle diese Inhalte analysiert hatten, wurden ihnen inhaltliche Fragen dazu gestellt.
Dabei stellten die Analysten fest, dass Gemini 1.5 Pro bei einem 520 Seiten langen Buch die gefragten Richtig/Falsch-Aussagen nur in 46,7 Prozent der Fälle richtig beantwortete. Gemini Flash lag sogar nur in 20 Prozent der Fälle richtig.
ChatGPT etwas besser als Gemini
GPT-4 erreichte mit 55,8 Prozent die höchste Genauigkeit im NoCha-Datensatz (Novel Challenge). Dennoch zeigte die Studie auch, dass die vom Modell generierten Erklärungen für ihre Entscheidungen selbst ungenau waren, wenn sie die Behauptungen korrekt eingeordnet hat.
In diesem Artikel sind Partner-Links enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet Ihr Euch für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für Euch ändert sich am Preis nichts. Danke für Eure Unterstützung. Foto: Google, via Techspot