GPT-4o löst bisherige Schwächen bei komplexen Bildaufgaben Aktuell können viele KI-Modelle bereits Bilder erstellen. Allerdings scheitern zahlreiche Modelle bei komplexen Aufgaben, wie etwa der Erstellung von Texten oder dem Beibehalten von Details. OpenAI will diese Probleme mit dem großen Update für ChatGPT lösen. Statt Dall-E kommt nun GPT-4o als Modell für die Bildergenerierung zum Einsatz.
Detaillierte Texte in Bildern werden Realität
In einem ausführlichen Beitrag erklärt OpenAI zunächst, dass nun das Erstellen detaillierter Texte mit der KI möglich ist. Während andere Modelle oft nur grobe Hieroglyphen statt lesbaren Text erzeugen, kann ChatGPT dank GPT-4o präzise Anweisungen zum Text besser umsetzen. Beispielsweise zeigte OpenAI ein Bild eines Mannes, der Magnete mit Wörtern darauf an einem Kühlschrank platziert. Dank des neuen Modells kann ChatGPT jedes einzelne Wort separat generieren und an der richtigen Stelle positionieren. Laut OpenAI benötigte das finale Ergebnis dafür nur fünf Versuche.
Komplexe Anfragen sind kein Problem mehr Eine weitere Verbesserung zeigt sich bei besonders detaillierten Anfragen an die ChatGPT-Bilderstellung. Viele andere KI-Modelle scheiterten kläglich, wenn sie mehr als fünf bis acht Anweisungen bekamen.
Einschränkungen von GPT-4o beachten
Die GPT-4o-Bildergenerierung wird zunächst für Benutzer von Plus-, Pro- und Team-Konten sowie für die kostenlose Version bereitgestellt. Nutzer der kostenlosen Version müssen jedoch weiterhin Einschränkungen akzeptieren, die bereits für Dall-E gelten. Daher können sie nur wenige Bilder pro Tag generieren. Unternehmens- und Bildungskunden sollen später Zugriff auf das neue Modell erhalten. Dall-E bleibt weiterhin verfügbar, allerdings nur über ein benutzerdefiniertes GPT-Modell.
Weiterhin Herausforderungen durch KI-Halluzinationen
OpenAI erkennt an, dass es bei der Verwendung der neuen Bildgenerierung weiterhin zu Problemen kommen kann. So treten vereinzelt noch sogenannte Halluzinationen auf. Beim Erstellen einer Weltkarte mit allen Hauptstädten eines Landes erwähnt ChatGPT etwa falsche Ländernamen, erfindet neue Begriffe oder listet Länder doppelt auf. Außerdem besteht bei besonders großen Bildern das Risiko, dass Teile abgeschnitten werden. OpenAI verspricht, nach der Veröffentlichung weiter an diesen Problemen zu arbeiten und entsprechende Verbesserungen vorzunehmen.