OpenAI hat die bisher fortschrittlichste Bildgenerierungstechnologie gestartet und die Funktionalität direkt in das native multimodale Modell GPT-4O integriert. Die neuen Funktionen werden in Chatgpt Plus, Pro, Team und kostenlosen Benutzern eingeführt, wobei Enterprise und EDU Access in Kürze erfolgen. Darüber hinaus können Entwickler in den kommenden Wochen über die API über die API zugreifen.
OpenAI sagte: „Wir haben lange geglaubt, dass die Bildgenerierung die Hauptfähigkeit von Sprachmodellen sein sollte. Deshalb integrieren wir immer noch fortgeschrittene Bildgeneratoren in den GPT-4O.
Multimodale, kontextrekognitive Bilderstellung
Das GPT-4O-Image-Erzeugungswerkzeug ist so konzipiert, dass sie eine leichte und detaillierte Ausgabe mit starker Einhaltung von Benutzeranforderungen erzeugen. Das Modell basiert auf einem Trainingsdatensatz, der sowohl aus Bildern als auch aus Text besteht, und erzeugt Visuals, die eindeutig Informationen wie Diagramme, Infografiken, Plakate und mehr vermitteln und auch kreativere und künstlerischere Outputs unterstützen.
GPT-4O kann komplexe Bilder mit bis zu 10 bis 20 verschiedenen Objekten erzeugen und Objekte genau in ihre Eigenschaften und Beziehungen kombinieren. Es unterstützt das Lernen im Kontext und ermöglicht die Verfeinerung von Bildern in mehreren Rotationen im Gespräch. Zum Beispiel können Benutzer, die Videospielcharaktere entwerfen, ihre Designs iterieren und gleichzeitig die visuelle Konsistenz während des gesamten Prozesses beibehalten.
Genauigkeit und Praktikabilität der visuellen Kommunikation
Die GPT-4O-Bildgenerierung ist hervorragend darin, Text in Bildern zu rendern, sodass Benutzer visuelle Ausgabe kombinieren können, Sprache und Design mit hoher Genauigkeit zu kombinieren. Laut OpenAI „verwendeten Menschen von den ersten Höhlenmalereien bis zu modernen Infografiken visuelle Bilder, um sie zu kommunizieren, zu überzeugen und zu analysieren und zu dekorieren.“
Neben der Fähigkeit, Symbole und strukturierte Daten zu rendern, kann GPT-4O hochgeladene Bilder in den Erzeugungsprozess einbeziehen und sie zur visuellen Inspiration oder Transformation verwenden. Auf diese Weise können Benutzer auf vorhandenen Inhalten aufbauen und die Stilkonsistenz über Projekte hinweg aufrechterhalten.
Einschränkungen und Sicherheitsprotokolle
OpenAI gibt zu, dass GPT-4O-Bildgenerierung nicht ohne Einschränkungen ist. Dazu gehören gelegentliche Ernteprobleme, Halluzinationsinhalte mit geringen Kontextaufforderungen, Herausforderungen mit genauem Bearbeitung und das Rendern dichter Informationen oder mehrsprachiger Text. Das Unternehmen arbeitet aktiv daran, diese Bereiche zu verbessern.
Sicherheit bleibt ein wichtiger Fokus. OpenAI stellt C2PA -Metadaten in das generierte Bild ein und verwendet interne Tools, um den Ursprung des Inhalts zu sehen. Anfragen, die gegen Inhaltsrichtlinien verstoßen, einschließlich echter Menschen, Nacktheit oder Gewalt, werden standardmäßig blockiert. Sicherheitsspezifikationen geschultes Schlussfolgerungen von LLMs können dazu beitragen, sowohl Eingänge als auch Ausgaben für Richtlinien zu mildern.
„Wie andere Starts endet die Sicherheit nie und ist eher ein laufender Investitionsgebiet“, sagte das Unternehmen.
Benutzerzugriff und Entwicklerintegration
Die Bildgenerierung für GPT-4O ersetzt die vorherigen Optionen und wird von heute zur Standardeinstellung für ChatGPT-Benutzer. Für diejenigen, die Dall/E bevorzugen, kann dies über einen dedizierten GPT zugegriffen werden.
Benutzer können Bildspezifikationen mithilfe der natürlichen Sprache wie Seitenverhältnis, Hex -Code und Hintergrundtransparenz erklären. Das Modell erzeugt eine detailliertere Ausgabe, sodass das Bild bis zu 1 Minute dauern kann.
Bild: OpenAI