Technologie
Unsere fortschrittlichste Text-zu-Bild-Technologie
Imagen 2 ist unsere fortschrittlichste Text-zu-Bild-Publishing-Technologie und liefert eine hochwertige fotorealistische Ausgabe, die genau auf die Benutzereingaben abgestimmt ist und mit diesen übereinstimmt. Es kann mithilfe einer Normalverteilung seiner Trainingsdaten realistischere Bilder erstellen, anstatt ein vorprogrammiertes Muster zu übernehmen.
Die leistungsstarke Text-zu-Bild-Technologie von Imagen 2 steht Entwicklern und Cloud-Kunden über zur Verfügung Imagen-API in Google Cloud Vertex AI.
Das Google Arts & Culture-Team setzt unsere Imagen 2-Technologie auch in … ein. Kulturelle Ikonen Erleben Sie, dass Benutzer mithilfe von Google AI ihr kulturelles Wissen erkunden, lernen und testen können.
Verbessern Sie das Verständnis von Bildunterschriften
Text-zu-Bild-Modelle lernen, wie sie aus Details in den Bildern und Bildunterschriften ihrer Trainingsdatensätze Bilder generieren, die der Eingabeaufforderung eines Benutzers entsprechen. Die Detailqualität und Genauigkeit dieser Paarung kann jedoch je nach Bild und Bildunterschrift stark variieren.
Um qualitativ hochwertigere und genauere Bilder zu erstellen, die sich besser an die Benutzeranforderung anpassen, wurden den Bildunterschriften im Imagen 2-Trainingsdatensatz mehr Beschreibungen hinzugefügt, sodass Imagen 2 verschiedene Beschriftungsstile erlernen und verallgemeinern kann, um einen größeren Bereich besser zu verstehen von Benutzeraufforderungen. Besser.
Diese verbesserten Bild-Untertitel-Paarungen helfen Imagen 2, die Beziehung zwischen Bildern und Wörtern besser zu verstehen – und verbessern so das Verständnis von Kontext und Nuancen.
Hier sind Beispiele für ein schnelles Verständnis von Bild 2:
Erzeugen Sie realistischere Bilder
Der Imagen 2-Datensatz und die Modellentwicklungen haben Verbesserungen in mehreren Bereichen gebracht, in denen Text-zu-Bild-Tools häufig Schwierigkeiten haben, einschließlich der Darstellung realistischer menschlicher Hände und Gesichter und der Vermeidung störender visueller Effekte in Bildern.
Wir haben ein spezielles Modell für Bildästhetik trainiert, das auf menschlichen Vorlieben für Qualitäten wie gute Beleuchtung, Bildausschnitt, Belichtung, Schärfe und mehr basiert. Jedes Bild erhielt eine Ästhetikbewertung, die dazu beitrug, Imagen 2 zu verbessern, um Bildern in seinem Trainingsdatensatz mehr Gewicht zu verleihen, die den von Menschen bevorzugten Eigenschaften entsprechen. Diese Technologie verbessert die Fähigkeit von Imagen 2, Bilder in höherer Qualität zu erstellen.
Anpassung flüssiger Muster
Die diffusionsbasierten Technologien von Imagen 2 bieten ein hohes Maß an Flexibilität und erleichtern die Steuerung und Anpassung des Bildstils. Durch die Bereitstellung von Bildern im Referenzstil mit einer Textaufforderung können wir Imagen 2 anpassen, um neue Bilder zu erstellen, die demselben Stil folgen.
Fortgeschrittene Maler- und Außenanstricharbeiten
Imagen 2 ermöglicht auch Bildbearbeitungsfunktionen wie „Inpainting“ und „Outpainting“. Durch die Bereitstellung eines Referenzbilds und einer Bildmaske können Benutzer mithilfe einer Inpainting-Technik direkt im Originalbild neue Inhalte erstellen oder das Originalbild mithilfe von Outpainting über seine Grenzen hinaus erweitern. Diese Technologie ist für das neue Jahr für Vertex AI von Google Cloud geplant.
Verantwortlich für Design
Um die potenziellen Risiken und Herausforderungen der Text-zu-Bild-Technologie zu mindern, verfügen wir über strenge Leitplanken, vom Design über die Entwicklung bis hin zum Einsatz in unseren Produkten.
Imagen 2 ist in SynthID integriert, unser hochmodernes Toolset zum Markieren von Wasserzeichen und zum Identifizieren von KI-generierten Inhalten, sodass berechtigte Google Cloud-Kunden ein nicht wahrnehmbares digitales Wasserzeichen direkt auf Bildpixeln hinzufügen können, ohne die Bildqualität zu beeinträchtigen. Dadurch bleibt das Wasserzeichen für SynthID erkennbar, auch nach der Anwendung von Änderungen wie Filtern, Zuschneiden oder Speichern mit verlustbehafteten Komprimierungsschemata.
Bevor wir Funktionen für Benutzer freigeben, führen wir umfassende Sicherheitstests durch, um das Schadensrisiko zu verringern. Von Anfang an haben wir in Datenintegritätsschulungen für Imagen 2 investiert und technische Leitplanken hinzugefügt, um problematische Ausgaben wie gewalttätige, missbräuchliche oder sexuell eindeutige Inhalte zu reduzieren. Wir führen Plausibilitätsprüfungen auf die Trainingsdaten sowie Eingabe- und Ausgabeansprüche durch, die das System zur Erstellungszeit generiert. Beispielsweise implementieren wir umfassende Sicherheitsfilter, um die Erstellung potenziell problematischer Inhalte, wie beispielsweise Bilder namentlich genannter Personen, zu vermeiden. Während wir die Funktionen erweitern und Imagen 2 auf den Markt bringen, prüfen wir es auch kontinuierlich auf seine Sicherheit.
Dank und Anerkennung
Diese Arbeit wurde ermöglicht durch wichtige Forschungs- und Ingenieurbeiträge von:
Aaron van den Oord, Ali Rizvi, Benigno Oria, Çağlar Unlu, Charlie Nash, Chris Wolfe, Conor Durkan, David Ding, Dowd Gurney, Evgeni Gladchenko, Felix Riedel, Hang Qi, Jacob Kelly, Jacob Bauer, Jeff Donahue, Junlin Zhang, Mateusz Malinowski, Mikołaj Binkowski, Pauline Luke, Robert Riacci, Robin Strudel, Sander Dielemann, Tobina Peter Igoe, Jaroslaw Janin, Zach Eaton-Rosen.
Dank an: Ben Bariach, Don Bloxwich, Ed Hirst, Elspeth White, Gemma Jennings, Jenny Brennan, Komal Singh, Louis C. Kubo, Miaozen Wang, Nick Pizzuti, Nicole Breshtova, Nidhi Vyas, Nina Anderson, Norman Casagrande, Sasha Braun, Sven Jawwal, Tulsi Doshi, Will Hawkins, Yelin Kim, Zahra Ahmed für die Leitung der Lieferung; Douglas Ek, Nando De Freitas, Oriol Viñales, Eli Collins, Demis Hassabis für ihren Rat.
Vielen Dank auch an die vielen anderen, die über Google DeepMind beigetragen haben, einschließlich unserer Partner bei Google.
„Bier-Geek. Der böse Ninja der Popkultur. Kaffee-Stipendiat fürs Leben. Professioneller Internet-Lehrer. Fleisch-Lehrer.“
More Stories
Wie die KI-Experten im neuen Gemini Gems-Programm von Google Ihre SEO steigern können
Leaks enthüllen den Namen und das Design des angeblichen PS5 Pro-Geräts
Apple führt mit dem neuesten iOS-Update die KI-Objektentfernung in Fotos ein