Dezember 28, 2024

Dasschoenespiel

Folgen Sie den großen Nachrichten aus Deutschland, entdecken Sie ausgefallene Nachrichten aus Berlin und anderen Städten. Lesen Sie ausführliche Funktionen, die Ihnen helfen, die Denkweise der Deutschen zu verstehen.

Bild 2 – Google DeepMind

Bild 2 – Google DeepMind

Eine Sammlung von Bildern, erstellt von Imagen

Technologie

Unsere fortschrittlichste Text-zu-Bild-Technologie

Imagen 2 ist unsere fortschrittlichste Text-zu-Bild-Publishing-Technologie und liefert eine hochwertige fotorealistische Ausgabe, die genau auf die Benutzereingaben abgestimmt ist und mit diesen übereinstimmt. Es kann mithilfe einer Normalverteilung seiner Trainingsdaten realistischere Bilder erstellen, anstatt ein vorprogrammiertes Muster zu übernehmen.

Die leistungsstarke Text-zu-Bild-Technologie von Imagen 2 steht Entwicklern und Cloud-Kunden über zur Verfügung Imagen-API in Google Cloud Vertex AI.

Das Google Arts & Culture-Team setzt unsere Imagen 2-Technologie auch in … ein. Kulturelle Ikonen Erleben Sie, dass Benutzer mithilfe von Google AI ihr kulturelles Wissen erkunden, lernen und testen können.

Verbessern Sie das Verständnis von Bildunterschriften

Text-zu-Bild-Modelle lernen, wie sie aus Details in den Bildern und Bildunterschriften ihrer Trainingsdatensätze Bilder generieren, die der Eingabeaufforderung eines Benutzers entsprechen. Die Detailqualität und Genauigkeit dieser Paarung kann jedoch je nach Bild und Bildunterschrift stark variieren.

Um qualitativ hochwertigere und genauere Bilder zu erstellen, die sich besser an die Benutzeranforderung anpassen, wurden den Bildunterschriften im Imagen 2-Trainingsdatensatz mehr Beschreibungen hinzugefügt, sodass Imagen 2 verschiedene Beschriftungsstile erlernen und verallgemeinern kann, um einen größeren Bereich besser zu verstehen von Benutzeraufforderungen. Besser.

Diese verbesserten Bild-Untertitel-Paarungen helfen Imagen 2, die Beziehung zwischen Bildern und Wörtern besser zu verstehen – und verbessern so das Verständnis von Kontext und Nuancen.

Siehe auch  Haben Sie Angst, den Prime Day zu verpassen? Sparen Sie am Black Friday bei Best Buy im Juli Hunderte von Dollar

Hier sind Beispiele für ein schnelles Verständnis von Bild 2:

Erzeugen Sie realistischere Bilder

Der Imagen 2-Datensatz und die Modellentwicklungen haben Verbesserungen in mehreren Bereichen gebracht, in denen Text-zu-Bild-Tools häufig Schwierigkeiten haben, einschließlich der Darstellung realistischer menschlicher Hände und Gesichter und der Vermeidung störender visueller Effekte in Bildern.

Beispiele dafür, wie Imagen 2 realistische menschliche Hände und Gesichter erzeugt.

Wir haben ein spezielles Modell für Bildästhetik trainiert, das auf menschlichen Vorlieben für Qualitäten wie gute Beleuchtung, Bildausschnitt, Belichtung, Schärfe und mehr basiert. Jedes Bild erhielt eine Ästhetikbewertung, die dazu beitrug, Imagen 2 zu verbessern, um Bildern in seinem Trainingsdatensatz mehr Gewicht zu verleihen, die den von Menschen bevorzugten Eigenschaften entsprechen. Diese Technologie verbessert die Fähigkeit von Imagen 2, Bilder in höherer Qualität zu erstellen.

KI-generierte Bilder unter Verwendung des „Blumen“-Vektors, mit niedrigeren ästhetischen Werten (links) und höheren ästhetischen Werten (rechts).

Visualisierung, wie Imagen 2 es einfacher macht, den Ausgabestil mithilfe von Referenzbildern und einer Textaufforderung zu steuern.

Fortgeschrittene Maler- und Außenanstricharbeiten

Imagen 2 ermöglicht auch Bildbearbeitungsfunktionen wie „Inpainting“ und „Outpainting“. Durch die Bereitstellung eines Referenzbilds und einer Bildmaske können Benutzer mithilfe einer Inpainting-Technik direkt im Originalbild neue Inhalte erstellen oder das Originalbild mithilfe von Outpainting über seine Grenzen hinaus erweitern. Diese Technologie ist für das neue Jahr für Vertex AI von Google Cloud geplant.

Imagen 2 kann mithilfe von Inpainting neue Inhalte direkt im Originalbild erstellen.

Imagen 2 kann das Originalbild durch Übermalen über seine Grenzen hinaus erweitern.

Verantwortlich für Design

Um die potenziellen Risiken und Herausforderungen der Text-zu-Bild-Technologie zu mindern, verfügen wir über strenge Leitplanken, vom Design über die Entwicklung bis hin zum Einsatz in unseren Produkten.

Imagen 2 ist in SynthID integriert, unser hochmodernes Toolset zum Markieren von Wasserzeichen und zum Identifizieren von KI-generierten Inhalten, sodass berechtigte Google Cloud-Kunden ein nicht wahrnehmbares digitales Wasserzeichen direkt auf Bildpixeln hinzufügen können, ohne die Bildqualität zu beeinträchtigen. Dadurch bleibt das Wasserzeichen für SynthID erkennbar, auch nach der Anwendung von Änderungen wie Filtern, Zuschneiden oder Speichern mit verlustbehafteten Komprimierungsschemata.

Bevor wir Funktionen für Benutzer freigeben, führen wir umfassende Sicherheitstests durch, um das Schadensrisiko zu verringern. Von Anfang an haben wir in Datenintegritätsschulungen für Imagen 2 investiert und technische Leitplanken hinzugefügt, um problematische Ausgaben wie gewalttätige, missbräuchliche oder sexuell eindeutige Inhalte zu reduzieren. Wir führen Plausibilitätsprüfungen auf die Trainingsdaten sowie Eingabe- und Ausgabeansprüche durch, die das System zur Erstellungszeit generiert. Beispielsweise implementieren wir umfassende Sicherheitsfilter, um die Erstellung potenziell problematischer Inhalte, wie beispielsweise Bilder namentlich genannter Personen, zu vermeiden. Während wir die Funktionen erweitern und Imagen 2 auf den Markt bringen, prüfen wir es auch kontinuierlich auf seine Sicherheit.

Siehe auch  Die Pixel Watch Ressence ähnelt jetzt den Google-Farben

Dank und Anerkennung

Diese Arbeit wurde ermöglicht durch wichtige Forschungs- und Ingenieurbeiträge von:

Aaron van den Oord, Ali Rizvi, Benigno Oria, Çağlar Unlu, Charlie Nash, Chris Wolfe, Conor Durkan, David Ding, Dowd Gurney, Evgeni Gladchenko, Felix Riedel, Hang Qi, Jacob Kelly, Jacob Bauer, Jeff Donahue, Junlin Zhang, Mateusz Malinowski, Mikołaj Binkowski, Pauline Luke, Robert Riacci, Robin Strudel, Sander Dielemann, Tobina Peter Igoe, Jaroslaw Janin, Zach Eaton-Rosen.

Dank an: Ben Bariach, Don Bloxwich, Ed Hirst, Elspeth White, Gemma Jennings, Jenny Brennan, Komal Singh, Louis C. Kubo, Miaozen Wang, Nick Pizzuti, Nicole Breshtova, Nidhi Vyas, Nina Anderson, Norman Casagrande, Sasha Braun, Sven Jawwal, Tulsi Doshi, Will Hawkins, Yelin Kim, Zahra Ahmed für die Leitung der Lieferung; Douglas Ek, Nando De Freitas, Oriol Viñales, Eli Collins, Demis Hassabis für ihren Rat.

Vielen Dank auch an die vielen anderen, die über Google DeepMind beigetragen haben, einschließlich unserer Partner bei Google.