Bild 2 – Google DeepMind

Eine Sammlung von Bildern, erstellt von Imagen

Technologie

Unsere fortschrittlichste Text-zu-Bild-Technologie

Imagen 2 ist unsere fortschrittlichste Text-zu-Bild-Publishing-Technologie und liefert eine hochwertige fotorealistische Ausgabe, die genau auf die Benutzereingaben abgestimmt ist und mit diesen übereinstimmt. Es kann mithilfe einer Normalverteilung seiner Trainingsdaten realistischere Bilder erstellen, anstatt ein vorprogrammiertes Muster zu übernehmen.

Die leistungsstarke Text-zu-Bild-Technologie von Imagen 2 steht Entwicklern und Cloud-Kunden über zur Verfügung Imagen-API in Google Cloud Vertex AI.

Das Google Arts & Culture-Team setzt unsere Imagen 2-Technologie auch in … ein. Kulturelle Ikonen Erleben Sie, dass Benutzer mithilfe von Google AI ihr kulturelles Wissen erkunden, lernen und testen können.

Aufnahme einer 32-jährigen Naturschützerin im Wald; Sportlich mit kurzen, lockigen Haaren und einem warmen Lächeln — Eingabeaufforderung: Aufnahme einer 32-jährigen Frau, Waldschützerin; Sportlich mit kurzen, lockigen Haaren und einem warmen Lächeln

Aufforderung: Qualle auf dunkelblauem Hintergrund

Kleines Ölgemälde auf Leinwand mit einer Orange auf einem Schneidebrett. Das Licht dringt durch die orangefarbenen Teile und wirft orangefarbenes Licht auf einen Teil des Schneidebretts. Im Hintergrund befindet sich ein blau-weißes Tuch. Kaustik, springendes Licht, ausdrucksstarke Pinselstriche — Dringend: Ein kleines Ölgemälde auf Leinwand mit einer Orange auf einem Schneidebrett. Das Licht dringt durch die orangefarbenen Teile und wirft orangefarbenes Licht auf einen Teil des Schneidebretts. Im Hintergrund befindet sich ein blau-weißes Tuch. Kaustik, springendes Licht, ausdrucksstarke Pinselstriche

Verbessern Sie das Verständnis von Bildunterschriften

Text-zu-Bild-Modelle lernen, wie sie aus Details in den Bildern und Bildunterschriften ihrer Trainingsdatensätze Bilder generieren, die der Eingabeaufforderung eines Benutzers entsprechen. Die Detailqualität und Genauigkeit dieser Paarung kann jedoch je nach Bild und Bildunterschrift stark variieren.

Um qualitativ hochwertigere und genauere Bilder zu erstellen, die sich besser an die Benutzeranforderung anpassen, wurden den Bildunterschriften im Imagen 2-Trainingsdatensatz mehr Beschreibungen hinzugefügt, sodass Imagen 2 verschiedene Beschriftungsstile erlernen und verallgemeinern kann, um einen größeren Bereich besser zu verstehen von Benutzeraufforderungen. Besser.

Diese verbesserten Bild-Untertitel-Paarungen helfen Imagen 2, die Beziehung zwischen Bildern und Wörtern besser zu verstehen – und verbessern so das Verständnis von Kontext und Nuancen.

Hier sind Beispiele für ein schnelles Verständnis von Bild 2:

KI-Bild aus Vektor generiert "Vögel strömen sanft, während die Bäche ihre Melodien erneuern und ihre gemischte Musik in der Luft schweben lässt" (Hymne an den Abend von Phillis Wheatley) — *Dringend: „Die Bäche schnurren leise, die Vögel erneuern ihre Melodien und ihre Musik schwebt in der Luft.“ (*Eine Hymne an den Abend von Phillis Wheatley)

KI-generiertes Bild einer Unterwasserszene. — Vorgeladen: „*Bedenken Sie die Subtilität des Meeres; Wie die furchterregendsten Kreaturen unter Wasser gleiten, größtenteils unsichtbar, heimtückisch verborgen unter den schönsten Himmelsblautönen.*„.“ (Moby-Dick von Herman Melville)

Künstliche Intelligenz hat ein realistisches Bild eines singenden Rotkehlchens erstellt — Vorgeladen: „Ein Rotkehlchen flog aus dem wogenden Efeuzweig zur Mauerkrone, öffnete seinen Schnabel und sang ein lautes, schönes Zwitschern, nur um anzugeben. Es gibt nichts auf der Welt, das so schön ist wie ein Rotkehlchen, wenn es angibt – und das tun sie fast immer.(Der geheime Garten von Frances Hodgson Burnett)

Erzeugen Sie realistischere Bilder

Der Imagen 2-Datensatz und die Modellentwicklungen haben Verbesserungen in mehreren Bereichen gebracht, in denen Text-zu-Bild-Tools häufig Schwierigkeiten haben, einschließlich der Darstellung realistischer menschlicher Hände und Gesichter und der Vermeidung störender visueller Effekte in Bildern.

Beispiele dafür, wie Imagen 2 realistische menschliche Hände und Gesichter erzeugt.

Wir haben ein spezielles Modell für Bildästhetik trainiert, das auf menschlichen Vorlieben für Qualitäten wie gute Beleuchtung, Bildausschnitt, Belichtung, Schärfe und mehr basiert. Jedes Bild erhielt eine Ästhetikbewertung, die dazu beitrug, Imagen 2 zu verbessern, um Bildern in seinem Trainingsdatensatz mehr Gewicht zu verleihen, die den von Menschen bevorzugten Eigenschaften entsprechen. Diese Technologie verbessert die Fähigkeit von Imagen 2, Bilder in höherer Qualität zu erstellen.

KI-generierte Bilder unter Verwendung des „Blumen“-Vektors, mit niedrigeren ästhetischen Werten (links) und höheren ästhetischen Werten (rechts).

Anpassung flüssiger Muster

Die diffusionsbasierten Technologien von Imagen 2 bieten ein hohes Maß an Flexibilität und erleichtern die Steuerung und Anpassung des Bildstils. Durch die Bereitstellung von Bildern im Referenzstil mit einer Textaufforderung können wir Imagen 2 anpassen, um neue Bilder zu erstellen, die demselben Stil folgen.

Visualisierung, wie Imagen 2 es einfacher macht, den Ausgabestil mithilfe von Referenzbildern und einer Textaufforderung zu steuern.

Fortgeschrittene Maler- und Außenanstricharbeiten

Imagen 2 ermöglicht auch Bildbearbeitungsfunktionen wie „Inpainting“ und „Outpainting“. Durch die Bereitstellung eines Referenzbilds und einer Bildmaske können Benutzer mithilfe einer Inpainting-Technik direkt im Originalbild neue Inhalte erstellen oder das Originalbild mithilfe von Outpainting über seine Grenzen hinaus erweitern. Diese Technologie ist für das neue Jahr für Vertex AI von Google Cloud geplant.

Imagen 2 kann mithilfe von Inpainting neue Inhalte direkt im Originalbild erstellen.

Imagen 2 kann das Originalbild durch Übermalen über seine Grenzen hinaus erweitern.

Verantwortlich für Design

Um die potenziellen Risiken und Herausforderungen der Text-zu-Bild-Technologie zu mindern, verfügen wir über strenge Leitplanken, vom Design über die Entwicklung bis hin zum Einsatz in unseren Produkten.

Imagen 2 ist in SynthID integriert, unser hochmodernes Toolset zum Markieren von Wasserzeichen und zum Identifizieren von KI-generierten Inhalten, sodass berechtigte Google Cloud-Kunden ein nicht wahrnehmbares digitales Wasserzeichen direkt auf Bildpixeln hinzufügen können, ohne die Bildqualität zu beeinträchtigen. Dadurch bleibt das Wasserzeichen für SynthID erkennbar, auch nach der Anwendung von Änderungen wie Filtern, Zuschneiden oder Speichern mit verlustbehafteten Komprimierungsschemata.

Bevor wir Funktionen für Benutzer freigeben, führen wir umfassende Sicherheitstests durch, um das Schadensrisiko zu verringern. Von Anfang an haben wir in Datenintegritätsschulungen für Imagen 2 investiert und technische Leitplanken hinzugefügt, um problematische Ausgaben wie gewalttätige, missbräuchliche oder sexuell eindeutige Inhalte zu reduzieren. Wir führen Plausibilitätsprüfungen auf die Trainingsdaten sowie Eingabe- und Ausgabeansprüche durch, die das System zur Erstellungszeit generiert. Beispielsweise implementieren wir umfassende Sicherheitsfilter, um die Erstellung potenziell problematischer Inhalte, wie beispielsweise Bilder namentlich genannter Personen, zu vermeiden. Während wir die Funktionen erweitern und Imagen 2 auf den Markt bringen, prüfen wir es auch kontinuierlich auf seine Sicherheit.

Dank und Anerkennung

Diese Arbeit wurde ermöglicht durch wichtige Forschungs- und Ingenieurbeiträge von:

Aaron van den Oord, Ali Rizvi, Benigno Oria, Çağlar Unlu, Charlie Nash, Chris Wolfe, Conor Durkan, David Ding, Dowd Gurney, Evgeni Gladchenko, Felix Riedel, Hang Qi, Jacob Kelly, Jacob Bauer, Jeff Donahue, Junlin Zhang, Mateusz Malinowski, Mikołaj Binkowski, Pauline Luke, Robert Riacci, Robin Strudel, Sander Dielemann, Tobina Peter Igoe, Jaroslaw Janin, Zach Eaton-Rosen.

Dank an: Ben Bariach, Don Bloxwich, Ed Hirst, Elspeth White, Gemma Jennings, Jenny Brennan, Komal Singh, Louis C. Kubo, Miaozen Wang, Nick Pizzuti, Nicole Breshtova, Nidhi Vyas, Nina Anderson, Norman Casagrande, Sasha Braun, Sven Jawwal, Tulsi Doshi, Will Hawkins, Yelin Kim, Zahra Ahmed für die Leitung der Lieferung; Douglas Ek, Nando De Freitas, Oriol Viñales, Eli Collins, Demis Hassabis für ihren Rat.

Vielen Dank auch an die vielen anderen, die über Google DeepMind beigetragen haben, einschließlich unserer Partner bei Google.

Hegemann Helene

Bild 2 – Google DeepMind

Verbessern Sie das Verständnis von Bildunterschriften

Erzeugen Sie realistischere Bilder

Anpassung flüssiger Muster

Fortgeschrittene Maler- und Außenanstricharbeiten

Verantwortlich für Design

Dank und Anerkennung

Apple führt mit dem neuesten iOS-Update die KI-Objektentfernung in Fotos ein

Physische Veröffentlichung der Castlevania Dominus Collection bestätigt, Vorbestellungen ab nächsten Monat möglich

Microsoft verbessert die Leistung der Ryzen-CPU mit dem neuesten Windows 11-Update

SYNETRA9051 auf Bybit: Aktivität und Zufluss neuer Nutzer

Deutschlands wachstumsstarkes Technologieunternehmen Northern Data und zwei weitere vielversprechende Aktien

Das Welternährungsprogramm stoppt seine Bewegung in Gaza, nachdem wiederholt auf ein Hilfsfahrzeug geschossen wurde

A24 hat den Film von Daniel Craig und Luca Guadagnino erworben

Verbessern Sie das Verständnis von Bildunterschriften

Erzeugen Sie realistischere Bilder

Anpassung flüssiger Muster

Fortgeschrittene Maler- und Außenanstricharbeiten

Verantwortlich für Design

Dank und Anerkennung

Schreibe einen Kommentar Antwort abbrechen

More Stories

Apple führt mit dem neuesten iOS-Update die KI-Objektentfernung in Fotos ein

Physische Veröffentlichung der Castlevania Dominus Collection bestätigt, Vorbestellungen ab nächsten Monat möglich

Microsoft verbessert die Leistung der Ryzen-CPU mit dem neuesten Windows 11-Update

You may have missed

SYNETRA9051 auf Bybit: Aktivität und Zufluss neuer Nutzer

Deutschlands wachstumsstarkes Technologieunternehmen Northern Data und zwei weitere vielversprechende Aktien

Das Welternährungsprogramm stoppt seine Bewegung in Gaza, nachdem wiederholt auf ein Hilfsfahrzeug geschossen wurde

A24 hat den Film von Daniel Craig und Luca Guadagnino erworben