Im vergangenen April stellte ein New Yorker Startup namens Runway AI eine Technologie vor, mit der Menschen Videos erstellen können, beispielsweise eine Kuh auf einer Geburtstagsfeier oder einen Hund, der auf einem Smartphone spricht, indem sie einfach einen Satz in ein Feld auf einem Computerbildschirm eingeben.
Die vier Sekunden langen Videos waren verschwommen, abgehackt, verzerrt und nervig. Aber es war ein klares Zeichen dafür, dass KI-Technologien in den kommenden Monaten und Jahren immer überzeugendere Videos erzeugen werden.
Nur zehn Monate später stellte das San Franciscoer Startup OpenAI ein ähnliches System vor, das Videos erstellt, die aussehen, als wären sie einem Hollywood-Film entnommen. Die Demonstration umfasste kurze, in Minutenschnelle aufgenommene Videos von Wollmammuts, die über eine verschneite Wiese trabten, eines Monsters, das auf eine schmelzende Kerze starrte, und einer Szene auf einer Straße in Tokio, die offenbar von einer Kamera aufgenommen wurde, die über die Stadt flog.
OpenAI, das Unternehmen hinter dem Chatbot ChatGPT und dem Standbildgenerator DALL-E, ist eines von vielen Unternehmen, die darum kämpfen, diese Art von Sofortvideogeneratoren zu verbessern, darunter Start-ups wie Runway und Technologiegiganten wie Google und Meta, Eigentümer von Facebook und Instagram. . Diese Technologie kann die Arbeit erfahrener Filmemacher beschleunigen und gleichzeitig weniger erfahrene Digitalkünstler vollständig ersetzen.
Es kann auch zu einer schnellen und kostengünstigen Möglichkeit werden, online Fehlinformationen zu verbreiten, wodurch es schwieriger wird, herauszufinden, was online wahr ist.
„Ich habe absolute Angst, dass sich so etwas auf eine hart umkämpfte Wahl auswirken könnte“, sagte Oren Etzioni, Professor an der University of Washington, der sich auf künstliche Intelligenz spezialisiert hat. Er ist außerdem Gründer von True Media, einer gemeinnützigen Organisation, die sich für die Identifizierung von Online-Fehlinformationen in politischen Kampagnen einsetzt.
OpenAI nennt sein neues System Sora, nach dem japanischen Wort für Himmel. Das Team hinter der Technologie, darunter die Forscher Tim Brooks und Bill Peebles, wählte den Namen, weil er „die Idee eines grenzenlosen kreativen Potenzials hervorruft“.
In einem Interview sagten sie auch, dass das Unternehmen Sora noch nicht der Öffentlichkeit zugänglich gemacht habe, da es noch daran arbeite, die Risiken des Systems zu verstehen. Stattdessen teilt OpenAI die Technologie mit einer kleinen Gruppe von Akademikern und anderen externen Forschern, die ein „Red Team“ bilden, ein Begriff, der sich auf die Suche nach Möglichkeiten bezieht, wie sie missbraucht werden könnte.
„Die Absicht hier ist, einen Einblick in das zu geben, was sich am Horizont abzeichnet, damit die Menschen die Fähigkeiten dieser Technologie erkennen und wir Feedback erhalten können“, sagte Dr. Brooks.
OpenAI setzt bereits Wasserzeichen auf systemproduzierten Videos, die sie als KI-generiert kennzeichnen, aber das Unternehmen gibt zu, dass sie entfernt werden können. Es kann auch schwierig sein, es zu erkennen. (Die New York Times hat den Videos mit dieser Geschichte das Wasserzeichen „Generated by AI“ hinzugefügt.)
Das System ist ein Beispiel für generative KI, die vor Ort Texte, Bilder und Töne erzeugen kann. Wie andere generative KI-Technologien lernt das OpenAI-System durch die Analyse digitaler Daten – in diesem Fall Videos und Bildunterschriften, die beschreiben, was diese Videos enthalten.
OpenAI lehnte es ab, zu sagen, wie viele Videos das System gelernt hat oder woher sie kamen, mit der Ausnahme, dass das Training öffentlich verfügbare Videos und von Urheberrechtsinhabern lizenzierte Videos umfasste. Das Unternehmen sagt wenig über die Daten, die zum Trainieren seiner Technologie verwendet werden, wahrscheinlich weil es sich einen Vorsprung gegenüber der Konkurrenz sichern will – und es wurde mehrfach wegen der Verwendung von urheberrechtlich geschütztem Material verklagt.
(Die New York Times verklagte OpenAI und seinen Partner Microsoft im Dezember wegen Urheberrechtsverletzung bei Nachrichteninhalten im Zusammenhang mit KI-Systemen.)
Sora erstellt Videos als Reaktion auf kurze Beschreibungen, wie zum Beispiel „eine wunderschöne, aus Papier gefertigte Welt aus Korallenriffen, voller bunter Fische und Meeresbewohner.“ Obwohl Videos beeindruckend sein können, sind sie nicht immer perfekt und können seltsame und unlogische Bilder enthalten. Beispielsweise hat das System kürzlich ein Video erstellt, in dem jemand einen Keks isst – der Keks wurde jedoch nie kleiner.
DALL-E, Midjourney und andere Standbildgeneratoren haben sich in den letzten Jahren so schnell verbessert, dass sie mittlerweile Bilder erzeugen, die kaum noch von Fotos zu unterscheiden sind. Dies hat es schwieriger gemacht, Fehlinformationen online zu erkennen, und viele digitale Künstler beschweren sich darüber, dass es ihnen dadurch erschwert wurde, Arbeit zu finden.
„Wir alle haben im Jahr 2022 gelacht, als „Midjourney“ herauskam und sagten: „Oh, das ist süß“, sagte Reid Southin, der Konzeptkünstler des Films aus Michigan. „Jetzt verlieren die Leute ihre Jobs an Midjourney.“
More Stories
Apple führt mit dem neuesten iOS-Update die KI-Objektentfernung in Fotos ein
Physische Veröffentlichung der Castlevania Dominus Collection bestätigt, Vorbestellungen ab nächsten Monat möglich
Microsoft verbessert die Leistung der Ryzen-CPU mit dem neuesten Windows 11-Update