Meta hatte letztes Jahr großen Erfolg mit Segment Anything, einem maschinellen Lernmodell, das fast alles in einem Bild schnell und zuverlässig erkennen und identifizieren kann. Die Fortsetzung, die CEO Mark Zuckerberg am Montag bei SIGGRAPH auf der Bühne debütierte, überträgt das Modell in den Videobereich und zeigt, wie schnell sich das Feld bewegt.
Segmentierung ist der Fachbegriff, der verwendet wird, wenn ein Visionsmodell ein Bild betrachtet und Teile heraussucht: „Das ist ein Hund, und das ist ein Baum hinter dem Hund“, hoffentlich, nicht „Das ist ein Baum, der aus einem Hund wächst.“ Das passiert schon seit Jahrzehnten, aber in letzter Zeit ist es viel besser und schneller geworden, und Segment Anything ist ein großer Fortschritt.
Alles Teil Zwei (SA2) Dies ist eine natürliche Folgemaßnahme, da sie sich nativ auf Videos und nicht nur auf Standbilder bezieht. Obwohl Sie das erste Modell natürlich für jedes Videobild einzeln ausführen können, ist dies nicht der effizienteste Arbeitsablauf.
„Wissenschaftler nutzen diese Dinge, um Korallenriffe und natürliche Lebensräume und ähnliches zu untersuchen“, sagte Zuckerberg in einem Gespräch mit Nvidia-CEO Jensen Huang. „Aber es auf Video zu machen, es genau festzuhalten und ihm zu sagen, was man will, ist schön.“ Cool.“
Die Videoverarbeitung ist natürlich rechenintensiver, was ein Beweis für die Fortschritte ist, die in der gesamten Branche dabei erzielt werden, wie effizient SA2 arbeiten kann, ohne dass es zu einem Zusammenbruch des Rechenzentrums kommt. Natürlich ist dies immer noch ein riesiges Modell und erfordert leistungsstarke Hardware, um zu funktionieren, aber eine schnelle und flexible Segmentierung war noch vor einem Jahr praktisch unmöglich.
Das Modell wird, wie das erste, offen und kostenlos nutzbar sein, und es gibt kein Wort über eine gehostete Version, die KI-Unternehmen manchmal anbieten. Es gibt aber eine kostenlose Testversion.
Natürlich erfordert das Training eines solchen Modells eine große Datenmenge, und Meta hat außerdem eine große und herausragende Datenbank mit 50.000 Videos veröffentlicht, die speziell für diesen Zweck erstellt wurde. In dem Papier, das SA2 beschreibt, wurde auch eine andere Datenbank mit über 100.000 „intern verfügbaren“ Videos für das Training verwendet, und diese Datenbank wurde nicht veröffentlicht – ich habe Meta um weitere Informationen darüber gebeten, was es ist und warum es nicht veröffentlicht wurde. (Wir glauben, dass es von öffentlichen Profilen auf Instagram und Facebook stammt).
Meta ist seit mehreren Jahren Pionier der „offenen“ KI, obwohl es dies in Wirklichkeit (wie Zuckerberg in dem Gespräch betonte) schon seit langem tut und Tools wie PyTorch verwendet. Aber in letzter Zeit sind LLaMa, Segment Anything und einige andere Modelle, die ich kostenlos zur Verfügung gestellt habe, zu einer relativ zugänglichen Einschränkung der KI-Leistung in diesen Bereichen geworden, obwohl ihre „Offenheit“ umstritten ist.
Zuckerberg erwähnte, dass Metas Offenheit nicht nur aus Güte zustande kommt, das aber nicht bedeutet, dass ihre Absichten unrein sind:
„Das ist nicht nur eine Software, die man erstellen kann – man braucht ein Ökosystem um sie herum, wenn wir sie nicht als Open Source anbieten würden, oder? weil wir altruistische Menschen sind, obwohl ich denke, dass das gut für das Ökosystem ist – wir tun es, weil wir glauben, dass das, was wir bauen, dadurch das Beste wird.“
Es wird aber sicher sinnvoll genutzt. Besuchen Sie GitHub hier.
„Bier-Geek. Der böse Ninja der Popkultur. Kaffee-Stipendiat fürs Leben. Professioneller Internet-Lehrer. Fleisch-Lehrer.“
More Stories
Wie die KI-Experten im neuen Gemini Gems-Programm von Google Ihre SEO steigern können
Leaks enthüllen den Namen und das Design des angeblichen PS5 Pro-Geräts
Apple führt mit dem neuesten iOS-Update die KI-Objektentfernung in Fotos ein