Sora – der neue Video-Generator aus dem Unternehmen OpenAI.

Wir alle ahnten es schon und sind doch verblüfft von den Resultaten – OpenAI stellte am letzen Freitag 16. Februar den Video-Generator «Sora» der Öffentlichkeit vor. Nachdem das Unternehmen zuerst mit dem Textgenerator «ChatGPT» Wellen schlug, folgte der Bild-Generator  «Dall:E» und nun «Sora». Die Anwendung ist noch nicht für die breite Masse verfügbar, ein Vorgeschmack davon gibt es allerdings bereits auf der Website von OpenAI. 

Was macht «Sora»?

Sora ist das neuste KI-Modell aus dem Hause OpenAI. Aufgrund von Textanweisungen können realistische und phantasievolle Szenen erstellt werden, wobei die Videos bis zu einer Minute lang sind. Sora gehört zu den Diffusionsmodellen. Die Videos werden produziert, indem die Ausgangslage ein Video ist, welches wie statisches Rauschen aussieht. Anschliessend wird das Video allmählich transformiert, indem das Rauschen in vielen Schritten entfernt wird. 

Ähnlich wie die GPT-Modelle verwendet Sora eine Transformatorarchitektur, die das Modell sehr effizient macht, auch bei grossen komplexen Aufgaben. Sora erstellt Videos aufgrund von Textanweisungen, kann darüberhinaus aber auch ein vorhandenes Standbild nehmen und daraus ein Video generieren. Mithilfe der Anwendung können auch bereits bestehende Videos verlängert werden. 

Einige Beispiel zeigen eindrücklich, was Sora alles leisten könnte:

 

Prompt:

The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.​

Prompt:

Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

Prompt:

New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.

Aktuelle Schwächen: Das Modell in Entwicklung

Das derzeitige Modell hat noch einige Schwächen. Beispielsweise kann das Modell Schwierigkeiten haben, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Zum Beispiel könnte eine Person in einen Keks beissen, aber danach hat der Keks keine Bissspuren.

Das Modell kann auch räumliche Details einer Aufforderung verwechseln, z. B. links und rechts, und hat möglicherweise Schwierigkeiten mit präzisen Beschreibungen von Ereignissen, die im Laufe der Zeit stattfinden, wie z. B. das Verfolgen einer bestimmten Kamerabewegung. Das nachfolgende Video ist ein Beispiel für ungenaue physikalische Modellierung und unnatürliches «Morphing» von Objekten.

Prompt:
 
Basketball through hoop then explodes.

 

Ausblick

Der Video-Generator wurde bisher dem Red-Team zur Verfügung gestellt. Als Red-Team wird eine unabhängige Gruppe bezeichnet, welche in diesem Fall das Modell auf Schäden und Risiken prüft. Künstler*innen, Designer*innen sowie Filmemacher*innen haben bereits Zugang zur Anwendung erhalten und sind dazu eingeladen, ihr Feedback zu teilen. Dies soll helfen, das Modell so zu verbessern, dass es den Bedürfnissen der Kreativbranche optimal entspricht. 

Zudem werden die Forschungsfortschritte frühzeitig bekannt gemacht, um der Öffentlichkeit zu zeigen, welche KI-Fähigkeiten in naher Zukunft zu erwarten sind. 

Die neueste Entwicklung des KI-Video-Generators weckt neue Bedenken: Es könnte nun noch einfacher werden, überzeugende Falschinformationen zu verbreiten. Schon die Bildgeneratoren erleichterten das Erstellen von Deepfakes. Das angehängte Video beleuchtet, welche Probleme Video-Generatoren mit sich bringen können. So vermutet der Autor des Videos, dass Menschen in Zukunft grundsätzlich misstrauisch gegenüber allen Bildern und Videos sein könnten, da sie dem Gesehenen keinen Glauben mehr schenken. 

 

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Adresse

PHBern
Netzwerk Digitale Transformation
Think Tank Medien und Informatik
CH-3012 Bern

Kontakt

ttim@phbern.ch
+41 31 309 28 95