Googles neues Imagen 2-Modell kann Videos generieren
Es ist noch nicht allzu lange her, dass OpenAI Sora vorgestellt hat, das viele Menschen mit seiner Fähigkeit, (einigermaßen) realistische Videoclips aus Textaufforderungen zu erstellen, beeindruckte und erschreckte. Die KI-Bildgenerierung wurde in den letzten Monaten stark verfeinert, so dass der nächste natürliche Schritt, wie zu erwarten, das Video ist. Google bringt auch seine eigenen Methoden zur Videogenerierung auf den Markt, wobei neue KI-Modelle unter dem Dach von Imagen 2 ebenfalls Großes versprechen.
Google hat Imagen 2 vorgestellt, eine Familie von Modellen innerhalb seiner Vertex AI-Plattform. Google geriet in die Kritik, weil sein Bildgenerierungsmodell innerhalb von Gemini eine Art Müllcontainerfeuer war. Es wurde entfernt, und obwohl Gemini Imagen 2 nicht enthält (zumindest nicht sofort), kommt es mit einer Reihe von Verbesserungen, die es insgesamt besser für die Generierung von Bildern oder sogar Videos machen.
Zu den Verbesserungen von Imagen 2 gehören Inpainting- und Outpainting-Funktionen, die eine Bildbearbeitung ermöglichen, wie z. B. das Entfernen unerwünschter Elemente oder das Hinzufügen neuer Komponenten. Die wichtigste Neuerung ist jedoch die Einführung von "Text-to-Live-Bildern", die es ermöglichen, aus Texteingaben kurze Videos zu erstellen.
Sie sollten jedoch bedenken, dass es sich nicht um Sora handelt. Im Vergleich zu bestehenden Tools zur Videogenerierung könnten die Fähigkeiten von Imagen 2 in Bezug auf Auflösung und Anpassungsoptionen unzureichend sein. Wir müssen sehen, wie gut es sich in der Praxis schlägt. Es ist auch ein bisschen eine technische Sache, aber das erzeugt "Live-Bilder", bei denen es sich um kurze 4-Sekunden-Clips handelt. Es ist jedoch noch ein Anfang, und dies könnte als Grundlage für ein tatsächliches Text-to-Video-Modell in den nächsten Monaten oder Jahren dienen.
Um Bedenken hinsichtlich Deepfakes auszuräumen, integriert Google die SynthID-Technologie, um kryptografische Wasserzeichen auf Live-Bilder anzuwenden, um Authentizität und Sicherheit zu gewährleisten. Obwohl Google den Schwerpunkt auf Sicherheitsmaßnahmen legt, bleiben Fragen zur Wirksamkeit seines Ansatzes und zur Transparenz in Bezug auf Trainingsdatenquellen offen. Zum einen könnte das Fehlen eines Opt-out-Mechanismus für Urheber, deren Arbeit in die Trainingsdaten aufgenommen werden kann, bei einigen die Augenbrauen hochziehen. Darüber hinaus gilt die generative KI-Entschädigungsrichtlinie von Google nicht für Text-to-Live-Bilder, wodurch Kunden potenziellen Urheberrechtsansprüchen ausgesetzt sind.
Ob Google das in irgendeiner Weise öffentlich zugänglich macht, bleibt abzuwarten. Wir könnten mehr hören, sobald die Google I/O ansteht.
Quelle: TechCrunch