Google visar Gemini Omni – ska skapa och redigera video med vanliga instruktioner

Google visar Gemini Omni – ska skapa och redigera video med vanliga instruktioner

Google Deepmind lyfter fram Gemini Omni som en ny ai-modell för att skapa och redigera video med naturligt språk. Modellen beskrivs som ett verktyg där användaren ska kunna utgå från text, bild, video och ljud – och sedan bygga vidare genom vanliga instruktioner

I en ny promptguide beskriver Google Gemini Omni som ”Nano Banana – men för video”. Tanken är att användaren inte ska behöva skriva om hela prompten när något ska ändras. I stället ska det gå att be modellen byta bakgrund, ändra kameravinkel, lägga till text eller förändra rörelsen i en scen.

En central nyhet är att Gemini Omni ska kunna bevara en video genom flera redigeringar. Google skriver att modellen ska behålla det som fungerar och låta användaren fokusera på det som behöver ändras. Exempel i guiden visar hur en fjäril kan bytas ut mot ett bi, och därefter mot en svärm eldflugor, utan att hela scenen behöver byggas om.

0:00
/0:10
0:00
/0:10
0:00
/0:10

Modellen ska också kunna förstå mer avancerade instruktioner om kameraarbete, stil, ljussättning, plats och rörelse. Användaren kan till exempel be om en närbild, en kamerarörelse över en musikers axel eller att ljuset i ett hus ska tändas i takt med musiken.

Google framhåller även att Gemini Omni kan använda sin kunskap om historia, vetenskap och kultur för att skapa videor som känns mer verklighetstrogna. Enligt bolaget behöver användaren därför inte beskriva varje detalj i en scen, utan kan ange riktning och låta modellen fylla i resten.

Gemini Omni ska dessutom kunna kombinera flera typer av underlag, som bilder, video, text och ljud. Det ska bland annat gå att använda referensmaterial för att hålla en figur, ett objekt eller en miljö konsekvent genom en video. Funktionen kräver enligt Google en ai-prenumeration, och tillgången varierar beroende på abonnemang och geografi.

Read more