Google visar Gemini Omni – ska skapa och redigera video med vanliga instruktioner

Google Deepmind lyfter fram Gemini Omni som en ny ai-modell för att skapa och redigera video med naturligt språk. Modellen beskrivs som ett verktyg där användaren ska kunna utgå från text, bild, video och ljud – och sedan bygga vidare genom vanliga instruktioner

I en ny promptguide beskriver Google Gemini Omni som ”Nano Banana – men för video”. Tanken är att användaren inte ska behöva skriva om hela prompten när något ska ändras. I stället ska det gå att be modellen byta bakgrund, ändra kameravinkel, lägga till text eller förändra rörelsen i en scen.

En central nyhet är att Gemini Omni ska kunna bevara en video genom flera redigeringar. Google skriver att modellen ska behålla det som fungerar och låta användaren fokusera på det som behöver ändras. Exempel i guiden visar hur en fjäril kan bytas ut mot ett bi, och därefter mot en svärm eldflugor, utan att hela scenen behöver byggas om.

0:00

/0:10

0:00

/0:10

0:00

/0:10

Modellen ska också kunna förstå mer avancerade instruktioner om kameraarbete, stil, ljussättning, plats och rörelse. Användaren kan till exempel be om en närbild, en kamerarörelse över en musikers axel eller att ljuset i ett hus ska tändas i takt med musiken.

Google framhåller även att Gemini Omni kan använda sin kunskap om historia, vetenskap och kultur för att skapa videor som känns mer verklighetstrogna. Enligt bolaget behöver användaren därför inte beskriva varje detalj i en scen, utan kan ange riktning och låta modellen fylla i resten.

Gemini Omni ska dessutom kunna kombinera flera typer av underlag, som bilder, video, text och ljud. Det ska bland annat gå att använda referensmaterial för att hålla en figur, ett objekt eller en miljö konsekvent genom en video. Funktionen kräver enligt Google en ai-prenumeration, och tillgången varierar beroende på abonnemang och geografi.

Bytedance släpper Lance – en liten modell för bild och vide

Bytedance Research har släppt Lance, en öppen multimodal ai-modell som samlar bildförståelse, videoförståelse, bildgenerering, videogenerering och redigering i ett och samma ramverk. Modellen finns publicerad på Hugging Face och är licensierad under Apache 2.0. Enligt Bytedance är Lance byggd som en lättviktig, enhetlig multimodal modell med 3 miljarder

Githubprojekt samlar över 40 metoder för bättre RAG-system

Ett öppet Githubprojekt har blivit en av de mer omfattande samlingarna av praktiska metoder för RAG, tekniken som låter språkmodeller hämta information från externa källor innan de svarar. Projektet heter RAG_Techniques och drivs av Nir Diamant. Det samlar notebookbaserade handledningar för utvecklare som vill bygga mer träffsäkra, kontrollerbara och

Google gör om Antigravity till kommandocentral för ai-agenter

Google gör om Antigravity till en fristående skrivbordsapp för att styra flera ai-agenter samtidigt. Lanseringen av Antigravity 2.0 presenterades vid Google I/O 2026 och markerar ett tydligt skifte från ai-stöd i kodeditorn till en plattform där agenter kan planera, köra och följa upp arbetsuppgifter parallellt. Antigravity

Guide: Så får du i gång Agentforce i Slack - steg för steg

Det nya: Slack vill göra ai-agenten till en kollega i kanalen, inte ännu ett verktyg vid sidan av jobbet. Salesforceägda Slack beskriver i en ny guide hur företag kan börja använda Agentforce direkt i Slack. Grundidén är enkel: ai-agenten ska finnas där arbetet redan sker – i direktmeddelanden, kanaler,

Read more

Bytedance släpper Lance – en liten modell för bild och vide

Githubprojekt samlar över 40 metoder för bättre RAG-system

Google gör om Antigravity till kommandocentral för ai-agenter

Guide: Så får du i gång Agentforce i Slack - steg för steg