Bytedance släpper Lance – en liten modell för bild och vide

Bytedance släpper Lance – en liten modell för bild och vide

Bytedance Research har släppt Lance, en öppen multimodal ai-modell som samlar bildförståelse, videoförståelse, bildgenerering, videogenerering och redigering i ett och samma ramverk.

Modellen finns publicerad på Hugging Face och är licensierad under Apache 2.0. Enligt Bytedance är Lance byggd som en lättviktig, enhetlig multimodal modell med 3 miljarder aktiva parametrar.

Lance är tränad från grunden med en stegvis multitaskmetod. Bytedance uppger att träningen genomförts inom en budget på 128 Nvidia A100-grafikkort, vilket bolaget lyfter fram som en relativt begränsad resursnivå jämfört med många större multimodala modeller.

Modellen kan användas för text-till-video, text-till-bild, bildredigering, videoredigering, bildförståelse och videoförståelse. Bytedance tillhandahåller ett gemensamt kommandoradsgränssnitt för uppgifterna, med separata körlägen för bland annat t2v, t2i, image_edit, video_edit, x2t_image och x2t_video.

Enligt modellkortet kräver Lance Python 3.10 eller senare, CUDA 12.4 eller senare och en GPU med minst 40 gigabyte grafikminne för inferens. Det gör modellen tillgänglig för forskare och utvecklare med kraftfull hårdvara, men inte för vanlig konsumentutrustning.

Bytedance redovisar också egna benchmarkresultat. I GenEval för bildgenerering får Lance ett totalresultat på 0,90, i nivå med eller över flera andra enhetliga modeller i jämförelsen. I VBench för videogenerering redovisas 85,11, högre än flera modeller i tabellen, däribland Hunyuan Video och Wan2.1-T2V 14B enligt Bytedances egna siffror.

Lanseringen kommer samtidigt som konkurrensen om öppna multimodala modeller hårdnar. Stora ai-aktörer försöker samla fler funktioner i samma modell, i stället för att använda separata system för text, bild, video och redigering.

För Bytedance är Lance ett försök att visa att en mindre modell kan hantera flera medietyper och arbetsuppgifter inom ett gemensamt ramverk. För utvecklare kan den bli intressant som forskningsmodell och testmiljö för multimodala arbetsflöden, men de höga hårdvarukraven begränsar användningen utanför mer avancerade utvecklingsmiljöer.

Read more