Googles artificiella intelligens lyckas skapa videor från två foton

videoklipp

Om vi ​​ger Google ett startfoto och ett slutfoto kan deras artificiella intelligens skapa hela videon bild för bild. Systemet kan härleda allt som har hänt så att den första bilden omvandlas till den sista, vilket skapar troliga videosekvenser från bara två bilder, en process som kallas inbördes relation. Detta system kan användas för att förvandla serier till animationer, vilket helt revolutionerar sektorn. Det är fortfarande långt borta för perfekta resultat, men du kan mata par vinjetter för att skapa motsvarande video och därmed gå med i alla skapade videor.

Den består av en 2D-fällningsavkodare, en 3D-fällnings latent renderingsgenerator och en videogenerator. Bildavkodaren tilldelar målvideoramar till ett latent utrymme, medan den latenta återgivningsgeneratorn lär sig att införliva informationen i ingångsramarna. Slutligen avkodar videogeneratorn den latenta representationen i videoramar.

Forskarna fick videor från tre datamängder och samplade dem med en upplösning på 64 x 64 pixlar. Varje prov innehöll 16 ramar totalt, varav 14 skapades av AI-systemet. Forskarna körde modellen 100 gånger för varje par videoramar och upprepade processen 10 gånger för varje modellvariant och datamängd, något som tog 5 dagar med ett Nvidia Tesla V100-grafikkort. Studien finns i denna PDF. , där du kan se bilder som den på skärmdumpen ovan.