EMO (Emotive Portrait Alive) este un nou AI generativ cercetat de Institutul de calcul inteligent (IIC) al Alibaba, cu capacitatea de a transforma „magic” orice imagine în vorbire și cântând realist.
Cu alte cuvinte, AI Alibaba poate transforma o imagine statică de referință și un sunet vocal într-un videoclip care poate vorbi și cânta cu expresii naturale.
AI-urile anterioare au transformat doar gura și o parte a feței, în timp ce EMO poate crea expresii faciale, expresii naturale ale gurii, sincronizarea precisă a buzelor, mișca sprâncenele, ochii încrunți sau chiar se balansează în muzică.
Alibaba a lansat câteva videoclipuri care arată cum imaginile se vor transforma în videoclipuri și vor cânta melodii importate din mers. EMO acceptă engleză, chineză și multe alte limbi.
Alibaba a dezvăluit că, pentru ca EMO să poată crea expresii faciale realiste, a fost antrenat cu o cantitate mare de date de imagine, audio și video prin propriul model de difuzie numit Audio2Video.
Pentru a aborda actuala provocare majoră a realismului și expresivității în generarea video din imagini și sunete, echipa de cercetare s-a concentrat pe relația și nuanțele dintre semnalele audio și mișcările faciale, ocolind legătura intermediară cu modelul 3D sau reperele faciale, tranziția perfectă a cadrelor și păstrând consistența în videoclip.
Alibaba nu a dezvăluit când va lansa acest AI pentru public, dar a publicat datele EMO pe Github și lucrări de cercetare postate pe ArXiv.