ArabiaWeather - Une équipe de scientifiques de Microsoft Research Asia a développé un nouveau modèle d'intelligence artificielle appelé VASA-1, qui transforme les images de visages et les clips audio des personnes en vidéos synchronisées avec les mouvements des lèvres, les expressions faciales et les mouvements de la tête de manière précise et réaliste. .
Dans un document de recherche, l'équipe a déclaré avoir présenté le cadre VASA, qui permet la création de visages parlants réalistes dotés de compétences visuelles et émotionnelles attrayantes à partir d'une seule image et d'un clip audio vocal. Le premier modèle, VASA-1, se distingue par sa capacité. pour générer des mouvements de lèvres exquis en synchronisation avec le son, en plus de capturer un large éventail de nuances dans les expressions faciales et les mouvements naturels de la tête qui contribuent à l'authenticité et à la vivacité de la vidéo.
L'équipe affirme que leur méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la création en ligne de vidéos 512 x 512 jusqu'à 40 images par seconde avec une latence presque négligeable.
Microsoft a réussi à lancer VASA-1.
Cela permet également à l'image d'être seule et capable de partager avec nous le format audio original. Similaire à EMO d'Alibaba
10 récupérations différentes
1. Mona Lisa a violé un paparazzi pic.twitter.com/74mZH9fTQO
-Adam (@Adamaestr0_) 19 avril 2024
VASA, ou Visual Affective Skills Animator, est un nom qui signifie « Visual Affective Skills Animator » et est capable de créer des vidéos réalistes qui imitent avec précision et réalisme les comportements conversationnels humains.
Le modèle VASA peut créer des vidéos qui semblent totalement réelles, avec des « visages parlants réalistes » reflétant les comportements conversationnels à travers des gestes faciaux naturels, des mouvements des yeux et de la tête, le tout à partir d'une seule image statique de la tête.
L'équipe a utilisé l'ensemble de données VoxCeleb2, qui comprend des vidéos de milliers de célébrités réelles, pour entraîner leur modèle.
Leur modèle se distinguait par sa capacité à traiter divers apports extérieurs au domaine de la formation, tels que des images artistiques et des discours non anglais.
Bien que les capacités du modèle soulèvent des problèmes d'usurpation d'identité, les scientifiques soulignent que leur objectif avec cet outil est de développer les compétences visuelles et émotionnelles des personnages virtuels, et non de se faire passer pour quelqu'un dans le monde réel.
Microsoft confirme qu'il n'est actuellement pas prévu de publier le code prenant en charge le modèle et vise à utiliser la technologie de manière responsable et conformément aux réglementations appropriées à l'avenir.
Lire aussi :
La Chine se noie sous la poussière... Comment ça ?
À l'occasion de la Journée mondiale de la Terre, questions fréquemment posées sur...
Sources:
l'application de météo arabe
Téléchargez l'application pour recevoir des notifications météo et plus encore