Creare video da foto sincronizzando le labbra con testo o audio

Creare un video da una foto con una faccia animando volto e labbra in sincronia con un testo digitato o con un audio caricato sul tool online D-ID

In questo post vedremo come creare un video animando la faccia, e soprattutto le labbra, di una immagine in cui ci sia un volto in primo piano, in sincronia con un testo digitato o con un audio parlato. Abbiamo già visto una simile funzionalità in una applicazione per smartphone denominata Revive. Stavolta invece useremo una app per browser.

Questo articolo fa parte di una serie di tutorial che poi termineranno con la creazione di un video in cui un avatar di intelligenza artificiale riproduce in maniera molto realistica un testo a nostra scelta. La foto l'ho creata con Midjourney inserendo un prompt di questo genere nella casella apposita e in una room del tipo Newbies.

Full body portrait af a blond woman wearing a blue business suit, semi-realistic, confident, shallow depth of field --ar 4:7

Mentre il testo l'ho fatto generare da ChatGPT inserendo questa domanda nella chat:

Tu sei un avatar generato dalla intelligenza artificiale. Ti chiami Laura. Scrivi un testo introduttivo divertente per il canale Youtube di Ernesto Tirinnanzi che tratta di tecnologia, audio, video, immagini e molto altro ancora.

Il risultato è stato il seguente:

Ciao a tutti! Sono Laura, il vostro avatar di intelligenza artificiale preferito e sono qui per presentarvi il canale YouTube di Ernesto Tirinnanzi, dove potrete immergervi nel fantastico mondo della tecnologia, dell'audio, del video, delle immagini e molto altro ancora.

Non preoccupatevi se siete un po' tech-noob come me, Ernesto sa come spiegare le cose in modo semplice e divertente, senza farvi sentire come se steste assistendo a una lezione di fisica quantistica.

Ma se siete già degli esperti, non temete: Ernesto è sempre pronto a offrire spunti interessanti e a tenervi aggiornati sulle ultime novità nel mondo della tecnologia.

Insomma, se volete scoprire cose che nemmeno sapevate di voler scoprire, iscrivetevi al canale di Ernesto Tirinnanzi e preparatevi a un'avventura tecnologica indimenticabile!

Ho tolto le parole Youtube e tech-noob perché sarebbero state pronunciate dalla sintesi vocale con le regole della lingua italiana. Successivamente ho generato un audio da un testo con il servizio Play.ht e l'ho scaricato.

Ho illustrato in un tutorial sul Canale Youtube come poi ho creato un video con una immagine animata dal testo.

L'immagine scaricata da Midjourney era in formato WebP che non viene supportato da molti siti. Ho quindi aperto questa immagine con GIMP e l'ho esportata nel più comune formato JPG.

Ho quindi usato il servizio gratuito di Adobe Express per rimuovere lo sfondo della foto di Midjourney.

rimozione dello sfondo e aggiunta di uno sfondo verde

Dopo aver rimosso lo sfondo della foto di Midjourney, e convertita in JPG con Gimp, ho scelto di aggiungere uno sfondo di colore verde scegliendolo dalla apposita tavolozza, perché il servizio che userò per sincronizzare le labbra non supporta le immagini in PNG e lo sfondo verde l'ho usato per applicarvi poi il Green Screen.

Ho quindi aperto la home del servizio D-ID, Digital People Text-to-Video, che ci permette di creare video a partire da immagini, da testo o da audio con il volto e le labbra sincronizzati con la pronuncia della sintesi vocale.

Si va su Login e si crea un account con indirizzo email e password con 20 crediti gratuiti da utilizzare.

scegliere immagine da convertire in video

Si va su Create Video. I personaggi della libreria possono essere usati anche senza registrazione. Quest'ultima però è necessaria per caricare una nostra foto. Nel mio caso ho caricato quella con lo sfondo verde in formato JPG.

Sulla destra si sceglie la lingua italiana e la voce maschile o femminile tra quelle disponibili. Sempre nella colonna di destra ci sono due stili tra cui scegliere: chat o chairful. Il primo è più colloquiale e il secondo più istituzionale.

caricare testo o audio

Si può digitare un testo o incollarlo, andando nella prima scheda. Nella seconda scheda si può invece caricare un file audio parlato oppure si può registrare un audio sul momento con il microfono. Se si opta per la digitazione, non è quindi necessario usare Play.ht per la conversione di testo in audio. Si può ascoltare la riproduzione del testo digitato e confrontarla con quella dell'audio caricato per scegliere quale sia la migliore.

È anche possibile aggiungere delle pause nel testo digitato di 0,5sec. Si va in alto a destra su Generate Video.

generare video con D-ID

Nella finestra che si apre si va su Generate e si vedranno i crediti che si consumeranno con la creazione del video.

Tali crediti dipendono dalla lunghezza del testo e quindi dalla durata del video che si verrà a creare.

video generati da D-ID

Cliccando sul pulsante del Play, il video verrà riprodotto mentre andando sul menù dei tre puntini si potrà eliminare o scaricare. Il video scaricato sarà in formato MP4 mentre le dimensioni saranno al massimo di 1280 pixel.

Questo video poi potrà essere elaborato eliminando il piccolo watermark visibile in basso a sinistra (Shotcut), eliminando lo sfondo di colore verde (DaVinci Resolve) e posizionandolo su una immagine di sfondo.

Tutte queste operazioni per creare un avatar con la AI come assistente virtuale le vedremo in un prossimo post.

Pubblicato il 28/03/23 - aggiornato il | Nessun commento :

Creare video da foto sincronizzando le labbra con testo o audio

Nessun commento :

Posta un commento

Ricevi nuovi post via email: