Pubblicato il 05/06/23 - aggiornato il  | Nessun commento :

Clonare voci italiane con l'intelligenza artificiale di Eleven Labs

Come clonare voci anche italiane con il tool di text-to-speech ElevenLabs che usa un file audio per rilevare le caratteristiche timbriche della voce

L'utilizzo della intelligenza artificiale nel campo delle voci sintetiche ha portato a dei risultati veramente sorprendenti e impensabili solo pochi anni fa. Adesso infatti con le nuove tecnologie si riesce a clonare una voce e a far pronunciare da quella voce un qualsiasi testo. Questo comporta anche dei rischi come possibili abusi con l'uso non autorizzato di voci di politici o di personaggi pubblici che poi possono pronunciare discorsi anche in totale disaccordo con le proprie idee. In futuro assisteremo a un proliferare di fake news create ad arte in questo modo.

Abbiamo già visto come siano stati sviluppati strumenti per creare delle voci di sintesi vocale assimilabili del tutto a quelle umane e molto più realistiche delle voci metalliche di sintesi vocale a cui eravamo abituati qualche anno fa.

Tra questi tool ricordo tra gli altri Voicemaker, OddCast che crea anche un avatar parlante, il video editor ClipChamp e pure il classico Google Traduttore. In questo video vedremo un altro eccellente tool del tipo text-to-speech con anche la possibilità di generare voci personalizzate indicandone le caratteristiche di genere e età.

La cosa però più strabiliante è quella di riuscire a clonare una voce dopo aver analizzato un file audio in cui è stata appunto registrato un parlato della voce da clonare. Successivamente si potranno modificare alcune caratteristiche come aggiungere un accento, stabilizzare la voce e aumentarne la chiarezza e la somiglianza.

Ho pubblicato sul mio Canale Youtube un video tutorial per utilizzare il tool Eleven Labs ancora in Beta.



Lo strumento precedente di Eleven Labs utilizzava il motore Monolingual v1 che adesso è stato aggiornato a quello Multilingual v1. Il primo supportava solo la lingua inglese mentre il secondo supporta anche tedesco, polacco, spagnolo, italiano, francese, portoghese e hindi. Dopo aver aperto il tool è necessario loggarsi.

Si va quindi su Sign Up per registrarsi con gli account di Google, Facebook o creando sul momento un account con indirizzo email e password. In questo ultimo caso sarà richiesta una verifica tramite un link inviatoci.

Dopo l'accesso verrà mostrata la pagina Speech Synthesis dove in Settings si potrà scegliere la voce della sintesi.

sintesi vocale con eleven labs

Nel terzo campo si sceglie Multilingual v1 mentre in Voice Settings ci sono altre opzioni da impostare in seguito.

Si digita o si incolla un testo nel campo Text. Con un account gratuito si hanno a disposizione 10.000 caratteri al mese. Verranno sottratti per ogni conversione e dopo 30 giorni si ricostituiranno. Ogni conversione dovrà contenere al massimo 2.500 caratteri. Si clicca su Generate per riprodurre l'audio con la sintesi vocale del testo.

riprodurre e scaricare audio di sintesi

Dopo un rapido processo in basso potremo visualizzare il pulsante del Play con cui riprodurre l'audio del testo pronunciato dalla voce selezionata. Per migliorare il risultato, si può andare su Voice Settings e agire sui cursori.

Aumentando la Stabilità la voce diventerà più omogenea mentre aumentando la Chiarezza la pronuncia sarà più chiara. È sconsigliato di aumentarla fino al massimo perché la voce potrebbe sembrare più artefatta.

Le voci disponibili sono 9 ma se ne possono aggiungere altre personalizzate cliccando sul pulsante Add Voice.

add voice design

Nella finestra successiva si va ancora sul Più per poi visualizzare tre possibile opzioni. Gli utenti con il piano gratuito possono scegliere solo Voice Design che aprirà un'altra finestra in cui scegliere le caratteristiche della voce.

Potremo scegliere il genere maschile o femminile, l'età e l'accento. Potremo ascoltare anche una anteprima.

generare voce con voice design di eleven labs

Si va su Generate quindi su Use Voice per aggiungerla alle altre nove. La limitazione di questo strumento sta nel fatto che è disponibile solo la lingua inglese con i vari accenti. Più potente è invece quello per clonare una voce.

Purtroppo è disponibile solo per gli utenti a pagamento. Si va quindi su Subcription dopo aver cliccato in alto a destra sul nostro account. Verrà aperta una pagina con tutti i piani di abbonamento oltre a quello Free.

piani abbonamento eleven labs

Il più economico è quello Starter al costo di 5$ al mese ma con uno sconto dell'80% per il primo mese. Mi sono quindi abbonato a questo piano digitando gli estremi della carta di credito e pagando quindi 1$.

L'abbonamento poi potrà essere rescisso in qualsiasi momento. Le carte di credito prepagate non vengono accettate. Sono andato quindi su +Add Voice → +Add Generative or Cloned Voice → Instant Voice Cloning.

generare voce da file audio

Con l'account Free l'opzione Instant Voice Cloning non sarebbe cliccabile. Con l'abbonamento Starter invece ci si clicca per aprire una finestra di configurazione. Si da un nome alla voce, si clicca nel secondo campo e si seleziona un file audio con la voce da clonare. Tale file può pesare fino a 15MB e avere la lunghezza di almeno un minuto

Più in basso si può aggiungere una descrizione della voce e anche delle Labels che possono essere inserite anche in un secondo momento. Si mette la spunta sulla dichiarazione che abbiamo i diritti necessari per clonare la voce in oggetto quindi si va su Add Voice. Ho caricato un file con la mia voce di cui detengo ovviamente il copyright.

scelta della voce clonata

Con il piano Starter si hanno a disposizione 30.00 caratteri mensili e si possono creare fino a 10 voci personalizzate, con il Design o con Instant Cloning. Andando su VoiceLab si possono editare le voci create.

editare le voci clonate

Per ogni voce clonata ci sono tre pulsanti. Con Use si apre Speech Synthesis per utilizzarla mentre con Remove si elimina dall'elenco. Se invece si clicca su Edit si aprirà la stessa finestra di configurazione per eventuali modifiche.

editare la voce clonata

Andando sul Più in Labels si possono aggiungere delle Etichette come Lingua e Accento. Nel mio caso Italian e Italian. Ho quindi digitato una descrizione della voce per poi mettere la solita spunta e andare su Edit Voice.

Ho provato a clonare anche personaggi pubblici con una voce molto riconoscibile e i risultati sono stati eccellenti. Se questo tool verrà usato solo poche volte si dovrà procedere alla cancellazione dell'abbonamento andando su Subscription → Cancel Subscription nel piano sottoscritto per poi andare su Manage Subcription e eliminare i dati della carta di credito in Modalità di Pagamento qualche giorno prima della prossima fattura.

Infine si possono clonare voci per poi eliminarle. L'importante è non averne più di dieci rimaste attive.



Nessun commento :

Posta un commento

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy