martedì 16 Luglio 2024

Il generatore vocale AI VALL-E 2 di Microsoft “raggiunge la parità umana”, ma è troppo pericoloso per il rilascio, affermano gli scienziati

6 giorni ago

Il nuovo generatore vocale AI VALL-E 2 di Microsoft: una sfida alla parità umana

Microsoft ha sviluppato un’intelligenza artificiale così avanzata da destare preoccupazione tra gli scienziati, che ritengono sia troppo rischioso renderla pubblica.

Una tecnologia rivoluzionaria

VALL-E 2 è un generatore di testo in voce capace di replicare la voce umana con estrema precisione, utilizzando solo brevi clip audio dell’interlocutore.

L’ambizione di raggiungere la parità umana

Secondo i ricercatori, il generatore vocale AI è in grado di produrre un parlato così accurato e naturale da essere indistinguibile da quello umano, rappresentando un passo avanti significativo nell’ambito della tecnologia linguistica neurale.

Le caratteristiche che fanno la differenza

Due funzionalità chiave, “Repetition Aware Sampling” e “Grouped Code Modeling”, consentono a VALL-E 2 di garantire un’alta qualità del suono generato e una maggiore efficienza nel processo di sintesi vocale.

Test e valutazioni

I ricercatori hanno testato il generatore utilizzando campioni audio da librerie vocali e framework di valutazione dedicati, confermando la straordinaria capacità di VALL-E 2 nel replicare fedelmente la voce umana.

Una svolta nel mondo della sintesi vocale

La nuova tecnologia VALL-E 2, sviluppata da Microsoft, ha dimostrato risultati eccezionali superando i precedenti sistemi TTS zero-shot in diversi aspetti chiave.

Qualità dell’output e dipendenza da vari fattori

I ricercatori hanno evidenziato che la qualità dell’output generato da VALL-E 2 dipende dalla lunghezza e dalla qualità dei prompt vocali utilizzati, oltre a fattori ambientali come il rumore di fondo durante la registrazione.

“Puramente un progetto di ricerca”

Nonostante le potenzialità di VALL-E 2, Microsoft ha deciso di non renderla disponibile pubblicamente per evitare possibili abusi legati alla clonazione vocale e alle deepfake, in linea con altre restrizioni adottate da aziende come OpenAI.

I ricercatori hanno chiarito che al momento VALL-E 2 rimane un progetto di ricerca senza piani concreti di commercializzazione, motivati dalle preoccupazioni legate all’uso improprio del modello.

Tuttavia, hanno sottolineato che la tecnologia potrebbe trovare applicazioni pratiche in settori come l’educazione, l’intrattenimento, il giornalismo, l’accessibilità, i chatbot e molto altro ancora, aprendo scenari interessanti per il futuro.

Per garantire un utilizzo etico e consapevole della tecnologia vocale AI, i ricercatori hanno sottolineato l’importanza di coinvolgere il parlante nell’approvazione dell’uso della propria voce e nell’implementazione di sistemi di rilevamento della voce sintetizzata.

Segui su...

Lascia un commento

Your email address will not be published.