Resemble.AI: ecco come l’intelligenza artificiale può clonare la nostra voce in 30 secondi
Intervista esclusiva agli sviluppatori di Resemble.ai, gli stessi che hanno ricreato la voce di Andy Warhol per la serie di Netflix ispirata ai suoi diari.
Dopo la scrittura di testi sempre più simile a quella umana e la creazione di foto capaci di ingannare anche gli esperti, l’intelligenza artificiale si prepara a valicare un’altra frontiera: quella della voce. Presto sarà disponibile anche in Italia la tecnologia di Resemble.ai che permette di clonare una voce in circa 30 secondi. Si tratta della stessa startup canadese scelta da Ryan Murphy e dal regista Bill Irwin per ricreare la voce di Andy Warhol nella popolare serie tv di Netflix ispirata ai suoi diari. E le novità in arrivo non sono da meno, come spiegano in questa intervista esclusiva a Centodieci i suoi sviluppatori. E in quanto alle preoccupazioni etiche…
Quando sarà disponibile la versione in italiano e in altre lingue (oltre all’inglese) della vostra tecnologia che permette di clonare perfettamente una voce, grazie all’intelligenza artificiale?
Stiamo pianificando un lancio a un pubblico più ampio, dunque anche in italiano, entro la fine dell’anno. Ma attualmente già supportiamo oltre 52 lingue nei nostri livelli Pro ed Enterprise.
La tecnologia di Resemble.ai è stata resa famosa dalla serie Netflix sui diari di Andy Warhol. Ci sono altri usi conosciuti?
Abbiamo aiutato già diverse aziende e istituzioni (tra gli altri l’autorevole Smithsonian Institute, ndr) a creare una brand voice, unica e riconoscibile da utilizzare per il servizio clienti, il marketing e altri programmi: i casi d’uso sono in continua crescita.
Nei prossimi 5 anni come potremmo utilizzare una tecnologia come la vostra? Quali sviluppi prevedete?
Il 2023 sarà l’anno in cui vedremo fiorire l’IA generativa creativa ed essa troverà la sua strada in tutti gli aspetti della creazione di contenuti. Man mano che sempre più aziende la utilizzeranno, assisteremo a un aumento dell’uso (e delle applicazioni) di large language model (LLM) per rendere le app e gli strumenti conversazionali più umani, anziché esperienze statiche e limitate; le piccole imprese e i creatori di contenuti potranno utilizzare queste tecnologie, che continueranno ad aumentare le possibilità di utilizzo dell’IA in tutti i settori.
Inoltre, grazie all’intelligenza artificiale, il budget necessario per produrre intrattenimento continuerà a ridursi, mentre il confine tra creatori e sviluppatori si sta già offuscando, il che riduce gli ostacoli alla creazione di film e programmi tv.
Quanto tempo impiega la vostra tecnologia a clonare una voce e con quale percentuale di accuratezza?
Ad oggi, con 30 secondi di dati in inglese, Resemble.ai può fornire una precisione dell’80% e con 5 minuti di qualsiasi lingua, una precisione del 90%.
Un’ultima domanda: ci sono aspetti etici o problemi nello sviluppo della tecnologia che vi preoccupano?
Siamo molto consapevoli delle preoccupazioni relative all’etica dell’IA e le prendiamo sul serio. Abbiamo un team dedicato, che è responsabile di garantire che la nostra tecnologia venga utilizzata in modo etico e responsabile. Abbiamo anche messo in atto una serie di politiche e linee guida che chiediamo ai nostri clienti di rispettare. Queste politiche e linee guida sono progettate per garantire che la nostra tecnologia sia utilizzata in modo rispettoso della privacy e dei diritti dei dati delle persone e che non sia utilizzata in un modo che potrebbe causare danni. Riteniamo inoltre che sia nostra responsabilità educare e lavorare insieme ad altri nel settore per definire le linee guida. All’inizio di quest’anno, per esempio, abbiamo introdotto il Neural Speech Watermarker, una filigrana invisibile che combatte l’uso dannoso delle voci generate dall’IA. Si tratta di un watermark impercettibile e difficile da rilevare, che potrà aiutarci a riconoscere quando una voce è stata realizzata con l’uso dell’intelligenza artificiale.