Manager Room: l’intervista
Non vuoi leggerlo? Ascoltalo!
INTERVISTA a STEFANO VOLPE
Founder del brand Vocal Coaching Project e ideatore dei metodi di Comunicazione Personale per l’utilizzo della voce connesso al linguaggio, Myskema™ e The Voice Code™.
—
Nel 2024 si prevede un aumento degli attacchi basati sull’identità come principale arma degli attori delle minacce. Secondo il Threat Hunting Report di CrowdStrike, l’80% delle violazioni avviene attraverso identità compromesse. Gli attaccanti sfruttano credenziali deboli, acquisite sul mercato nero, e migliorano le loro tecniche di phishing e social engineering. La necessità di un approccio collettivo alla sicurezza informatica, incentrato sulla protezione, l’educazione e la prevenzione anziché sulla penalizzazione, diventa cruciale per affrontare con successo le minacce informatiche emergenti. Ne parliamo con Stefano VOLPE, Founder del brand Vocal Coaching Project e ideatore dei metodi di Comunicazione Personale per l’utilizzo della voce connesso al linguaggio, Myskema™ e The Voice Code™.
Recentemente a livello consumer è storia nota che delle semplici app siano riuscite a riprodurre con una fedeltà impressionante, procurando non pochi grattacapi alle autorità competenti, delle voci di personaggi famosi che potevano “recitare” un testo che l’utente dell’app poteva usare a suo piacimento con tutti i rischi facilmente immaginabili del caso. L’Intelligenza Artificiale è molto “brava” a riprodurre la voce umana a primo impatto; sottolineo a primo impatto, poiché da esperto da quasi 40 anni nel campo della voce umana, ha un difetto di base che solo un orecchio allenato può cogliere.
Sostanzialmente, l’Intelligenza Artificiale non respira e pertanto le voci umane che riproduce per quanto molto fedeli agli originali, in realtà sono disumane poiché non si avverte, non si percepisce respiro e la respirazione è la base del ritmo della voce umana. Non solo, quando ascoltiamo una persona che ci parla, immediatamente la prima cosa che ci arriva è il suo respiro, da cui il suo ritmo di parlato. In estrema sintesi, occorre ascoltare bene queste voci sintetiche, affinare l’ascolto e l’attenzione su chi o… cosa ci parla.
Esistono programmi di Ai in grado di scongiurare truffe attuate con voci contraffatte?
Solo un’analisi spettroscopica delle frequenze emesse da una AI può svelare l’artificiosità di una voce simulata che riproduce dei passaggi troppo regolari, ritmici, cadenzati, matematici, ben lontani dalla varietà dell’analisi del suono di una voce umana in cui concorrono aspetti molto più irrazionali quali l’effetto delle emozioni che a loro volta sortiscono variazioni nella voce umana e della respirazione a seguire, come detto. Personalmente, non mi fiderei di programmi di AI che scovino una voce.
Secondo lei, quali sono quelle più a rischio in merito all’uso illegale di Ai?
Immagino, il settore bancario possa essere molto appetibile e dunque in generale, tutto il comparto finanziario in senso lato; in seconda istanza, direi per quanto riguarda ad esempio il manufacturing, l’uso illegale di AI possa essere focalizzato al fine di carpire segreti industriali e qualsiasi informazione sensibile.
La voce umana può essere oggetto di queste manipolazioni?
Come detto, occorre sensibilizzarsi, attrezzarsi ora più che mai visto che sappiamo quanto siano potenti le possibilità della AI. Se si pensa che già c’è un gran numero di tanti manipolatori umani che creano danni esponenziali sulle persone più ingenue o meno alfabetizzate, temo che l’AI, in questo senso, possa essere purtroppo un loro potente alleato nel momento in cui viene posta in condizione di imparare e simulare le tecniche manipolative; pertanto, occorre prepararsi e correre ai ripari tutelandoci dalle manipolazione della AI che oltretutto sarebbe per di più a basso costo, facilmente replicabile e potrebbe costituire davvero una minaccia per le persone se innescata per fini manipolatori e strumentali al raggiro.
Come difendersi? Abbiamo perso l’abitudine all’ascolto profondo. …Come già detto, noi possiamo smascherare una voce AI.
Si parla del 2024 come l’anno del Deepfake, dovremo – dunque – alzare la guardia, soprattutto nel mondo del business?
Chiaramente rispondo per l’aspetto voce/audio secondo le mie specifiche competenze.
Il deepfake è sostanzialmente un’imitazione di tipo avanzato e la parola stessa come da definizione della Treccani significa “…prendere a modello una persona o le sue qualità, seguendone l’esempio e cercando di diventare simile o di fare qualcosa di simile…”
Che cosa vuol dire in definitiva per quanto riguarda la voce? L’imitazione vocale è un’apparenza dunque, un’illusione, una parvenza di verità priva però di forza per produrre quella voce simile all’originale. L’AI elude in estrema sintesi, il processo di creazione organica prodromica alla produzione del suono della voce umana autentica composta da processo respiratorio, salivazione, silenzi tenuti (non imitati con del semplici “blanc”) e pertanto, al massimo, si può affermare che può essere verosimile ma mai reale.
Secondo lei, quali sono i Paesi più avanzati nel Deepfake?
È una macchia d’olio che si sta spargendo progressivamente sul mondo intero e non è possibile individuare un Paese in particolare che si distingua in questo senso.
Giuliana Gagliardi
DiPLANET.Tech