Avec l'aide d'un tuyau en PVC, des chercheurs du Wisconsin trompent certains systèmes d'identification vocale
2024-01-08 09:00
Shimaa Ahmed est doctorante à l'UW-Madison. Elle a étudié s'il était possible de modifier la résonance, ou les vibrations de fréquence spécifique, d'une voix, pour déjouer les dispositifs d'identification automatique du locuteur.
Est-il possible de tromper les systèmes informatiques qui utilisent la voix d'une personne comme code d'accès ? Certains ingénieurs du Wisconsin disent que la réponse est oui, et qu'ils l'ont fait en partie en utilisant des tuyaux en plastique que l'on peut trouver dans une quincaillerie.
Certains systèmes bancaires en ligne utilisent l'identification automatique du locuteur – plus simplement – la voix du titulaire du compte comme code d'accès. Kassem Fawaz, professeur en génie électrique et informatique à l'UW-Madison, affirme également que les utilisateurs d'Apple iPhone connaissent probablement l'assistant virtuel Siri, qui ne répond qu'au propriétaire.
"La raison pour laquelle Siri ne répond qu'à vous est qu'ils utilisent cette technologie appelée identification du locuteur. Ainsi, ils obtiennent une sorte d’empreinte vocale, semblable à une empreinte digitale, et ils peuvent déterminer si elle vient de vous ou de quelqu’un d’autre. Et c'est ainsi que Siri peut s'assurer que l'utilisateur ou le propriétaire du téléphone lui parle,"dit Fawaz.
Mais Fawaz et deux doctorants de l'UW-Madison. les étudiants font partie d’un effort multi-universitaire visant à améliorer la sécurité numérique. C’est pourquoi ils ont cherché des moyens de tromper les systèmes informatiques. Eux et d’autres ont déjà travaillé sur le clonage de la voix humaine et sur un ordinateur qui parle comme cette personne.
Plus récemment, Fawaz affirme que les ingénieurs ont réalisé qu'ils pouvaient faire marche arrière du numérique et passer à l'analogique pour tromper de nombreux systèmes d'identification des locuteurs.
"Et c'est ainsi que nous avons eu l'idée de concevoir une sorte d'appareil analogique qui ne possède aucune sorte d'électronique numérique vous permettant de vous faire passer pour les autres,"dit Fawaz.
doctorat Shimaa Ahmed, étudiante, raconte qu'elle a d'abord essayé de parler à travers le tube en carton trouvé dans de nombreux rouleaux d'essuie-tout, en imitant des célébrités.
"Et ça a marché. Quand j'ai fait passer certaines voix de célébrités à travers ce tube d'essuie-tout, cela a changé la prédiction de ces célébrités,"dit Ahmed.
Finalement, Fawaz a acheté du plastiqueTuyau en PVCdu rayon des pièces de plomberie d'une quincaillerie et l'équipe a commencé à l'utiliser.
Kassam Fawaz, professeur adjoint au Département de génie électrique et informatique du College of Engineering de l'Université du Wisconsin-Madison, est photographié dans un portrait en studio le 15 février 2022. Fawaz est l'un des douze récipiendaires du prix Distinguished Teaching 2022. Prix (DTA). (Photo d'Althea Dotzour / UW-Madison)
Fawaz dit qu'ils ont réalisé que les tubes présentaient des défauts.
"Les tubes de plomberie ordinaires ont des dimensions fixes, n'est-ce pas ? Vous pouvez contrôler la longueur en la coupant. Mais vous ne pouvez pas contrôler le diamètre. Pour certaines expériences, nous avions besoin de tubes d'un diamètre spécial, que l'on ne trouve pas chez Ace Hardware. Donc ce que nous devions faire pour fabriquer ces tubes, et le moyen le plus simple de fabriquer les tubes est de les imprimer en 3D,"dit Fawaz.
L'équipe s'est tournée vers des étudiants de premier cycle, aujourd'hui doctorants. étudiant, Yash Wani, qui a imprimé des tubes en 3D. Wani dit que ce travail a modifié son orientation académique.
"C'était vraiment cool, honnêtement, c'est comme ça que j'ai fini par faire un doctorat. C'était assez cool pour moi de continuer à faire ça,"il dit.
Les chercheurs ont développé un algorithme, ou des instructions rigoureuses, qui ont déterminé les dimensions du tuyau nécessaires pour transformer la résonance (c'est-à-dire l'intensité et la qualité du ton) de presque n'importe quelle voix pour en imiter une autre.
Dans un enregistrement, Ahmed a lu un ensemble de données vocales conventionnelles et sonnait un peu comme l'actrice Lisa Kudrow – vous savez, Phoebe de Amis.
"Il n'y avait rien sur le rocher,"est allé la lecture. Ahmed a également essayé d'imiter l'actrice Kelly Reilly, qui joue dans la série télévisée. Pierre jaune."«Je n'en ai aucune idée», répondit Phillip,"Ahmed a déclaré sur l'enregistrement.
Ce n’étaient pas des imitations exactes. Mais ils ont été suffisamment bons pour contourner les filtres d’attaque numérique d’un système d’authentification vocale et le tromper. Utilisant également les voix d'autres étudiants dans leur expérience, les ingénieurs de l'UW-Madison déclarent avoir trompé les systèmes de sécurité dans 60 % des cas lors d'un test portant sur 91 voix.
Assez bien pour rédiger un article et pour qu’Ahmed présente les résultats lors d’un symposium sur la sécurité ce mois-ci en Californie.
"Les gens étaient curieux de savoir comment on pouvait fabriquer des appareils comme des tubes, mais en plus compliqué, on pouvait se faire passer pour n'importe qui,"dit Ahmed.
Fawaz affirme que tous les fabricants de systèmes d'identification des locuteurs – Apple, Google, IBM, Microsoft et autres – sont conscients des diverses lacunes de leur technologie et tentent d'y remédier.
Les bailleurs de fonds de la recherche UW comprennent la National Science Foundation et la DARPA, la principale branche de recherche du ministère de la Défense.