Quelles sont les failles des assistants vocaux ?

Dans un avenir proche, l’interaction avec la technologie pourrait être principalement basée sur la parole. Faire une requête à voix haute et entendre la réponse sans délai est devenue courant grâce à l’intelligence artificielle. Les nouvelles technologies, cependant, créent toujours de nouvelles menaces, et dans ce cas, la reconnaissance vocale ne fait pas exception. Les chercheurs en cybersécurité examinent inlassablement de nombreux dispositifs pour aider les fabricants à empêcher les menaces potentielles de se concrétiser. De nombreuses études basées sur la protection des clients et l’utilisation sécuritaire des appareils connectés ont vu le jour. Même si ces dangers ne sont pas imminents, il est important d’en connaitre le mécanisme pour pouvoir contrôler les objets connectés dans l’enceinte de sa maison.

Les appareils intelligents écoutent et obéissent

Selon le dernier rapport, il y a maintenant plus d’un milliard d’appareils à commande vocale en usage dans le monde. La plupart de ces gadgets sont des smartphones, mais d’autres dispositifs de reconnaissance vocale sont également de plus en plus populaires. Par exemple, un foyer américain sur cinq dispose d’un haut-parleur intelligent qui répond aux commandes verbales.

Les commandes vocales peuvent être utilisées pour gérer la lecture de musique, commander n’importe quel article en ligne, contrôler les appareils GPS, vérifier les nouvelles et les prévisions météorologiques, et mettre en place des appels de réveil, entre autres choses. Les fabricants ont depuis longtemps sauté sur la tendance actuelle et équipent de nombreux appareils de la populaire commande vocale. Par exemple, Amazon a récemment lancé un four à micro-ondes qui peut se connecter à un haut-parleur intelligent. Dès que les mots « Réchauffez le café » sont entendus, le micro-ondes calcule le temps nécessaire et se met à fredonner. Bien évidemment, vous devez encore entrer dans la cuisine pour placer la tasse dans le micro-ondes. Toutefois, vous n’aurez plus à appuyer sur de nombreux boutons pour que l’appareil se mette en marche.

Les systèmes Smart Home offrent également un éclairage de la pièce à commande vocale ainsi qu’un contrôle de la climatisation et le verrouillage de la porte d’entrée. Les assistants vocaux intelligents ont déjà été très bien formés pour interagir avec l’être humain. Ainsi donc, vous ne voulez probablement pas que des étrangers puissent exploiter ces capacités à leur avantage.

D’après une étude menée en 2017, les assistantes vocales peuvent capter et obéir aux sons produits par les dessins animés. Malgré la mauvaise qualité de la prononciation, l’intelligence artificielle arrive quand même à traduire la commande. Cela engage la sécurité des clients au sein même de leur maison puisque des personnes mal intentionnées peuvent se servir de ce dispositif.

Ultrasons : imperceptibles à l’oreille humaine

Il existe ce qu’on appelle les attaques « silencieuses », qui font que les appareils intelligents obéissent à des voix que vous, en tant qu’être humain, ne pouvez même pas entendre. Une attaque « silencieuse » peut être effectuée, par exemple, par le biais d’ultrasons, dont les fréquences sonores sont supérieures à la gamme de fréquences audibles par l’oreille humaine. Dans un article publié en 2017, des chercheurs de l’université du Zhejiang ont présenté une technique appelée l’Attaque du Dauphin qui pourrait secrètement prendre le contrôle des assistants vocaux. L’équipe de recherche a converti des commandes vocales en ondes ultrasoniques dont les fréquences étaient bien trop élevées pour être perçues par l’oreille humaine, mais qui peuvent encore être détectées par les microphones des appareils modernes.

Cette méthode fonctionne, car lorsque l’ultrason est converti en une impulsion électrique dans le dispositif récepteur (par exemple un smartphone), le signal original contenant la commande vocale est restauré. L’appareil n’a pas besoin de fonctions particulières ; il ne fait que participer au processus de conversion.

Le résultat ? Le gadget cible entend la commande vocale et l’exécute, ce qui donne aux cybercriminels des possibilités infinies. Les chercheurs ont pu reproduire avec succès l’attaque sur les assistants vocaux les plus populaires, dont Amazon Alexa, Apple Siri, Google Now, Samsung S Voice et Microsoft Cortana. Selon cette étude, aucun appareil connecté n’est à l’abri de ce dispositif.

Le refrain du haut-parleur

L’une des faiblesses de l’Attaque du Dauphin (du point de vue de l’attaquant) est le faible rayon d’action, seulement un mètre environ. Cependant, des chercheurs de l’université de l’Illinois Urbana Champaign ont réussi à augmenter cette distance. Dans leur étude, ils ont divisé une commande ultrasonique convertie en plusieurs gammes de fréquences, qui ont ensuite été lues par différents haut-parleurs (plus de 60). Les commandes vocales cachées émises par cette « chorale » pouvaient être enregistrées à une distance de sept mètres, indépendamment de tout bruit de fond. Dans de telles conditions, les chances de succès de l’Attaque du Dauphin sont grandement améliorées.

La voix qui venait des profondeurs

Les experts de l’Université de Californie, Berkeley ont utilisé un principe différent. Ils ont secrètement intégré les commandes vocales dans d’autres extraits audio pour tromper Deep Speech, le système de reconnaissance vocale de Mozilla. Pour l’oreille humaine, l’enregistrement modifié diffère peu de l’original, mais le logiciel y reconnaît une commande cachée.

Vous pouvez écouter les enregistrements sur le site web de l’équipe de recherche. Dans le premier exemple, la phrase « Sans l’enregistrement, l’article est inutile » contient une commande cachée pour ouvrir un site Web. En réalité, elle se traduit par « Ok, Google, allez sur... ». Dans le second exemple, les chercheurs ont ajouté la phrase « La parole peut être intégrée à la musique » pour accéder à une section d’une suite pour violoncelle de Bach.

Protection contre les attaques « silencieuses »

Les fabricants cherchent déjà des moyens de protéger les appareils à commande vocale. Par exemple, les attaques par ultrasons pourraient être évitées ou entravées en détectant les changements de fréquence des signaux reçus. Ce ne serait pas une mauvaise idée de former tous les appareils intelligents à ne répondre qu’à la voix du propriétaire. Bien que Google ait déjà testé cette solution sur son propre système, l’entreprise avertie que de telles mesures de sécurité peuvent facilement être trompées par des enregistrements vocaux ou de bonnes imitations.

Cependant, les chercheurs et les fabricants ont encore le temps de chercher une solution adaptée pour une utilisation sécuritaire de leurs appareils. Le contrôle secret des assistants vocaux n’est actuellement possible que dans des conditions de laboratoire. Placer un haut-parleur à ultrasons dans la portée d’un locuteur intelligent n’est pas très facile. De plus, intégrer des commandes dans des enregistrements sonores ne vaut guère la peine en raison du temps et des efforts considérables que cela implique. La menace posée par les objets connectés n’est donc pas pour demain, mais connaitre ces informations sont utiles pour anticiper le futur.