Pourquoi un casque, et pourquoi maintenant
La voix reste le canal de communication enterprise le plus critique opérationnellement et le plus négligé cryptographiquement. Dirigeants, avocats, équipes M&A et négociateurs gouvernementaux conduisent des conversations dont la valeur stratégique dépasse de loin les protections techniques en place. La pile dominante, à savoir des casques grand public couplés en BLE à un smartphone exécutant un soft-client, repose sur des hypothèses qu'aucun architecte de sécurité n'accepterait pour un autre actif de tier-1 : des clés en logiciel mutable, des side-channels au travers de l'OS hôte et une couche de transport qui sera cryptanalytiquement brisée d'ici la fin de la vie professionnelle de la majorité des dirigeants actuels [1].
Q-Audion GEN-1 fait partie des premiers produits d'une catégorie délibérément étroite : un endpoint voix hardware-rooted, post-quantique, qui ne fait pas confiance au téléphone, à l'ordinateur portable ou au système d'exploitation avec lequel il dialogue. Chaque opération cryptographique se déroule à l'intérieur d'un Secure Element tamper-resistant. Chaque octet d'audio en clair n'existe qu'à l'intérieur d'un domaine DSP isolé. Le dispositif hôte est traité comme un réseau hostile, et non comme un pair.
Nous avons lancé le programme GEN-1 avec un engagement architectural unique : si la conception devait imposer un compromis entre la force cryptographique, la résistance aux side-channels et l'ergonomie opérationnelle, ce serait l'ergonomie qui perdrait. Le résultat est un dispositif plus lourd qu'un casque grand public, qui consomme davantage qu'un true-wireless et qui requiert quelques secondes pour le premier pairing. Chacun de ces chiffres est la conséquence délibérée du modèle de menace.
Le modèle de menace en un paragraphe
Q-Audion GEN-1 doit protéger la confidentialité et l'intégrité d'une conversation vocale face à un adversaire qui contrôle le dispositif hôte (ordinateur portable, téléphone, passerelle du casque), peut observer et modifier le trafic radio, peut monter des attaques side-channel physiques contre le dispositif pendant de brèves fenêtres temporelles, et peut avoir accès à un calculateur quantique tolérant aux fautes à un certain moment durant la vie opérationnelle de la donnée protégée. On suppose que l'adversaire ne dispose pas d'une garde physique continue de plusieurs heures avec instrumentation de laboratoire : c'est la frontière au-delà de laquelle le modèle de menace renvoie à la politique de sécurité physique.
Chaque choix de conception qui suit est la traduction directe d'une ou plusieurs clauses de ce modèle de menace en décisions matérielles, firmware ou protocolaires. Il n'existe aucun autre principe directeur.
Architecture matérielle à deux domaines
À l'intérieur, le dispositif est divisé en deux domaines électriquement et logiquement isolés. L'Application Domain gère le BLE, l'interface utilisateur, la gestion de la batterie et la liaison radio vers l'hôte couplé. Il exécute un RTOS contraint sur un MCU généraliste de classe Cortex fourni par un fabricant européen de silicium sécurisé. Ce domaine est traité comme semi-fiable : il peut tomber en panne, être reprogrammé ou être compromis sans mettre en danger l'état cryptographique.
Le Secure Domain est construit autour d'un Secure Element certifié avec accélérateur PQC intégré et DSP audio dédié. Ce domaine conserve la clé d'identité de long terme, exécute toutes les opérations ML-KEM-1024 [1] et ML-DSA-87 [2], et constitue le seul lieu où existent des échantillons audio déchiffrés. Les deux domaines communiquent sur un canal de commande hardware-gated à format fixe, sans accès direct en mémoire depuis le côté Application vers le côté Secure. Il n'y a pas de bus partagé, pas de fenêtre DMA, pas de chemin de debug qui traverse la frontière dans le firmware de production.
Cette séparation est le choix architectural unique le plus coûteux du dispositif. Elle double approximativement le coût du silicium par rapport à une conception à MCU unique et rend les mises à jour firmware considérablement plus complexes. Elle rend également hors de propos toute une classe de compromission côté hôte : même avec un contrôle complet de l'Application Domain et de l'hôte couplé, un attaquant ne peut extraire une clé, déchiffrer une trame mémorisée ou forger une signature.
Le noyau cryptographique
L'identité est établie en phase de provisionnement en générant une paire de clés ML-DSA-87 entièrement à l'intérieur du Secure Element [2]. La clé privée ne quitte jamais le SE et est liée à l'identifiant unclonable unique du dispositif. La clé publique est signée par l'autorité de certification de provisionnement BCrypto, produisant un certificat de dispositif qui est ensuite présenté lors du pairing. Il n'existe, ni dans le firmware ni dans l'instrumentation d'usine, aucun chemin pour exporter la clé privée de signature.
L'établissement de session utilise ML-KEM-1024 hybride avec X25519 [7]. Lorsque deux dispositifs Q-Audion établissent un appel, chacun génère une paire de clés éphémères des deux schémas, échange les clés publiques sur un canal authentifié (signé avec l'identité ML-DSA-87 de long terme) et dérive une clé de session de 256 bits via HKDF-SHA384 sur la concaténation des deux secrets partagés, avec des préfixes de longueur explicites et une séparation de domaine. Les composantes classique et post-quantique sont indépendantes : la compromission d'une seule, isolément, n'affaiblit pas la clé de session résultante.
Le transport audio utilise AES-GCM 256 avec un nonce de 96 bits construit à partir d'un sel par session et d'un compteur de trame de 64 bits strictement monotone. La taille de trame est de 20 ms d'Opus à 16 kHz, produisant des ciphertexts d'environ 320 octets. La protection contre le rejeu est appliquée par une fenêtre glissante de 1024 trames. Les trames hors séquence à l'intérieur de la fenêtre sont acceptées ; celles à l'extérieur sont écartées sans traitement ultérieur. Cette conception tolère le jitter intrinsèque au BLE sans affaiblir les défenses contre le rejeu.
L'array MEMS et l'isolation acoustique
Le choix du microphone est rarement traité comme une décision de sécurité, mais pour un dispositif qui prétend protéger une conversation face à un adversaire distant, c'est l'une des plus conséquentes. Q-Audion GEN-1 utilise un array MEMS à trois éléments avec beamforming orienté vers la bouche de l'utilisateur, positionné pour maximiser la réjection des sources ambiantes au-delà d'environ 40 centimètres. Le beamformer tourne à l'intérieur du DSP du Secure Domain, sur des échantillons PDM bruts qui ne franchissent jamais la frontière de domaine sous forme de clair.
L'objectif acoustique est de rendre sensiblement plus difficile l'interception à distance par microphone laser, une attaque de beamforming paramétrique depuis un dispositif proche ou un microphone hôte compromis. Aucune de ces menaces ne peut être éliminée par le casque seul, mais chacune peut voir son coût augmenter. L'array MEMS réduit de 20 à 30 dB le signal disponible pour un attaquant hors axe par rapport à un microphone omnidirectionnel à élément unique, ce qui se traduit par un changement significatif de l'enveloppe d'engagement d'un scénario typique d'interception.
Le même chemin DSP inclut un mute matériel qui interrompt physiquement le front-end analogique de l'array microphone. Le mute purement logiciel, schéma dominant dans les casques grand public, est inacceptable dans notre modèle de menace : un firmware compromis peut l'ignorer. Le mute matériel est exposé via un bouton dédié dont l'état est détecté indépendamment par les deux domaines ; un mismatch déclenche un shutdown fail-secure du chemin audio.
Résistance aux side-channels et au tampering
Toutes les primitives PQC sont implémentées à l'intérieur du Secure Element en utilisant une bibliothèque arithmétique constant-time certifiée par rapport aux profils de résistance aux side-channels pertinents. En particulier, le chemin de décapsulement ML-KEM est audité par rapport aux canaux de timing, de puissance et d'émanation électromagnétique, et l'implémentation est masquée au premier ordre face à la differential power analysis [6]. Nous nous appuyons sur la certification du fournisseur du Secure Element plutôt que de développer une implémentation propre : c'est l'un des rares points de la conception où la propriété intellectuelle commerciale certifiée est strictement plus sûre qu'un travail sur mesure.
La résistance physique au tampering vise le niveau EAL 4+, en cohérence avec le profil de certification de Secure Elements commerciaux comparables [5]. Le Secure Domain est encapsulé sous un composé de potting tamper-evident et le châssis du dispositif inclut des pistes d'intrusion detection qui déclenchent le zeroising de tout le matériel de session et d'identité en cas de violation mécanique. La résistance au cold-boot est assurée par un keystore volatile à perte de charge pour le matériel éphémère et par un stockage chiffré pour le matériel de long terme.
Le firmware est signé avec une clé racine ML-DSA-87 conservée hors ligne chez BCrypto [2]. Les mises à jour sont livrées over-the-air au travers de l'hôte couplé mais vérifiées à l'intérieur du Secure Domain avant le commit dans le boot bank. Un compteur de rollback, ancré dans des fuses one-time-programmable, empêche le downgrade vers une version précédente vulnérable. Le chemin de boot impose un measured boot des deux domaines, la mesure du Secure Domain étendant celle de l'Application Domain de sorte qu'une compromission de l'un ou de l'autre soit détectable au redémarrage suivant. Le module cryptographique vise FIPS 140-3 Level 3 [3].
Énergie, portée et limites du facteur de forme
Exécuter l'échange de clé ML-KEM-1024 et le chiffrement AES-GCM 256 en continu à l'intérieur du budget batterie d'un casque n'est faisable que parce que l'accélérateur PQC à l'intérieur du Secure Element exécute chaque handshake en quelques dizaines de millisecondes à une puissance moyenne sub-milliwatt. Une implémentation logicielle naïve sur un Cortex-M généraliste consumerait quelques joules par handshake et dominerait le budget batterie. L'accélérateur matériel est le composant rendant possible l'ensemble.
L'autonomie réaliste en conversation sur une seule charge est d'environ 8 heures, soit environ 14 jours de veille en idle avec les beacons de paging actifs. Ces chiffres étaient des objectifs, et non des contraintes : nous avons dimensionné la batterie pour les atteindre après avoir caractérisé la charge cryptographique, et non en réduisant la sécurité pour nous adapter à une batterie choisie a priori. Le résultat est un dispositif plus lourd que les casques grand public typiques, compromis que nous jugeons acceptable étant donné le modèle de menace.
La portée BLE est intentionnellement limitée à environ 5 mètres à la puissance d'émission par défaut, bien en dessous du maximum BLE 5.x. La raison est que tout besoin d'opérer à plus longue distance implique un hôte couplé qui n'est pas sous le contrôle physique immédiat de l'utilisateur, condition qui est en soi un problème de sécurité qu'aucune contre-mesure au niveau du transport ne peut résoudre. La conception pousse l'utilisateur vers une posture de déploiement dans laquelle le dispositif hôte est sur la personne, et non à l'autre bout de la pièce.
Ce que nous n'avons pas inclus dans GEN-1
Q-Audion GEN-1 n'inclut délibérément ni biométrie vocale, ni suppression de bruit par IA, ni aucun traitement côté cloud. Chacune de ces options a été évaluée et rejetée. La biométrie vocale ajoute une surface d'attaque (extraction de gabarits, rejeu avec audio synthétique) qui excède le bénéfice de sécurité qu'elle apporte. La suppression de bruit par IA à la qualité attendue aujourd'hui exigerait des poids de modèle que nous ne pouvons pas auditer intégralement et un calcul que nous ne pouvons pas confiner au Secure Domain. Le traitement cloud de toute sorte est incompatible avec le modèle de menace.
Nous ne livrons pas non plus de service d'annuaire, d'indicateur de présence ou de métadonnée out-of-band sur qui est en ligne. Le dispositif effectue un pairing point-à-point avec confirmation explicite de l'utilisateur des deux côtés, et un appel se connecte ou échoue sans laisser fuir, même le fait qu'une tentative a été faite, à personne en dehors des deux endpoints. C'est de la friction ; c'est aussi la seule réponse honnête à un modèle dans lequel le réseau est l'adversaire.
GEN-2, actuellement en phase d'architecture préliminaire, réexaminera certains de ces choix à la lumière du silicium NPU on-device dédié récemment apparu. Pour GEN-1, néanmoins, la conception est intentionnellement minimale. Elle fait une seule chose : elle rend un appel voix entre deux utilisateurs consentants qu'un adversaire en possession de ciphertext aujourd'hui ne pourra pas lire dans la seconde moitié des années 2030.
Ce que cela signifie pour les acheteurs
Q-Audion GEN-1 n'est pas positionné contre les casques grand public et ne devrait pas être comparé à eux sur les dimensions sur lesquelles les produits grand public optimisent. C'est une catégorie en soi : un endpoint voix portable ingénieré pour le modèle de menace de la protection exécutive, des communications souveraines et des négociations à fort enjeu. Le bon acheteur l'évalue par rapport au coût de la conversation qu'il protège, et non par rapport au coût d'un matériel audio grand public comparable.
Si votre organisation a du trafic voix dont le contenu vous causerait un dommage matériel s'il était lu par un adversaire dans cinq ou dix ans, la réponse conventionnelle (casque grand public, soft-client, TLS) n'est plus adéquate. Q-Audion GEN-1 est une réponse défendable. Les choix architecturaux qui le sous-tendent, à savoir la séparation à deux domaines, le Secure Element certifié, l'hybride PQC [7][8], le mute matériel, constituent le vocabulaire d'ingénierie que vous devriez attendre de tout fournisseur faisant des affirmations crédibles dans cet espace. Le CRA [4] rendra, à partir de décembre 2027, beaucoup de ces choix un plancher légal plutôt qu'un facteur de différenciation.