Warum ein Headset und warum jetzt
Sprache bleibt der operativ kritischste und kryptografisch am stärksten vernachlässigte Kommunikationskanal im Unternehmen. Führungskräfte, Anwälte, M&A-Teams und Regierungsverhandler führen Gespräche, deren strategischer Wert die vorhandenen technischen Schutzmaßnahmen bei Weitem übersteigt. Der dominierende Stack, Consumer-Headsets per BLE an ein Smartphone gekoppelt, auf dem ein Soft-Client läuft, beruht auf Annahmen, die kein Sicherheitsarchitekt für ein anderes Tier-1-Asset akzeptieren würde: Schlüssel in veränderbarer Software, Seitenkanäle durch das Host-Betriebssystem und eine Transportschicht, die innerhalb der Berufslebensdauer der meisten heutigen Führungskräfte kryptanalytisch gebrochen werden wird [1].
Q-Audion GEN-1 gehört zu den ersten Produkten einer bewusst eng gefassten Kategorie: ein hardware-verwurzelter, post-quanten gesicherter Sprach-Endpunkt, der weder dem Telefon noch dem Laptop noch dem Betriebssystem vertraut, mit dem er kommuniziert. Jede kryptografische Operation findet innerhalb eines manipulationssicheren Secure Element statt. Jedes Byte unverschlüsselten Audiosignals existiert ausschließlich innerhalb einer isolierten DSP-Domäne. Das Host-Gerät wird als feindliches Netz behandelt, nicht als Peer.
Wir haben das GEN-1-Programm mit einer einzigen architektonischen Verpflichtung gestartet: Wenn der Entwurf einen Kompromiss zwischen kryptografischer Stärke, Seitenkanal-Widerstand und operativer Ergonomie erzwingen würde, würde die Ergonomie verlieren. Das Ergebnis ist ein Gerät, das schwerer ist als ein Consumer-Headset, mehr Strom aufnimmt als ein True-Wireless-Earbud und das einige Sekunden für das Erstpairing benötigt. Jede dieser Zahlen ist die bewusste Konsequenz des Bedrohungsmodells.
Das Bedrohungsmodell in einem Absatz
Q-Audion GEN-1 muss die Vertraulichkeit und Integrität eines Sprachgesprächs gegen einen Gegner schützen, der das Host-Gerät (Laptop, Telefon, Headset-Gateway) kontrolliert, den Funkverkehr beobachten und modifizieren kann, physische Seitenkanalangriffe gegen das Gerät über kurze Zeitfenster durchführen kann und zu irgendeinem Zeitpunkt während der operativen Lebensdauer der zu schützenden Daten Zugang zu einem fehlertoleranten Quantenrechner haben könnte. Es wird angenommen, dass der Gegner keine durchgehende, mehrstündige physische Verwahrung des Geräts mit Laborinstrumentierung hat: Das ist die Grenze, an der das Bedrohungsmodell auf die physische Sicherheitspolitik verweist.
Jede Entwurfsentscheidung, die folgt, ist die direkte Übersetzung einer oder mehrerer Klauseln dieses Bedrohungsmodells in Hardware-, Firmware- oder Protokollentscheidungen. Es gibt kein anderes Leitprinzip.
Zweidomänen-Hardwarearchitektur
Intern ist das Gerät in zwei elektrisch und logisch isolierte Domänen aufgeteilt. Die Application Domain verwaltet BLE, die Benutzeroberfläche, das Batteriemanagement und die Funkverbindung zum gepaarten Host. Sie betreibt ein eingeschränktes RTOS auf einem Allzweck-MCU der Cortex-Klasse von einem europäischen Hersteller sicheren Siliziums. Diese Domäne wird als halbvertrauenswürdig behandelt: Sie kann ausfallen, neu programmiert oder kompromittiert werden, ohne den kryptografischen Zustand zu gefährden.
Die Secure Domain ist um ein zertifiziertes Secure Element mit integriertem PQC-Beschleuniger und einem dedizierten Audio-DSP herum aufgebaut. Diese Domäne bewahrt den langfristigen Identitätsschlüssel auf, führt alle ML-KEM-1024- [1] und ML-DSA-87-Operationen [2] aus und ist der einzige Ort, an dem entschlüsselte Audiosamples existieren. Die beiden Domänen kommunizieren über einen hardware-gegateten, fest formatierten Befehlskanal, ohne direkten Speicherzugriff von der Application-Seite zur Secure-Seite. Es gibt keinen gemeinsamen Bus, kein DMA-Fenster, keinen Debug-Pfad, der die Grenze in der Produktions-Firmware überquert.
Diese Trennung ist die einzelne kostenintensivste architektonische Entscheidung des Geräts. Sie verdoppelt in etwa die Siliziumkosten gegenüber einem Single-MCU-Design und macht Firmware-Updates erheblich komplexer. Sie macht jedoch auch die gesamte Klasse von Kompromittierungen auf Host-Seite irrelevant: Selbst mit vollständiger Kontrolle über die Application Domain und den gepaarten Host kann ein Angreifer weder einen Schlüssel extrahieren noch einen gespeicherten Frame entschlüsseln noch eine Signatur fälschen.
Der kryptografische Kern
Die Identität wird in der Provisioning-Phase festgelegt, indem ein ML-DSA-87-Schlüsselpaar vollständig innerhalb des Secure Element erzeugt wird [2]. Der private Schlüssel verlässt das SE niemals und ist an die einzigartige unklonbare Kennung des Geräts gebunden. Der öffentliche Schlüssel wird von der BCrypto-Provisioning-CA signiert, was ein Gerätezertifikat erzeugt, das später beim Pairing präsentiert wird. Es gibt weder in der Firmware noch in der Fabrikinstrumentierung einen Pfad, um den privaten Signaturschlüssel zu exportieren.
Der Sitzungsaufbau verwendet hybrides ML-KEM-1024 mit X25519 [7]. Wenn zwei Q-Audion-Geräte einen Anruf aufbauen, erzeugt jedes ein ephemeres Schlüsselpaar aus beiden Verfahren, tauscht die öffentlichen Schlüssel über einen authentifizierten Kanal aus (signiert mit der langfristigen ML-DSA-87-Identität) und leitet einen 256-Bit-Sitzungsschlüssel über HKDF-SHA384 aus der Konkatenation der beiden gemeinsamen Geheimnisse ab, mit expliziten Längenpräfixen und Domänentrennung. Die klassischen und post-quanten Komponenten sind unabhängig: Die Kompromittierung einer einzelnen, isoliert betrachtet, schwächt den resultierenden Sitzungsschlüssel nicht.
Der Audiotransport verwendet AES-GCM 256 mit einer 96-Bit-Nonce, die aus einem Salt pro Sitzung und einem streng monoton steigenden 64-Bit-Frame-Zähler aufgebaut ist. Die Framegröße beträgt 20 ms Opus bei 16 kHz und ergibt Ciphertexte von etwa 320 Byte. Der Replay-Schutz wird durch ein Gleitfenster von 1024 Frames durchgesetzt. Frames außerhalb der Reihenfolge innerhalb des Fensters werden akzeptiert; Frames außerhalb des Fensters werden ohne weitere Verarbeitung verworfen. Dieser Entwurf toleriert den BLE-inhärenten Jitter, ohne die Replay-Abwehr zu schwächen.
Das MEMS-Array und die akustische Isolation
Die Mikrofonauswahl wird selten als Sicherheitsentscheidung behandelt, doch für ein Gerät, das beansprucht, ein Gespräch gegen einen entfernten Gegner zu schützen, ist sie eine der folgenreichsten. Q-Audion GEN-1 verwendet ein dreiteiliges MEMS-Array mit Beamforming, das auf den Mund des Nutzers gerichtet ist und so positioniert ist, dass es die Unterdrückung von Umgebungsquellen jenseits von etwa 40 Zentimetern maximiert. Der Beamformer läuft innerhalb des DSP der Secure Domain auf rohen PDM-Samples, die die Domänengrenze niemals im Klartext überqueren.
Das akustische Ziel besteht darin, das Abhören über ein Lasermikrofon, einen parametrischen Beamforming-Angriff von einem nahegelegenen Gerät oder ein kompromittiertes Host-Mikrofon erheblich zu erschweren. Keine dieser Bedrohungen lässt sich durch das Headset allein beseitigen, doch jede kann verteuert werden. Das MEMS-Array reduziert das einem Off-Axis-Angreifer verfügbare Signal um 20 bis 30 dB gegenüber einem omnidirektionalen Einzelelement-Mikrofon, was eine signifikante Veränderung des Engagement-Umfelds eines typischen Abhörszenarios bedeutet.
Derselbe DSP-Pfad enthält einen Hardware-Mute, der das analoge Frontend des Mikrofon-Arrays physisch unterbricht. Reiner Software-Mute, das dominierende Schema in Consumer-Headsets, ist in unserem Bedrohungsmodell inakzeptabel: Eine kompromittierte Firmware kann ihn ignorieren. Der Hardware-Mute wird über einen dedizierten Knopf bereitgestellt, dessen Zustand von beiden Domänen unabhängig erfasst wird; eine Diskrepanz löst einen fail-secure Shutdown des Audiopfads aus.
Seitenkanal- und Manipulationsschutz
Alle PQC-Primitiven werden innerhalb des Secure Element unter Verwendung einer constant-time-Arithmetikbibliothek implementiert, die gegen die relevanten Seitenkanal-Widerstandsprofile zertifiziert ist. Insbesondere wird der ML-KEM-Entkapselungspfad gegen Timing-, Power- und elektromagnetische Emanationskanäle auditiert, und die Implementierung ist erstordnungsmäßig gegen Differential Power Analysis maskiert [6]. Wir verlassen uns auf die Zertifizierung des Secure-Element-Lieferanten, anstatt eine eigene Implementierung zu entwickeln: Dies ist einer der wenigen Punkte im Entwurf, an denen zertifiziertes kommerzielles IP strikt sicherer ist als maßgeschneiderte Arbeit.
Der physische Manipulationsschutz zielt auf das Niveau EAL 4+ ab, im Einklang mit dem Zertifizierungsprofil vergleichbarer kommerzieller Secure Elements [5]. Die Secure Domain ist unter einer manipulationsdetektierenden Vergussmasse gekapselt, und das Gerätechassis enthält Intrusion-Detection-Leiterbahnen, die das Zeroising des gesamten Sitzungs- und Identitätsmaterials bei mechanischem Eingriff auslösen. Der Cold-Boot-Widerstand wird durch einen ladungsverlustanfälligen flüchtigen Keystore für ephemeres Material und durch verschlüsselten Speicher für langfristiges Material gewährleistet.
Die Firmware ist mit einem ML-DSA-87-Root-Key signiert, der bei BCrypto offline aufbewahrt wird [2]. Updates werden over-the-air über den gepaarten Host ausgeliefert, aber innerhalb der Secure Domain verifiziert, bevor sie in die Boot Bank übernommen werden. Ein Rollback-Zähler, der in einmalig programmierbaren Fuses verankert ist, verhindert das Downgrade auf eine zuvor verwundbare Version. Der Boot-Pfad erzwingt einen Measured Boot beider Domänen, wobei die Messung der Secure Domain die der Application Domain erweitert, sodass eine Kompromittierung der einen oder anderen beim nächsten Neustart erkennbar ist. Das kryptografische Modul zielt auf FIPS 140-3 Level 3 ab [3].
Energie, Reichweite und die Grenzen des Formfaktors
ML-KEM-1024-Schlüsselaustausch und kontinuierliche AES-GCM-256-Verschlüsselung innerhalb des Batteriebudgets eines Headsets auszuführen, ist nur deshalb realisierbar, weil der PQC-Beschleuniger innerhalb des Secure Element jeden Handshake in einigen zehn Millisekunden bei sub-milliwatt durchschnittlicher Leistung ausführt. Eine naive Software-Implementierung auf einem Allzweck-Cortex-M würde mehrere Joule pro Handshake verbrennen und das Batteriebudget dominieren. Der Hardware-Beschleuniger ist die ermöglichende Komponente.
Die realistische Gesprächszeit bei einer einzelnen Ladung beträgt etwa 8 Stunden für einen aktiven Anruf bzw. etwa 14 Tage Standby im Leerlauf bei aktiven Paging-Beacons. Diese Zahlen waren Ziele, keine Beschränkungen: Wir haben die Batterie dimensioniert, um diese zu erreichen, nachdem die kryptografische Last charakterisiert war, anstatt die Sicherheit zu reduzieren, um in eine vorab gewählte Batterie zu passen. Das Ergebnis ist ein schwereres Gerät als typische Consumer-Headsets, ein Kompromiss, den wir angesichts des Bedrohungsmodells für akzeptabel halten.
Die BLE-Reichweite ist absichtlich auf etwa 5 Meter bei Standard-Sendeleistung begrenzt, deutlich unterhalb des BLE-5.x-Maximums. Die Begründung lautet, dass jede Notwendigkeit, über größere Entfernungen zu arbeiten, einen gepaarten Host impliziert, der nicht unter unmittelbarer physischer Kontrolle des Nutzers steht, was an sich ein Sicherheitsproblem ist, das keine Gegenmaßnahme auf Transportebene lösen kann. Der Entwurf drängt den Nutzer zu einer Einsatzhaltung, in der das Host-Gerät am Körper getragen wird, nicht am anderen Ende des Raums.
Was wir in GEN-1 nicht aufgenommen haben
Q-Audion GEN-1 enthält bewusst weder Sprachbiometrie noch KI-Rauschunterdrückung noch irgendeine cloud-seitige Verarbeitung. Jede dieser Optionen wurde bewertet und abgelehnt. Sprachbiometrie fügt eine Angriffsfläche hinzu (Template-Extraktion, Replay mit synthetischem Audio), die den von ihr gebotenen Sicherheitsnutzen übersteigt. KI-Rauschunterdrückung in der heute erwarteten Qualität würde Modellgewichte erfordern, die wir nicht vollständig auditieren können, sowie Berechnungen, die wir nicht auf die Secure Domain beschränken können. Cloud-Verarbeitung jeglicher Art ist mit dem Bedrohungsmodell unvereinbar.
Wir liefern darüber hinaus weder einen Verzeichnisdienst noch einen Präsenzindikator noch irgendwelche Out-of-Band-Metadaten darüber, wer online ist. Das Gerät führt ein Point-to-Point-Pairing mit expliziter Nutzerbestätigung auf beiden Seiten durch, und ein Anruf wird entweder aufgebaut oder schlägt fehl, ohne auch nur die Tatsache eines Versuchs an irgendjemanden außerhalb der beiden Endpunkte preiszugeben. Das ist Reibung; es ist zugleich die einzige ehrliche Antwort auf ein Modell, in dem das Netz der Gegner ist.
GEN-2, derzeit in der Phase der frühen Architektur, wird einige dieser Entscheidungen im Lichte des jüngst aufgetauchten dedizierten On-Device-NPU-Siliziums neu betrachten. Für GEN-1 ist der Entwurf jedoch absichtlich minimal. Es tut eine einzige Sache: Es ermöglicht einen Sprachanruf zwischen zwei einwilligenden Nutzern, den ein Gegner, der heute Ciphertext besitzt, in der zweiten Hälfte der 2030er Jahre nicht lesen kann.
Was dies für Käufer bedeutet
Q-Audion GEN-1 ist nicht gegen Consumer-Headsets positioniert und sollte nicht in jenen Dimensionen mit ihnen verglichen werden, auf die Consumer-Produkte optimieren. Es handelt sich um eine eigene Kategorie: ein tragbarer Sprach-Endpunkt, der auf das Bedrohungsmodell des Personenschutzes, der souveränen Kommunikation und hochbrisanter Verhandlungen hin entwickelt wurde. Der richtige Käufer bewertet ihn anhand der Kosten des Gesprächs, das er schützt, nicht anhand der Kosten vergleichbarer Consumer-Audio-Hardware.
Wenn Ihre Organisation Sprachverkehr hat, dessen Inhalt Ihnen materiellen Schaden zufügen würde, falls er in fünf oder zehn Jahren von einem Gegner gelesen würde, ist die konventionelle Antwort (Consumer-Headset, Soft-Client, TLS) nicht länger angemessen. Q-Audion GEN-1 ist eine verteidigungsfähige Antwort. Die zugrundeliegenden architektonischen Entscheidungen, die Zweidomänen-Trennung, das zertifizierte Secure Element, die hybride PQC [7][8], der Hardware-Mute, sind das ingenieurtechnische Vokabular, das Sie von jedem Anbieter erwarten sollten, der in diesem Bereich glaubwürdige Aussagen trifft. Der CRA [4] wird ab Dezember 2027 viele dieser Entscheidungen zu einer gesetzlichen Mindestanforderung statt zu einem Differenzierungsmerkmal machen.