Myna, Bergbeo

Projekt Myna: Ubuntus lokale Spracheingabe

Canonical hat mit dem kürzlich auf Discourse vorgestellten Projekt Myna eine neue Speech-to-Text-Lösung für den Ubuntu-Desktop angekündigt, die mit Ubuntu 26.10 »Stonking Stingray« im Oktober 2026 debütieren soll. Der Name ist Programm: Er lehnt sich an den Myna an, einen Vogel aus der Starenfamilie, der für seine Fähigkeit bekannt ist, menschliche Sprache zu imitieren und nachzuahmen.

Leistungsumfang

Die Bedienung ist bewusst simpel gehalten: Tastenkürzel drücken, sprechen, und der erkannte Text erscheint mit visueller Rückmeldung während des Diktierens direkt in der aktiven Anwendung. Für die erste Version hat Canonical die Funktionen bewusst schmal gehalten: Features wie Sprachassistenz, eigene Sprachbefehle, Desktop-Steuerung, Übersetzung und automatische Erkennung der Sprache sind explizit aus dem Funktionsumfang der ersten Veröffentlichung ausgeklammert.

Worauf basiert Myna?

Die Erkennung selbst läuft innerhalb einer in einer Sandbox isolierten Komponente namens Canonical Inference Snap, während ein Speech Orchestrator die Sitzung verwaltet und ein Audio-Adapter das Mikrofonsignal entgegennimmt, entrauscht und in kleinere Brocken (Chunks) aufteilt, bevor es das Modell erreicht. Als Sprach­erkennungsmodelle (ASR-Modelle) nennt das Projekt laut den Architekturdokumenten auf GitHub Whisper, Parakeet, Nemotron und Qwen3-ASR. Das Snap soll Sprachmodelle in drei Größen mitbringen, die von Leichtgewicht über Standard bis zu Qualität verschieden hohe Ansprüche an die Hardware stellen. Laufzeitumgebungen für NVIDIA-GPU, Intel-NPU oder schlicht Verarbeitung per CPU stehen ebenfalls auf dem Zettel der Entwickler.

Vollständig lokal?

Die Plattform setzt auf Spracherkennungsmodelle, die vollständig lokal auf der Hardware der Nutzenden laufen. Nach der Installation der benötigten Modelle ist keine aktive Internetverbindung mehr erforderlich. Darüber hinaus wird der Mikrofonzugriff strikt geregelt: Er aktiviert sich ausschließlich auf explizite Anforderung hin, und die Audiodaten werden im flüchtigen Arbeitsspeicher verarbeitet und sofort verworfen, ohne an externe Server übertragen zu werden.

Barrierefreiheit im Fokus

Spracheingabe ist eine wichtige Funktion im Hinblick auf Barrierefreiheit und ein nützliches Produktivitätswerkzeug für alle, denen Sprechen leichter fällt als Tippen. Canonical betont, dass Myna von Anfang an beide Aspekte gleichwertig adressieren soll. Besonders für Menschen mit motorischen Einschränkungen oder Erkrankungen, die die Nutzung von Tastatur und Maus erschweren, kann eine sauber implementierte und zuverlässig funktionierende, vollständig lokale Diktierlösung ohne Abhängigkeit von Cloud-Diensten oder proprietären Anbietern ein Anreiz sein, sich Myna für einen Test im Oktober vorzumerken. Canonical sucht deshalb aktiv Feedback von Menschen, die bereits auf Diktierfunktionen oder assistive Technologien angewiesen sind, um diese Anforderungen frühzeitig in die Architektur einfließen zu lassen.

Das initiale Release zielt auf Ubuntu Desktop mit Wayland und GNOME als unterstützter Umgebung ab, lässt die Architektur aber offen genug, um künftig weitere Desktop-Umgebungen zu unterstützen. Das Projekt steht unter der GPLv3, die Entwicklung kann auf GitHub verfolgt werden.

Foto von viswaprem anbarasapandian auf Unsplash

Teilt den Beitrag, falls ihr mögt

Kommentar hinterlassen