A boy with a microphone

EasySpeak: Sprachsteuerung für den Linux-Desktop

Sprachsteuerung auf dem Linux-Desktop sollte eigentlich längst sauber funktionieren. In der Praxis stolpert man aber häufig über Probleme wie X11-Altlasten, Cloud- oder LLM-Zwang oder Tools, die eher Power-User ansprechen als den Durchschnittsanwender. Gerade stellt der bekannte Entwickler Matt Hartley mit EasySpeak eine Anwendung für moderne Desktops vor, die genau diese Lücke stopfen will. Als Vorbild erwähnt er Talon, das zwar sehr mächtig, aber auf X11 beschränkt und in der Vollversion kostenpflichtig ist.

EasySpeak ist vom Ansatz her lokal, quelloffen, Wayland-nativ und derzeit exklusiv für moderne GNOME-Desktops gedacht. Getestet hat Hartley mit Fedora.

Was ist EasySpeak?

EasySpeak ist ein Sprachsteuerungs-Framework für den GNOME-Desktop, das ohne Cloud-Anbindung funktioniert. Über den Sprachtrigger »Hey Jarvis«, gefolgt von einem Kommando, startet EasySpeak Apps, steuert Medien, diktiert Text oder bewegt die Maus über ein Raster. EasySpeak richtet sich an Nutzer, die ihren Rechner aus ergonomischen Gründen, für Barrierefreiheit oder schlicht aus Bequemlichkeit freihändig oder mit reduzierter Eingabe bedienen möchten.

EasySpeak ist ziemlich ambitioniert, steht aber noch sehr am Anfang der Entwicklung. Es ist in Teilen funktional, aber vieles funktioniert bisher nicht oder nicht zuverlässig. Wer damit arbeitet, sollte Experimentierfreude sowohl bei der Installation, der Bedienung als auch der Erweiterung durch Plug-ins mitbringen.

Die Anwendung setzt auf Wayland-kompatible Schnittstellen. Für Maus- und Pointer-Aktionen kommt eine GNOME-Shell-Erweiterung zum Einsatz, Texteingabe läuft über das Accessibility-Framework AT-SPI. Andere Desktops als GNOME werden derzeit nicht adressiert, X11 bleibt außen vor.

Funktionen im Überblick

  • Wakeword („Hey Jarvis“) für Freisprech-Aktivierung
  • Mouse Grid zur sprachgesteuerten Cursor-Navigation
  • Diktierfunktion für beliebige Textfelder
  • App-Launcher: Starten und Schließen von Anwendungen
  • Media- & Systemsteuerung: MPRIS, Lautstärke, Helligkeit
  • Browser-Steuerung für Qutebrowser mit der Stimme
  • Plug-in-System für eigene Sprachkommandos

Das Mouse-Grid teilt den Bildschirm in ein 3×3-Raster. Per Zahlenbefehl zoomt man schrittweise in Bereiche hinein und löst Klicks oder Drag-&Drop per Sprache aus.

Die Technik dahinter

EasySpeak setzt auf drei lokale Bausteine

  • OpenWakeWord erkennt das Wakeword (Hey Jarvis)
  • Speech-to-text: faster-whisper transkribiert Sprache zu Text
  • Text-to-Speech: Piper gibt Sprachfeedback

Wakeword-Erkennung, Speech-to-Text und Text-to-Speech laufen vollständig lokal. Es werden keine Audiodaten an externe Dienste übertragen, es gibt keine Benutzerkonten und keine Telemetrie. Die Installation des ambitionierten Projekts erfolgt derzeit noch über Git-Checkout, Python-Virtualenv und manuelle Einrichtung der GNOME-Extension.

Erweiterbar per Plug-in

Ein Pluspunkt ist die einfache Plug-in-Architektur. Neue Sprachbefehle lassen sich als Python-Dateien ergänzen, die bei erkannten Kommandos Aktionen ausführen. Das macht EasySpeak besonders interessant für technisch versierte Nutzer, die ihren Desktop automatisieren wollen. Die Möglichkeiten sind unbegrenzt und reichen vom Starten komplexer Arbeitsabläufe bis hin zur Anbindung externer Tools.

Wo steht die Anwendung?

EasySpeak ist derzeit weniger ein fertiges Werkzeug als ein technisch interessantes Experiment. Wer bereit ist, sich auf GNOME ab Version 47, Wayland und einen nicht ganz trivialen Set-up-Prozess einzulassen, bekommt einen realistischen Eindruck davon, wie lokale Sprachsteuerung unter Linux aussehen kann. Die praktischen Einsatzszenarien und die Erweiterbarkeit per Plug-in verdienen eine ausführlichere Betrachtung, die ich mir für einen späteren Artikel in der Zeitschrift LinuxUser aufhebe.

Foto von Jason Rosewell auf Unsplash

Teilt den Beitrag, falls ihr mögt

Ein Kommentar

  1. Toll!
    Keine Arme kein Keks war gestern.
    Wenn Linux dann noch auf jedes Wort gehorchen lernt und alles macht was man will…die Möglichkeiten sind unbeschreiblich.
    Da wird die Alexa Cloud wohl bald Feierabend haben und vereinsamen. Wir bleiben local und essen was zuhause auf den Tisch kommt. Sehr schön 😉

    3

Kommentar hinterlassen