Bei der Recherche für einen Artikel über Text2Speech und Speech2Text unter Linux bin ich auf die kleine App Speech Note gestoßen, nicht zu verwechseln mit dem proprietären SpeechNotes. Insofern ist der Name nicht wirklich clever gewählt. Clever ist dagegen das Konzept der noch jungen Anwendung.
Speech Note ist eine vielseitige Anwendung für Notizen, die durch ihre Funktionen und Datenschutzorientierung hervorsticht. Die wichtigsten Merkmale sind:
- Sprachverarbeitung:
- Speech-to-Text (STT): Wandelt gesprochene Sprache in Text um.
- Text-to-Speech (TTS): Liest Notizen vor.
- Maschinelle Übersetzung (MT): Übersetzt Notizen in mehrere Sprachen.
- Offline-Betrieb:
- Alle Sprach- und Textverarbeitungen erfolgen zum Schutz der Privatsphäre lokal auf dem Gerät, ohne Internetverbindung.
- Multilinguale Unterstützung:
- Unterstützt zahlreiche Sprachen und Modelle, darunter DeepSpeech, Whisper, Vosk und Piper für STT sowie RHVoice, espeak und Coqui für TTS.
Die Oberfläche ist in die Sektionen Notepad und Translator unterteilt. Als Notepad nimmt die App Notizen auf. Alternativ lässt sich Text aus einer Text- oder Audiodatei einlesen. Im Translator-Modus übernimmt die App den Text und übersetzt ihn nach Einstellung der Ursprungs- und Zielsprache. Über den Read-Button lassen sich Original und Übersetzung vorlesen. Mit der Option translate as you type übersetzt die App das Geschriebene in Echtzeit. Laut GitHub werden 69 Sprachen unterstützt, allerdings sind nicht alle Funktionen auch für sämtliche Sprachen verfügbar.
Die App beherrscht neben Text auch HTML und Markdown. Statt einfachen Text kann Speech Note auch SRT-Untertiteldateien erzeugen. Die App steht als Flatpak auf Flathub zur Installation bereit. Nach dem ersten Start müssen Sprachen und Modelle integriert werden. In einem ersten kleinen Test leistete die App genau das, was sie versprach. Wer also eine Notiz-App sucht, die zusätzlich Sprachsynthese und Übersetzung bietet, wird hier fündig.

Ich nutze das um lange Briefe zu transkribieren.
Hab das LLM v3 oder so ähnlich ausgewählt.
Funktioniert nahezu fehlerfrei und schnell.
Text sprechen, Datei einfügen, kurz warten, fertig. Dann in Libre Office kopieren und ggf. Bearbeiten.
Wichtig war mir die lokale Verarbeitung.
Mich würde ja bei den Modellen interessieren, welche wirklich OpenSource oder Free Software sind. Das ist nämlich nicht immer der Fall.
Ich suche nämlich Modelle UND Code, die wirklich OpenSource und SelfHosted sind für STT und TTS.
Habt ihr da genauere Kenntnis
Open Source und Free Software sind viele. Man muss halt herausfinden, mit welchen Daten die Modelle erstellt wurden. Sehr offen und informativ ist hier für den deutschen Sprachraum Thorsten-Voice. Viel schwieriger ist das etwa bei Anwendungen wie WhisperAI. Funktioniert zwar wunderbar, die Erstellung durch OpenAI ist aber eher undurchsichtig.
klingt gut! wieso hast du thorsten voice oben nicht erwähnt? mal gucken, ob der wenigstens auch englisch (oder sogar spanisch oder französisch) kann..
Habs vergessen:) Soweit ich weiß, gibt es Thorsten-Voice nur auf Deutsch (und Hessisch).