DeepSpeech ist eine quelloffene, lokale Sprache-zu-Text-Engine, die mit Machine Learning unter Verwendung des TensorFlow-Frameworks erstellt wurde. Es ist in Verbindung mit der ebenfalls von Mozilla zusammengestellten Stimmdatenbank Common Voice Corpus bereits auf einem Raspberry Pi 4 in Echtzeit lauffähig.
DeepSpeech eingestellt
Im Rahmen der Konzentration auf den Firefox-Browser wurde das Projekt jetzt von Mozilla eingestellt. Das verwundert nicht wirklich, fand die letzte Veröffentlichung doch bereits im Dezember 2020 statt. Seitdem gab es im jetzt archivierten Repository auf GitHub keine Commits mehr.
Common Voice Corpus lebt
Die seit dem Jahr 2017 erstellte Stimmdatenbank Common Voice Corpus wird hingegen weiter von Mozilla entwickelt. Im März 2025 wurde die Version 21.0 des Common Voice Corpus veröffentlicht, die nun 134 Sprachen mit insgesamt 33.535 aufgenommenen Stunden umfasst und damit den weltweit größten offenen Sprachdatensatz darstellt. Auch der deutschsprachige Datensatz wächst stetig und erreichte in Version 21.0 einen Umfang von 1.452 Stunden.
Neuer Sprachsatz
Noch in diesem Jahr soll nach einer erfolgreichen Alpha-Phase der neue Sprachsatz Spontaneous Speech eingeführt werden. Spontaneous Speech zielt darauf ab, natürlichere und vielfältigere Sprachdaten zu erfassen. Während das bisherige Common Voice Corpus aus vorbereiteten und vorgelesenen Sätzen besteht, ermöglicht Spontaneous Speech das Sammeln von Sprachaufnahmen, in denen Menschen frei und ungeplant auf offene Fragen antworten. Bleibt zu hoffen, dass Common Voice Corpus nicht auch dem Rotstift zum Opfer fällt.
Bisschen weniger für die Vorstände ausgeben, dann bleibt auch mehr für die Projekte übrig…
Vieles sind doc echt nur Projekte damit man nen Catcher fuer den Verkauf hat.
Die werden dann eben auch wieder gestrichen.