Common Voice Logo

Mozilla Common Voice Corpus 22.0 veröffentlicht

Nachdem wir in der vergangenen Woche berichtet hatten, dass Mozilla seine quelloffene, lokale Sprache-zu-Text-Engine DeepSpeech eingestellt hat, erreichte uns jetzt die erfreuliche Meldung, dass der Common Voice Corpus, der weltweit größte freie Datensatz menschlicher Stimmen bei Mozilla weiterhin gepflegt wird.

Größte freie Stimmdatenbank

Der Common Voice Corpus wurde 2017 noch vor der Freigabe der Engine DeepSpeech begonnen und seither immer wieder aktualisiert. Das zunächst in Englisch gestartete Projekt wurde bald mehrsprachig und umfasste 2019 bereits 1.400 Stunden Stimmaufnahmen in 18 Sprachen von über 42.000 Personen. Die Stimmdatenbank wird von Freiwilligen erstellt, die Beispielsätze in möglichst vielen Sprachen mit einem Mikrofon einsprechen. Damit sollen Geräte lernen, wie echte Menschen zu sprechen.

Vor wenigen Tagen wurde Common Voice Corpus 22.0 veröffentlicht. Mittlerweile umfasst das Projekt 137 Sprachen mit insgesamt 33.816 Stunden Material. In der aktuellen Version wächst der deutschsprachige Datensatz auf 1.476 Stunden aufgenommener Stimmen.

Sprache-zu-Text-Anwendungen

Die Datenbank steht unter der Creative Commons CCO-Lizenz und soll Sprache-zu-Text-Anwendungen (STT) weiter voranbringen und das Terrain nicht nur den Platzhirschen von Amazon, Apple, Google und Microsoft überlassen. Noch in diesem Jahr soll nach einer erfolgreichen Alpha-Phase der neue Sprachsatz Spontaneous Speech eingeführt werden. Spontaneous Speech zielt darauf ab, natürlichere und vielfältigere Sprachdaten zu erfassen. Während das bisherige Common Voice Corpus aus vorbereiteten und vorgelesenen Sätzen besteht, ermöglicht Spontaneous Speech das Sammeln von Sprachaufnahmen, in denen Menschen frei und ungeplant auf offene Fragen antworten.

Die Sprachdatensätze der einzelnen Sprachen stehen auf der Projektseite zum Download bereit und können unter anderem mit Text-to-Speech-Modellen wie Coqui TTS oder ESPnet-TTS genutzt werden. Wer mehr über TTS und STT erfahren möchte, kann sich gerne meinen Artikel »Sprachsynthese mit freier Software« im LinuxUser 06/2025 anschauen.

Teilt den Beitrag, falls ihr mögt

Kommentar hinterlassen