Mozilla Common Voice 25.0 veröffentlicht

2. April 2026 Ferdinand News 2 Kommentare

Common Voice Corpus, der von Mozilla gepflegte, weltweit größte freie Datensatz menschlicher Stimmen, wurde in v25.0 veröffentlicht. Wir berichteten bereits mehrfach über dieses unter der Creative Commons CCO-Lizenz stehende Projekt. Das seit 2017 bestehende Projekt Common Voice fördert damit den Markt der Spracherkennung alternativ zu den großen kommerziellen Anbietern wie Amazon, Apple, Google und Microsoft.

Mozilla Common Voice 25

Der aktuelle Datensatz Common Voice Scripted Speech 25 deckt 290 Sprachen mit 41.792 Stunden eingesprochener Stimmen ab. Für die deutsche Sprache haben 20.466 Menschen insgesamt 1.486 Stunden an Sprachsamples eingesprochen. Die Sprachsätze stehen bei Mozilla zum Download bereit. Der deutsche Sprachsatz umfasst rund 35 GB.

2 Kommentare

mszet sagt:

6. April 2026 um 0:50 Uhr

Gibt es dazu schon verwertbare freie und open-Source Software mit möglichst guter deutscher Sprachunterstützung?

Mit freundlichen Grüßen
Michael

0

Zum Antworten anmelden
1. littlesmith sagt:
  
  7. April 2026 um 13:53 Uhr
  
  Diese Daten sind keine “Stimmen” für Sprachausgabesysteme sondern Rohdaten zum Training von Spracherkennungssystemen.
  Bei den Daten handelt es sich um eingesprochene Phrasen zu bekanntem Text, so dass man damit entsprechende Spracherkennungs-Modelle trainieren und testen kann.
  Das kannst du mit den einschlägigen Tools zum Trainieren von KIs verwenden, wenn du die entsprechende Hardware (oder eben Zeit) hast.
  
  0
  
  Zum Antworten anmelden

Kommentar hinterlassen Antwort abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.

Mozilla Common Voice 25

Teilt den Beitrag, falls ihr mögt

Kommentar hinterlassen Antwort abbrechen